Scikit-Learn: тонкие вопросы о реализации методов машинного обучения

Рассмотрим несколько с виду простых вопросов об алгоритмах машинного обучения и их реализации, на которые, однако, немногие смогут верно ответить (можете попробовать сами – не читая объяснений, также в посте приведены дополнительные вопросы специально оставленные без ответа). Материал для среднего уровня (тех, кто уже знает ML и библиотеку sklearn).

Читать далее

Matlab

Начал выкладывать слайды своего курса ПЗАД. В его рамках я рассказываю также и про связку Matlab, R, Python (последнее время без R — в зависимости от настроения). Так получилось, что работать в Матлабе мне всегда нравилось: в своё время быстро перешёл на него с С, великолепная графика и помощь. Из минусов только отсутствие хороших библиотек для машинного обучения и платность.

matlab Читать далее

Python: категориальные признаки

Увидел несколько «немного неуклюжих» программ на Питоне, в которых авторы возились с категориальными признаками и решил написать небольшую заметку: как делать базовые вещи в несколько строк. Все примеры выложены на гитхабе, а ниже пояснения.

contries

Читать далее

NumPy — делаем быстрее

Чтобы ускорить выполнение кода на интерпретируемом языке программирования, следуют известным советам по избеганию использования циклов, своевременному выделению памяти, применению параллелизации и встроенных средств линейной алгебры. Для М-языка (Matlab) все советы можно найти в гл.15 уже старенькой книги автора. В принципе, они все годятся и для библиотеки NumPy языка Python, поскольку она практически копирует функционал Матлаба. Но кроме самих советов есть некоторые тонкости их использования. Сейчас на одном конкретном примере покажем, как можно ускорить выполнение кода.

speed

Читать далее

Мир программирования (1)

Обзор некоторых (в основном, свежих) материалов по языкам R и Python. Так получилось, что большая часть материалов — для новичков.

  • Learn X in Y minutes (уровень: начальный и средний) Хорошие и небольшие обзоры по языкам программирования.
  • Do you know Python? (уровень: знать Питон) Неплохой тест на знание языка Питон.
  • 5 Best Python Libraries for Data Science (уровень: начальный) Перечень основных библиотек для датамайнера со ссылками на лучшие туториалы.
  • An Introduction to Statistics  (уровень: начальный) Ресурс по статистике, но есть примитивный справочник по Питону для новичков.
  • 14 Best Python Pandas Features (уровень: знать Питон) Небольшой, но очень хороший обзор основных функций пакета Pandas.
  • usefulr.wordpress.com (уровень: средний) Ещё один блог о языке R.
  • R Cheat Sheets (уровень: знать R) Подсказки по языку R, интересный материал по графике в R.
  • The Grammar of Data Science: Python vs R (уровень: средний) Сравнение R и Python на примере одной задачи.

Мир анализа данных (1)

В обзорах я публикую только материалы, которые сам недавно внимательно изучил и которые мне показались занятными.