Рассмотрим несколько с виду простых вопросов об алгоритмах машинного обучения и их реализации, на которые, однако, немногие смогут верно ответить (можете попробовать сами – не читая объяснений, также в посте приведены дополнительные вопросы специально оставленные без ответа). Материал для среднего уровня (тех, кто уже знает ML и библиотеку sklearn).
Читать далеепрограммирование
Matlab
Начал выкладывать слайды своего курса ПЗАД. В его рамках я рассказываю также и про связку Matlab, R, Python (последнее время без R — в зависимости от настроения). Так получилось, что работать в Матлабе мне всегда нравилось: в своё время быстро перешёл на него с С, великолепная графика и помощь. Из минусов только отсутствие хороших библиотек для машинного обучения и платность.
Python: категориальные признаки
Увидел несколько «немного неуклюжих» программ на Питоне, в которых авторы возились с категориальными признаками и решил написать небольшую заметку: как делать базовые вещи в несколько строк. Все примеры выложены на гитхабе, а ниже пояснения.
NumPy — делаем быстрее
Чтобы ускорить выполнение кода на интерпретируемом языке программирования, следуют известным советам по избеганию использования циклов, своевременному выделению памяти, применению параллелизации и встроенных средств линейной алгебры. Для М-языка (Matlab) все советы можно найти в гл.15 уже старенькой книги автора. В принципе, они все годятся и для библиотеки NumPy языка Python, поскольку она практически копирует функционал Матлаба. Но кроме самих советов есть некоторые тонкости их использования. Сейчас на одном конкретном примере покажем, как можно ускорить выполнение кода.
Мир программирования (1)
Обзор некоторых (в основном, свежих) материалов по языкам R и Python. Так получилось, что большая часть материалов — для новичков.
- Learn X in Y minutes (уровень: начальный и средний) Хорошие и небольшие обзоры по языкам программирования.
- Do you know Python? (уровень: знать Питон) Неплохой тест на знание языка Питон.
- 5 Best Python Libraries for Data Science (уровень: начальный) Перечень основных библиотек для датамайнера со ссылками на лучшие туториалы.
- An Introduction to Statistics (уровень: начальный) Ресурс по статистике, но есть примитивный справочник по Питону для новичков.
- 14 Best Python Pandas Features (уровень: знать Питон) Небольшой, но очень хороший обзор основных функций пакета Pandas.
- usefulr.wordpress.com (уровень: средний) Ещё один блог о языке R.
- R Cheat Sheets (уровень: знать R) Подсказки по языку R, интересный материал по графике в R.
- The Grammar of Data Science: Python vs R (уровень: средний) Сравнение R и Python на примере одной задачи.
Мир анализа данных (1)
- Система распознавания лиц от Гугл Есть ссылки на статьи про создание FaceNet. Для фанатов deep learning.
- Статистика правительственных сайтов США Источник реальных данных — как заходят на правительственные сайты — цифры и инфографика.
- Let’s build open source tensor libraries for data science Заметка про тензорные методы в ML. Есть полезные ссылки.
- The Advanced Matrix Factorization Jungle Ресурс про матричную факторизацию (в принципе, довольно известный, но я решил его здесь запостить).
- 10 stunning images show the beauty hidden in pi Недавно был день числа π. Тут баян, но всё-таки одна иллюстрация (с хождениями) оказалась для меня новой и занятной.
- Deep Learning Блог по популярной теме… больше по аппаратной части.
- Machine Learning for Programming Лекция известного Питера Норвига.
- A Word is Worth a Thousand Vectors Есть полезные ссылки про word2vec.
В обзорах я публикую только материалы, которые сам недавно внимательно изучил и которые мне показались занятными.