Наборы данных

Наука о данных разработчиков питает

Недавно участвовал в передаче “Стартапы. Инвестиции. Инновации” на медиапортале json.tv. Желающие могут посмотреть;) Признаюсь, что я немного нагнал про информатику… это слово есть в названии ВМКашной специальности: «Прикладная математика и информатика», а вот квалификация — «математик, системный программист» (в моём дипломе так). В названия ВАКовских специальностей оно тоже входит: 05.13.17 «Теоретические основы информатики». Но термин всё равно устаревает: молодёжь им не пользуется.

Многие ответы на вопросы в передаче по содержанию тесно пересекаются с лекцией на Постнауке: Анализ данных как область знания. А если на меня тошно смотреть, то можно послушать радио: передача Наука в фокусе на Эхе Москвы. Простите за пиар:) Просто, раз есть повод, сделал подборку ссылок по теме поста…

Почти юбилей

Примерно месяц назад я начал вести этот блог. При этом не объяснился, зачем… Просто показалось, что это удобно — иметь место, где можно поместить объявление или памятку (хотя бы для себя).

Я думал, что буду постить 2-3 раза в месяц, но это случилось 12 раз. Возможно, скоро надоест:)

Я думал, что аудитория будет небольшой (~15 посетителей за неделю), но в среднем его просматривают 20 человек в день (максимум — 65, минимум — 2).

Я думал, что аудитория будет состоять из моих студентов и коллег, но основной приток идёт из Фейсбука (которым я раньше не пользовался). Интересно, что Контактик уступает в два раза.

Судя по кликам, посетителям не интересны обзоры из серии «Мир анализа данных» или «Мир программирования», а вот ссылки на конкретные видяшки, страницы конференций, слайды и пр. пользуются популярностью.

Продолжаю эксперимент!

Спасибо всем, кто читает. Надеюсь, это как-то делает Вас лучше.

Kaggle: наши в тройке

Недавно завершилось соревнование Microsoft по классификации вредоносных программ. Российская команда вошла в тройку (среди 377 участников). Приятно, что все бронзовые призёры в прошлом ПЗАДовцы. Имена героев:

Решение ребят описано в форуме. Также скоро будет доклад на конференции.

Поздравляем и желаем дальнейших успехов!

Напомню, что до этого последний российский успех на Кэгле — вхождение в тройку Михаила Сиверского на соревновании по социальным сетям (кстати, в рамках последнего ПЗАДа).

Plotly

Самый важный совет для «визуализаторов данных»: храните не инфографику, а сами данные. Их всегда можно изобразить, причём в нужном формате. Звучит просто, но сам я часто попадался на этом, когда строил алгоритмы машинного обучения. Проводил эксперименты, изучал зависимость качества от параметров, сохранял графики… а когда потом писал статью, всё заново пересчитывал. Кстати, о том, где можно визуализировать сохранённые данные. Есть такой ресурс: https://plot.ly. Это бесплатное, простое и быстрое средство. Если зарегистрироваться, то на Вашу почту будут ещё приходить всякие забавные визуализации. А позволяет он делать такие штуки (щёлкните по графику):

Курсы валют: доллар и евро

Pandas

Чтобы в Питоне работать с данными, в которых не все признаки вещественные, приходится использовать пакет Pandas. В нём реализован тип дата-фрейм (который соответствует аналогичному в R). По сравнению с R здесь всё менее интуитивно, например, специфическая индексация элементов дата-фрейма (которую, впрочем, нетрудно освоить). Очень хороших учебных пособий по Панде нет, но на станице пакета размещено pdf-описание, в котором, в принципе, всё необходимое есть. Проще на основе описания создать себе ноутбук с подсказками основных функций. Мой лежит здесь.

Мир программирования (1)

Обзор некоторых (в основном, свежих) материалов по языкам R и Python. Так получилось, что большая часть материалов — для новичков.

  • Learn X in Y minutes (уровень: начальный и средний) Хорошие и небольшие обзоры по языкам программирования.
  • Do you know Python? (уровень: знать Питон) Неплохой тест на знание языка Питон.
  • 5 Best Python Libraries for Data Science (уровень: начальный) Перечень основных библиотек для датамайнера со ссылками на лучшие туториалы.
  • An Introduction to Statistics  (уровень: начальный) Ресурс по статистике, но есть примитивный справочник по Питону для новичков.
  • 14 Best Python Pandas Features (уровень: знать Питон) Небольшой, но очень хороший обзор основных функций пакета Pandas.
  • usefulr.wordpress.com (уровень: средний) Ещё один блог о языке R.
  • R Cheat Sheets (уровень: знать R) Подсказки по языку R, интересный материал по графике в R.
  • The Grammar of Data Science: Python vs R (уровень: средний) Сравнение R и Python на примере одной задачи.