На сайте появилась новая вкладка «Курсы», а главное, выложены материалы этого года (слайды и видео) курса ПЗАД, который читается для студентов ВМК МГУ, а ниже немного об истории курса.

На сайте появилась новая вкладка «Курсы», а главное, выложены материалы этого года (слайды и видео) курса ПЗАД, который читается для студентов ВМК МГУ, а ниже немного об истории курса.
В рамках университетского курса даю своим студентам несколько заданий по визуализации. Первое (простое) — найти интересные визуализации в Интернете (не обязательно связанные с анализом данных) и объяснить почему они интересны. Второе (сложное) — взять реальные данные с платформы Kaggle и принять там участие в конкурсе по визуализации (там можно в разделе Datasets создавать т.н. Kernels, за которые могут голосовать другие участники). Теперь, что из этого получилось в этом году…
На днях рейтинг Kaggle возглавил новый абсолютный чемпион — и им стал наш соотечественник Станислав Семёнов, с чем его и поздравляем! Станислав стал участвовать в соревнованиях в начале 2014 года, является самым стабильным участником (почти всегда попадает в десятку сильнейших), на первое место вышел после последней победы в соревновании Avito.
Кто ещё не смотрел — советую посмотреть видео с последних тренировок по машинному обучению. Очень хорошие доклады:
По традиции в последнюю пятницу сезона в московском офисе Mail.Ru Group собираются любители наук о данных. Ровно через неделю — 27 мая в 18:30 по адресу Ленинградский проспект, 39, стр. 79 можно будет послушать следующие доклады:
Продолжаем рубрику ЖЗЛ, сегодня интервью с самым сильным российским кэгловцем последних лет, который живёт и работает в ОАЭ — Дмитрием Ефимовым. Он единственный россиянин, который непрерывно присутствует в топе уже 4 года подряд и выигрывал мастер-турнир по анализу данных), завоевал на Кэгле 4 бронзы, 4 серебра и 1 золото! Это эксклюзивный материал, ведь больше интервью с Дмитрием нигде нет;) Читать далее
Сегодня в блоге материал из цикла ЖЗЛ;), в котором читатели познакомятся с интересными людьми. Правила очень простые: я нахожу неординарную личность и заваливаю вопросами (от любимой музыки и языков программирования до планов на жизнь и прогнозов будущего «датамайнинга»). На какие вопросы отвечать — каждый выбирает сам. Публикую ответы «как есть». Читатели могут оставлять и свои вопросы в комментариях;) Ну и мнение о подобном цикле (нужен/не нужен).
Первопроходцем в таком интервьюировании стал Саша Гущин, который за несколько последних соревнований на Кэгле два раза брал золото и один раз был третьим. Сейчас он 5й в общем рейтинге платформы после всего 20 соревнований. Итак, поехали… Читать далее
Есть такая задача — Link Prediction Problem, на русский язык нет однозначного перевода, но что-то типа «прогнозирование появления/исчезновения рёбер». В статическом варианте проблемы — дан граф (как правило, социальной сети), необходимо предсказать, какие рёбра в нём появятся в ближайшее время (и/или какие удалятся). В динамическом может быть дано несколько графов (в разные моменты времени) и прогноз может потребоваться на разные моменты времени. В варианте с фиксированным тестом — задано множество пар вершин, для которого нужно дать прогноз (например, какие из этих пар станут рёбрами). Из-за того, что чаще рассматривают графы соцсетей, возникает интересная терминология, например, смежные вершины называются друзьями, вершина, смежная с двумя другими вершинами, — их общим другом и т.д.
В рейтинге Кэгла есть небольшое, но серьёзное изменение: впервые за долгое время сменился лидер, на первое место вышел Гилберто, потеснив «непобедимого» Оуэна. Отрыв небольшой и легко ликвидируется в одном соревновании, но, как я понимаю, Оуэн уже устал после своих 40 состязаний. Со статистикой, кстати, интересно — Читать далее
Публикую список известных (мне) соревновательных платформ, на которых выкладываются задачи по анализу данных. Платформы упорядочены по году запуска, указан этот год, среднее число соревнований в год, среднее число участников (команд) в одном соревновании, а также даны комментарии (указаны плюсы и минусы). Читать далее