курс «Прикладные задачи анализа данных»

На сайте появилась новая вкладка «Курсы», а главное, выложены материалы этого года (слайды и видео) курса ПЗАД, который читается для студентов ВМК МГУ, а ниже немного об истории курса.

Автор один их первых в России начал участвовать в соревнованиях по анализу данных, например в 2005 году в конкурсе по классификации кортикограмм. Об этом здесь подробно писать не будем , тем более, что скоро появится релевантный материал 😉 Но главное, в условиях начала 2000х, когда открытых данных почти не было и потребности в специалистах AI/ML-направления в российском бизнесе не было, был накоплен неплохой и, главное, успешный опыт решения актуальных задач анализа данных (потом к нему добавился опыт решения уже в рамках проектов внутри крупных компаний).

Первое, на чём отразились такие увлечения автора — на работе в МГУ — практические задания для студентов стали в виде участия в соревнованиях. По-видимому, впервые в мире в обязательном порядке студенты выполняли практическое задание на платформе Kaggle в 2011 году — на соревновании Don’t Overfit (там в лидерборде полно теперь уже известных фамилий: Фигурнов, Соколов, Зимовнов, лидерборд, кстати, не окончательный, но это тоже отдельная история). Интересно, что автор всегда участвовал в таких соревнованиях вместе со студентами и они выбирались «боевыми», никаких «Титаников», которых тогда и не было. Кстати, как Вы думаете, откуда создателям Кэгла пришло осознание, что их платформа это ещё и потенциально полезный образовательный проект? 😉 Изначально они в эту сторону даже не смотрели…

В 2013 году на ВМК МГУ был запущен открытый спецкурс «Прикладные задачи анализа данных». Особенности курса до сих пор остаются недосягаемыми для аналогов:

  • лектор рассказывает практически только свои кейсы — и этого хватает на весь курс, тем более, что успешность кейсов подтверждена либо высокими местами в соревнованиях, либо внедрением продуктов в крупных компаниях. Сам лектор на момент создания курса — на первом месте в рейтинге Kaggle и профессор в МГУ. Весь курс, кстати, поддерживается один человеком, на первой стадии было тяжелее, поскольку, программированию и использованию специализированных библиотек тоже приходилось учить в рамках курса.
  • материал не похож на любой другой курс. В 2013 году и многие годы после никто подробно не рассказывал про предобработку данных, разведочный анализ и т.п. При этом постоянно появляются новые темы, например в 2015 году появилась Social Network Analysis (второй пример регулярного прочтения этой темы в РФ, первый — Жуков в ВШЭ). По сути, девизом курса являлась установка «рассказать то, что мне до этого никто не рассказывал». Кстати, за этот курс автор был признан лучшем преподавателем в IT в 2014 году (но это тоже отдельная история).
  • первый курс со звёздным составов слушателей. Только в первые три года его прослушали, в том числе, Трофимов Михаил, Рыжков Александр, Софиюк Константин, Фонарев Александр, Харациди Олег, Гущин Александр, Семёнов Станислав, Фенстер Александра, Ульянов Дмитрий, Сиверский Михаил, Шапулин Андрей, Нижибицкий Евгений, Остапец Андрей, Николаев Владимир, Нестеров Павел, Болкунов Дмитрий, Авдеев Вадим, Субботин Игорь, Потапенко Анна, Харченко Максим. И это неполный список! Стас Семёнов сам через некоторое время возглавил рейтинг Kaggle (и до сих пор лишь двоим россиянам это удавалось), а группа выпускников разработала курс в духе ПЗАДа на платформе coursera — «How to Win a Data Science Competition: Learn from Top Kagglers» (по популярности, конечно, они превзошли учителя 😉 .
  • Практика решения соревновательных задач и бизнес-кейсов в рамках курса стала регулярной (например, в ШАД её перенесли как раз слушатели курса), но до сих пор никто не реализовал практику в действующих соревнованиях с активным участием преподавателя. Случаи, когда в независимом соревновании с большим числом участников половина top10 заполняется слушателями курса, конечно впечатляют. Изначально рассмотрение реальных кейсов и соревнования в образовании считались чем-то странным, достаточно сказать, что глава ШАДа И.Б. Мучник назвал это ерундой (это было где-то в 2008-09, когда автор предлагал это в ШАДе).

Из интересного, название курса «Прикладные задачи анализа данных» — было выдумано автором, было уникальным и даже не гуглилось (и, на самом деле, и парадоксальным, поскольку не бывает неприкладных задач в анализе данных), сейчас так многие стали называть свои курсы и программы — достаточно вбить в поисковик название, чтобы убедиться в этом (и узнать плагиатчиков 😉 .

Сейчас курс существует до сих пор как обязательный для магистров — он разросся и по объёму является годовым (читается полгода по два занятия в неделю), даже больше, так как 30% тем каждый год лектор не успевает охватить. Конечно, сейчас он уже не выглядит супер-продвинутым, поскольку DS-образованием занимаются многие и есть большие пересечения в темах между курсами, хотя главные причины в том, что у автора размыт фокус (есть много параллельных курсов) и в том, что в эру DL темы курса потихоньку теряют актуальность. Материалы последнего года вы найдёте по ссылке на странице курсов, в том числе видео. Он уже не открытый для всех, хотя как спецкурс его может сдать любой магистр ВМК. В будущем, видимо, будут какие-то модификации курса, в связи с общей ревизией курсов по Искусственному интеллекту на ВМК. Часть курса читается автором в составе программы OzonMasters.

курс «Прикладные задачи анализа данных»: 5 комментариев

  1. Добрый день, Александр Геннадьевич

    Скажите, а можно как-то получить данные из dunnhumby shoppers challenge, чтобы воспроизвести результаты, о которых рассказывалось в 3 лекции PZAD?

    Заранее спасибо

  2. Добрый день, Александр Геннадиевич.

    Вы упоминали в лекции по Data Preprocessing, что источников по нему не очень много.

    Когда-то еще издавалась такая книга — Dorian Pyle «Data Preparation for data mining» (https://www.amazon.com/Preparation-Mining-Kaufmann-Management-Systems/dp/1558605290).

    Поиском в гугле можно найти также электронные копии

    Есть также еще одна книга — Data Preprocessing in Data Mining https://www.springer.com/gp/book/9783319102467

Оставьте комментарий