Мой спецсем: анализ твитов и разбиение графа

Спецсеминар для моих студентов и аспирантов будет проходить по средам в 607 ауд. ВМК МГУ, начало в 18:10. Завтра (16.09.2015) будет Читать далее

Реклама

Практический семинар по АД. Постскриптум.

Закончился семинар по анализу данных, организованный ребятами из Mail.ru. Несколько моих наблюдений и выводов.

1. Желающих участвовать было много. Я ставил на 80, но оказалось гораздо больше. Поэтому организаторам пришлось отсеивать по месту в лидерборде. На мой взгляд, отсев получился даже мягким… в форуме были готовые решения, которые преодолевали нужный порог.

2. Участники были очень неоднородны. Как оказалось, некоторые даже особо не поняли задачу (ещё раз подтверждает, что условия отбора мягкие). С другой стороны, были очень опытные спортивные аналитики: Семёнов, Трофимов, Дрёмов, которые изначально не рассчитывали на плотную работу на семинаре. Большинство опытных после докладов ушло (впрочем, организаторы это предвидели).

3. Совсем слаженной работы в группах не получилось. Наверное, надо, чтобы в каждой группе был опытный человек, который бы всем и руководил. Возможно, стоит формировать группы до мероприятия и продумывать (руководителю) сценарий работы с учётом возможностей членов группы. Кстати, по правилам кэгла нельзя просто так работать в группах, т.к. это обмен кодом и идеями между командами, поэтому нужно было запостить результаты групповой работы, но это так и не было сделано…

Зато впервые организовано подобное мероприятие. Читать далее

Размеры выборок

На семинаре в ВШЭ, на котором я недавно выступал, возник вопрос о размере выборки. Я обещал ответить на него в блоге. Итак, постараюсь обойтись без теории и формул. Как говорил академик В.И.Арнольд, «Математика —  наука экспериментальная», поэтому проведём эксперимент. Это, конечно, сделает текст не совсем строгим, зато понятным. См. под катом.

Читать далее

Deep plankton learning — road to the top

В ближайший понедельник (30 марта) на моём спецсеминаре выступит Александр Рыжков с рассказом от том, как он занял 13 место из более чем 1000 участников соревнования National Data Science Bowl (классификация изображений планктона) на платформе Kaggle. Очень неплохо, учитывая, что Александр только начал плотно знакомиться с технологией Deep Learning.

Потом добавлю сюда ссылку на слайды.

Спектральная теория графов

Завтра (23 марта) на своём спецсеминаре я сделаю доклад про СТГ (Spectral Graph Theory). Эта теория изучает свойства графов с помощью анализа собственных значений / собственных векторов / характеристических многочленов матриц, которые связаны с графами (матрица сопряжённости, матрица Лапласа, беззнаковая матрица Лапласа и т.п.). Читать далее