Недавно стартовал новый конкурс по анализу данных. В помощь новичкам, которые захотят поиграться его данными, вот презентация, которую я обсуждал со своими магистрами на прошлом занятии, а вот код, с помощью которого получены все графики. Кстати, большие ipynb-файлы с гитхаба лучше смотреть с помощью nbviewer, например так.
презентация
Питон (Python)
Сейчас практически все, кто занимается анализом малых данных, делают это с помощью Питона… а ведь ещё 5 лет назад не было пакетов типа scikit-learn и единственной средой с реализованными бустингом, случайным лесом и т.п. оставался R (+ RStudio, т.к. никаких ноутбуков тоже не было). Или приходилось реализовывать все алгоритмы «с нуля», что я и делал в том же Matlab-е. Ещё были разные программки на С/С++ типа libSVM, SVMlight…
Теория нечётких множеств (ТНЧ)
Продолжаю выкладывать некоторые слайды, которые я делаю для магистров нашей кафедры. Сегодня — по нечётким множествам (fuzzy sets). Их ещё называют размытыми и пушистыми;) Читать далее
Знакомство с scikit-learn (слайды)
Небольшая презентация по пакету scikit-learn для Python. Снова делал в спешке, потом переделаю и сделаю ноутбук (добавлю здесь ссылку). Читать далее
Знакомство с Pandas (слайды)
Для магистров ВМК МГУ подготовил презентацию по пакету Pandas. С удивлением обнаружил, что по очень популярной среди питонистов панде совсем нет образовательных презентаций. Например, на www.slideshare.net нет ни одного материала по этому пакету (только среди обзоров пакетов для аналитиков данных). Поэтому исправил данный недостаток и закачал туда свою презенташку. Читать далее
Мой спецсем: анализ твитов и разбиение графа
Спецсеминар для моих студентов и аспирантов будет проходить по средам в 607 ауд. ВМК МГУ, начало в 18:10. Завтра (16.09.2015) будет Читать далее
Интересные презентации
Просмотрел всевозможные презентации по спортивной аналитике, машинному обучению и анализу данных. Вот наиболее понравившиеся (в списке есть как уже давно известные, так и новые). Спасибо их авторам за ценную информацию! Читать далее
Практический семинар по АД. Постскриптум.
Закончился семинар по анализу данных, организованный ребятами из Mail.ru. Несколько моих наблюдений и выводов.
1. Желающих участвовать было много. Я ставил на 80, но оказалось гораздо больше. Поэтому организаторам пришлось отсеивать по месту в лидерборде. На мой взгляд, отсев получился даже мягким… в форуме были готовые решения, которые преодолевали нужный порог.
2. Участники были очень неоднородны. Как оказалось, некоторые даже особо не поняли задачу (ещё раз подтверждает, что условия отбора мягкие). С другой стороны, были очень опытные спортивные аналитики: Семёнов, Трофимов, Дрёмов, которые изначально не рассчитывали на плотную работу на семинаре. Большинство опытных после докладов ушло (впрочем, организаторы это предвидели).
3. Совсем слаженной работы в группах не получилось. Наверное, надо, чтобы в каждой группе был опытный человек, который бы всем и руководил. Возможно, стоит формировать группы до мероприятия и продумывать (руководителю) сценарий работы с учётом возможностей членов группы. Кстати, по правилам кэгла нельзя просто так работать в группах, т.к. это обмен кодом и идеями между командами, поэтому нужно было запостить результаты групповой работы, но это так и не было сделано…
Зато впервые организовано подобное мероприятие. Читать далее
Дискретные модели в теории управляющих систем
Завтра выступаю на 9-й Международной конференции «Дискретные модели в теории управляющих систем». Я на неё не подавался и в последнее время не занимаюсь классической дискреткой. Но так получилось, что конференция посвящена 90-летию со дня рождения С. В. Яблонского. И на ней хотели видеть представителя нашей кафедры. Поэтому был заявлен пленарный доклад с авторами Ю.И. Журавлёв и А.Г. Дьяконов (на подстраховке). Подстраховка сработала;) и завтра буду делать обзор про методы построения дизъюнктивных нормальных форм по матрице нулевых наборов (на ВМК МГУ где-то в 11:20). Вот слайды. Читать далее
Спектральная теория графов
Завтра (23 марта) на своём спецсеминаре я сделаю доклад про СТГ (Spectral Graph Theory). Эта теория изучает свойства графов с помощью анализа собственных значений / собственных векторов / характеристических многочленов матриц, которые связаны с графами (матрица сопряжённости, матрица Лапласа, беззнаковая матрица Лапласа и т.п.). Читать далее