Прогноз появления рёбер

Есть такая задача — Link Prediction Problem, на русский язык нет однозначного перевода, но что-то типа «прогнозирование появления/исчезновения рёбер». В статическом варианте проблемы — дан граф (как правило, социальной сети), необходимо предсказать, какие рёбра в нём появятся в ближайшее время (и/или какие удалятся). В динамическом может быть дано несколько графов (в разные моменты времени) и прогноз может потребоваться на разные моменты времени. В варианте с фиксированным тестом — задано множество пар вершин, для которого нужно дать прогноз (например, какие из этих пар станут рёбрами). Из-за того, что чаще рассматривают графы соцсетей, возникает интересная терминология, например, смежные вершины называются друзьями, вершина, смежная с двумя другими вершинами, — их общим другом и т.д.

graph Читать далее

Соревновательные платформы

Публикую список известных (мне) соревновательных платформ, на которых выкладываются задачи по анализу данных. Платформы упорядочены по году запуска, указан этот год, среднее число соревнований в год, среднее число участников (команд) в одном соревновании, а также даны комментарии (указаны плюсы и минусы). Читать далее

ПЗАД новый набор 2015

Начался очередной отбор на мой спецкурс «Прикладные задачи анализа данных» (PZAD). Все подробности на странице спецкурса.

Напоминаю, что

  • курс начинается каждый год осенью,
  • главная фишка курса — практика решения задач (в том числе на платформах Kaggle и AlgoMost),
  • это единственный курс в мире, в котором один из топа Кэгла делится своим опытом решения задач и который прослушали несколько текущих топ-решателей Кэгла,
  • каждый год в курс добавляется новая тема (в прошлом году — анализ соцсетей).

Конкурс на курс всегда большой, поэтому выполняйте все требования на странице курса, в частности

  • необходимо знание машинного обучения,
  • необходим минимальный опыт участия в соревнованиях по анализу данных.

На странице курса есть список допустимых соревнований. В прошлом году он был обширен, в этом так не будет. Сейчас там всего одно соревнование (я включаю туда только те, которые сам хорошо изучил, чтобы было потом их полезно обсуждать).

Что ещё интересного:

  • возможно, в этом году набор будет последним.

Часть курса переходит в магистерскую программу на факультете ВМК, а часть будет читаться в рамках договорённостей с компанией «Аналитика плюс» (пока планы такие).

Смеси алгоритмов победителей

В соревновательном анализе данных всегда интересно, а какое же «идеальное» решение, сколько участники не дотянули до него. Грубая оценка — комбинация решений участников. А ещё интересно, что было бы, если бы некоторые участники объединились в команду (или наоборот не стали бы объединяться). К сожалению, практически все соревновательные платформы держат в секрете алгоритмы участников (и их ответы). В одном случае всё-таки удалось кое-что поисследовать, см. заметку «Нужно ли смешивать решения победителей» на платформе АлгоМост.