Есть такая задача — Link Prediction Problem, на русский язык нет однозначного перевода, но что-то типа «прогнозирование появления/исчезновения рёбер». В статическом варианте проблемы — дан граф (как правило, социальной сети), необходимо предсказать, какие рёбра в нём появятся в ближайшее время (и/или какие удалятся). В динамическом может быть дано несколько графов (в разные моменты времени) и прогноз может потребоваться на разные моменты времени. В варианте с фиксированным тестом — задано множество пар вершин, для которого нужно дать прогноз (например, какие из этих пар станут рёбрами). Из-за того, что чаще рассматривают графы соцсетей, возникает интересная терминология, например, смежные вершины называются друзьями, вершина, смежная с двумя другими вершинами, — их общим другом и т.д.
АлгоМост
Соревновательные платформы
Публикую список известных (мне) соревновательных платформ, на которых выкладываются задачи по анализу данных. Платформы упорядочены по году запуска, указан этот год, среднее число соревнований в год, среднее число участников (команд) в одном соревновании, а также даны комментарии (указаны плюсы и минусы). Читать далее
ПЗАД новый набор 2015
Начался очередной отбор на мой спецкурс «Прикладные задачи анализа данных» (PZAD). Все подробности на странице спецкурса.
Напоминаю, что
- курс начинается каждый год осенью,
- главная фишка курса — практика решения задач (в том числе на платформах Kaggle и AlgoMost),
- это единственный курс в мире, в котором один из топа Кэгла делится своим опытом решения задач и который прослушали несколько текущих топ-решателей Кэгла,
- каждый год в курс добавляется новая тема (в прошлом году — анализ соцсетей).
Конкурс на курс всегда большой, поэтому выполняйте все требования на странице курса, в частности
- необходимо знание машинного обучения,
- необходим минимальный опыт участия в соревнованиях по анализу данных.
На странице курса есть список допустимых соревнований. В прошлом году он был обширен, в этом так не будет. Сейчас там всего одно соревнование (я включаю туда только те, которые сам хорошо изучил, чтобы было потом их полезно обсуждать).
Что ещё интересного:
- возможно, в этом году набор будет последним.
Часть курса переходит в магистерскую программу на факультете ВМК, а часть будет читаться в рамках договорённостей с компанией «Аналитика плюс» (пока планы такие).
Смеси алгоритмов победителей
В соревновательном анализе данных всегда интересно, а какое же «идеальное» решение, сколько участники не дотянули до него. Грубая оценка — комбинация решений участников. А ещё интересно, что было бы, если бы некоторые участники объединились в команду (или наоборот не стали бы объединяться). К сожалению, практически все соревновательные платформы держат в секрете алгоритмы участников (и их ответы). В одном случае всё-таки удалось кое-что поисследовать, см. заметку «Нужно ли смешивать решения победителей» на платформе АлгоМост.