Поздравляю всех читателей блога с Новым годом! Уходящий год стал годом рождения этого ресурса — 20 марта была сделана первая запись, сейчас записей почти 60. На рис. показана публикационная активность за год и число посетителей по месяцам. Сейчас блог навещают в среднем 1000 человек в месяц (для подобного ресурса это очень много). Есть 62 постоянных подписчика (изначально блог создавался для 20-30 постоянных читателей). Получается, я, не особо желая того, создал довольно привлекательный источник информации. Читать далее
Год: 2015
Прогноз появления рёбер
Есть такая задача — Link Prediction Problem, на русский язык нет однозначного перевода, но что-то типа «прогнозирование появления/исчезновения рёбер». В статическом варианте проблемы — дан граф (как правило, социальной сети), необходимо предсказать, какие рёбра в нём появятся в ближайшее время (и/или какие удалятся). В динамическом может быть дано несколько графов (в разные моменты времени) и прогноз может потребоваться на разные моменты времени. В варианте с фиксированным тестом — задано множество пар вершин, для которого нужно дать прогноз (например, какие из этих пар станут рёбрами). Из-за того, что чаще рассматривают графы соцсетей, возникает интересная терминология, например, смежные вершины называются друзьями, вершина, смежная с двумя другими вершинами, — их общим другом и т.д.
Лучшая графика 2015
Любители прекрасного, посмотрите самые лучшие визуализации уходящего года! Очень интересные и красивые, причём конкурс проходил в разных номинациях: визуализация данных, инфографика, интерактивная графика, графика в бизнес-проектах, в журналистике, студенческие работы, мобильные картинки, командные проекты, графика в коммерческом ПО. Читать далее
Знакомьтесь, Джини
Многие путаются в коэффициентах Джини, не понимают, что они бывают разные и для разных задач (и названия у них разные — просто в русском переводе, как всегда, многое схлопывается в один термин). Читать далее
Теория нечётких множеств (ТНЧ)
Продолжаю выкладывать некоторые слайды, которые я делаю для магистров нашей кафедры. Сегодня — по нечётким множествам (fuzzy sets). Их ещё называют размытыми и пушистыми;) Читать далее
Текущий рейтинг Kaggle
В рейтинге Кэгла есть небольшое, но серьёзное изменение: впервые за долгое время сменился лидер, на первое место вышел Гилберто, потеснив «непобедимого» Оуэна. Отрыв небольшой и легко ликвидируется в одном соревновании, но, как я понимаю, Оуэн уже устал после своих 40 состязаний. Со статистикой, кстати, интересно — Читать далее
Немного про собеседования
Закончился период, когда я активно принимал участие в собеседованиях в разных компаниях, причём не только в тех, с которыми тесно сотрудничаю. Часто знакомые просят помочь в наборе команды, и, пожалуй, это единственная просьба, в которой я не отказываю, поскольку есть повод навестить старых знакомых, посмотреть, как они делают «Биг дату», ну и пообщаться с молодёжью – желающими поработать.
Самое забавное, что Читать далее
Знакомство с scikit-learn (слайды)
Небольшая презентация по пакету scikit-learn для Python. Снова делал в спешке, потом переделаю и сделаю ноутбук (добавлю здесь ссылку). Читать далее
Знакомство с Pandas (слайды)
Для магистров ВМК МГУ подготовил презентацию по пакету Pandas. С удивлением обнаружил, что по очень популярной среди питонистов панде совсем нет образовательных презентаций. Например, на www.slideshare.net нет ни одного материала по этому пакету (только среди обзоров пакетов для аналитиков данных). Поэтому исправил данный недостаток и закачал туда свою презенташку. Читать далее
Соревновательные платформы
Публикую список известных (мне) соревновательных платформ, на которых выкладываются задачи по анализу данных. Платформы упорядочены по году запуска, указан этот год, среднее число соревнований в год, среднее число участников (команд) в одном соревновании, а также даны комментарии (указаны плюсы и минусы). Читать далее