Современные задачи анализа данных

Меньше чем через 20 часов буду делать доклад в ВШЭ. Анонс доклада находится здесь (правда, там название не совсем правильное: «методы» вместо «задачи»).

UPD18.06.2015: Здесь выложена информация о состоявшемся докладе.

«Он был хирургом, даже нейро»

На стыке дисциплин всегда кипят страсти. Вот ссылка на открытое письмо. Его подписали, в том числе, многие известные Российские исследователи (Анохин, Каплан и др.) Суть — давление общественности на инвазивные исследования (это когда живым организмам в мозг что-то вставляют, чтобы этот самый мозг изучить). Вопрос: морально ли это или нет, живодёрство это или наука? Кстати, в анализе данных, искусственном интеллекте и кибернетике сейчас тоже появляются подобные вопросы: готово ли человечество к созданию ИИ? Или даже просто «умных домов», «умных машин» и т.п. Стоит ли создавать то, для чего нет даже правовой базы? Скажем, если Ваша «умная машина» въедет в другую «умную», то какой умник будет возмещать убытки? Автор блога не будет высказывать свою точку зрения. Но видите, вопросы-то возникают… скоро появятся новые открытые письма.

Стажировка для квантов

На правах рекламы;) Компания ThunderBid объявляет о летней стажировке для квантов. Учат писать торговых роботов. Стажировка оплачиваемая. Под катом рекламка:

Читать далее

May 2015 meetup

Каждую последнюю пятницу сезона компания Мэйл.ру собирает любителей науки о данных. Обычно с 18:00 в офисе компании на Ленинском слушают четыре 30-минутных доклада (+вопросы), а потом обсуждение и общение. Атмосфера очень приятная, а ребята из Мэйл.ру большие молодцы! Мероприятие однозначно рекомендую. Следующее должно быть ровно через неделю. Подробности здесь.

Дискретные модели в теории управляющих систем

Завтра выступаю на 9-й Международной конференции «Дискретные модели в теории управляющих систем». Я на неё не подавался и в последнее время не занимаюсь классической дискреткой. Но так получилось, что конференция посвящена 90-летию со дня рождения С. В. Яблонского. И на ней хотели видеть представителя нашей кафедры. Поэтому был заявлен пленарный доклад с авторами Ю.И. Журавлёв и А.Г. Дьяконов (на подстраховке). Подстраховка сработала;) и завтра буду делать обзор про методы построения дизъюнктивных нормальных форм по матрице нулевых наборов (на ВМК МГУ где-то в 11:20). Вот слайды. Читать далее

Новая система ранжирования в Kaggle

В рейтинге Кэгла ввели новую систему ранжирования дата-майнеров. За каждое соревнование теперь участник получает такое количество очков:

fm

Что изменилось:

  1. Теперь набранные очки не делятся между всеми участниками команды. Вместо деления на число членов команды производится деление на корень из этого числа. Поэтому объединяться в команды стало выгоднее.
  2. Уменьшилась зависимость от числа участников соревнования. Участвовать в непопулярных соревнованиях стало выгоднее.
  3. Теперь даже старые соревнования влияют на рейтинг, но очки экспоненциально уменьшаются при устаревании. Раньше — учитывались только турниры за последние 2 года.

Подробнее можно прочитать здесь. На распределение участников в топе текущего рейтинга это изменение особо не повлияло. Напомним, что рейтинг Кэгла существует с апреля 2012 года. Это единственный рейтинг прикладников в области статистики и машинного обучения. До настоящего момента чемпионами рейтинга становились:

Как видим, очень широкая география — 11 стран, 12 человек. Интересно, что формально Сергей Юргенсон и Джейсон Тигг никогда не были на вершине рейтинга, т.е. не было момента времени, когда они действительно возглавляли рейтинг. Но после введения новой системы — в их профиле указано, что если бы эта система применялась всё время, то они были бы чемпионами. Джереми Ховард формально тоже никогда не признавался чемпионом, поскольку на момент создания рейтинга он уже работал в компании Kaggle. Отметим, что трое из 12 чемпионов организовали свою компанию по анализу данных. В текущей десятке сильнейших — 6 экс-чемпионов, а двое полностью завершили свои выступления (Ховард и Тигг, кстати, возможно, самые лучшие).

Машинное обучение за 5 минут

Компаня RapidMiner подготовила серию интересных мини-видео-презентаций. Полный список см. по ссылке Машинное обучение за 5 минут. Я ещё все не смотрел, но вроде неплохие… Такие мини-лекции сейчас становятся популярными. Напомню, что даже мы в этом году поддались искушению. Кстати, у Рапидмайнера вообще симпатичные youtube-ролики.

Игра по анализу данных

С подачи Миши Трофимова даю рекламу этому мероприятию: Data Sciense Game 2015. Регистрация до 15 мая! Ещё там существенные ограничения на состав, например, не только я уже безнадёжно стар, но и аспиранты 2го г/о.

Когда трясёт лидерборд

Недавно завершилось соревнование Restaurant Revenue Prediction. В принципе, здесь я не публикую отчёты о каждом прошедшем соревновании, но в этот раз действительно смешно. Участников было 2257 команд! А объектов в обучении — 137 (если разделить на участников, то не всем хватит:)! Конечно, все знали, что самое опасное это переобучиться, но среди 20 первых команд по финальному лидерборду нет никого, кто был бы в двадцатке в промежуточном лидерборде! Победитель скакнул вверх с 249 места, серебряный призёр — с 54го, бронзовый — с 394.

Читать далее

DrivenData: наши снова в призах

На недавно завершившемся соревновании по аналитике в области здравоохранения второе место среди более чем ста участников занял Александр Гущин. Недавно он также был вторым на российском соревновании компании АлгоМост по классификации химических экспериментов. Вдвойне приятно: Александр недавний ПЗАДовец и студент автора блога.

Поздравляем Александра и желаем дальнейших успехов!