Итоги 2015 года

Поздравляю всех читателей блога с Новым годом! Уходящий год стал годом рождения этого ресурса — 20 марта была сделана первая запись, сейчас записей почти 60. На рис. показана публикационная активность за год и число посетителей по месяцам. Сейчас блог навещают в среднем 1000 человек в месяц (для подобного ресурса это очень много). Есть 62 постоянных подписчика (изначально блог создавался для 20-30 постоянных читателей). Получается, я, не особо желая того, создал довольно привлекательный источник информации.

statwordpress
Статистика посещений

Самые популярные сообщения:

  1. Всё что касается ПЗАДа.
  2. Моё «научно-популярное» творчество.
  3. Moscow Data Fest.

(извините, списки сделал без гиперссылок). А вот различные обзоры не очень популярны.

Самые популярные источники перехода сюда:

  1. Поиск (Гугл — 1456, Яндекс — 205, ….)
  2. Соцсети (Вконтакте — 1235, Фейсбук — 731, …)
  3. Сайты (Machinelearning.ru — 998, Хабр — 962, мой — 848, …)

Чаще всего, кстати, сюда попадают по запросу «xgboost».

Что ожидать от блога в будущем? Наверное, здесь появятся записи не только по анализу данных, но и по науке, по всему, что мне интересно (блог же персональный). Если руки дойдут до конкурсов — здесь будут описания решений (при условии их высокого качества). Некоторым популярным темам (например, Deep Learning-у) здесь пока не находится места, по причине некорреляции с текущими интересами автора.

Что касается того, каким год выдался для автора — то, на самом деле, очень тяжёлым. Наверное, самым тяжёлым из всех. Было много событий в личной жизни (но здесь я об этом не пишу), в профессиональной — было совсем пусто с точки зрения научной продуктивности (всего 1 статья), в начале года автор получил премию имени И.И. Шувалова I степени, а в середине участвовал в создании онлайн-курса по машинному обучению (к которому теперь куда-то пропали видео-лекции). Поездок на конференции практически не было, но было много выступлений на различных мероприятиях (в блоге про большинство написано).

Что планируется? В начале года буду стараться разгрузить себя от разных проектов, надо к лету освободиться и заняться здоровьем, сейчас это самое главное. Потом (если всё будет хорошо) возможны какие-то кардинальные изменения… сейчас есть много интересных мыслей и предложений (спойлерить не буду). В январе-феврале надо написать несколько статей — освободиться от скопившегося материала (практически все основаны на работах со студентами, но писать, видимо, буду только я — от «малышей» пока немного толку:) ). Надо перелопатить кучу ссылок и книг, которые я откладывал в последние месяцы, закончить оформление учебных материалов по анализу графов соцсетей.

Прогнозы на год (попробую дать): думаю, что появятся методы/технологии, которые подвинут классический бустинг в признаковом ML и также (возможно, уже другие методы и технологии) подвинут классический (если этот термин корректен) DL в задачах с изображениями. В России чётко обозначатся компании-лидеры в сфере анализа данных (называйте её как хотите: биг дата, дата майнинг и т.п.). На Западе компании типа Майкрософт/Гугл/Амазон/… предложат (или допилят до нужного уровня то, что есть) супер-решения для практически полного цикла аналитики, со всеми нужными современными ML-алгоритмами. «Супер» означает, что их тут же полюбят и даже массово подсядут на них без соблюдения традиций инертности в подобных вопросах.

Спасибо всем читателям блога! Удачи в новом году и почаще не переобучаться. Свои замечания / пожелания по содержанию блога (или просто — эмоции и поздравления) можно постить в комменты.

Реклама

17 thoughts on “Итоги 2015 года

  1. А какие, на ваш взгляд, сейчас есть компании по анализу данных на российском рынке?
    Что-то кроме YDF я особо и не отмечал, но это чисто субъективно.

    И да, спасибо за блог и в отдельности за обзоры питоновских библиотек.

    • На самом деле, у многих крупных компаний есть подразделения, которые сейчас активно предоставляют услуги по анализу данных. Например, Mail.ru что-то делает для банков (не уверен, что могу тут давать какие-то подробности). Есть компании, которые прямо специализируются на подобного рода услугах, например АлгоМост (хотя по сайту и не скажешь). Есть куча стартапов, которые решают конкретные задачи, например Rubbles. Есть уже немолодые компании с готовыми продуктами, например Forecsys. Компаний и услуг, на самом деле, много, но для обывателя их деятельность не очень заметна. Это, в принципе, и естественно. Пиаром занимается только Яндекс (у них есть для этого ресурсы, ну и политика ведения бизнеса такая). Остальные ищут партнёров и выполняют заказы, особо не придавая это огласке. Чтобы понять, кто и что делает, достаточно переговорить с людьми из ведущих банков, большой 3и сотовых операторов, крупных магазинов, страховых компаний, интернет-площадок и спросить, с кем они сотрудничают в области аналитики и машинного обучения.

      • Один из сотовых операторов сам хочет войти на этот рынок, в качестве консалтинговой компании, жёлтый такой, при этом очень грязные методы использует. Их массивный пиар тоже хорошо виден, в некоторых местах. Я поверил их словам и пострадал.

      • Я бы так не сказал.

        Во-первых, сотовые операторы это такие гиганты… в них разные отделы занимаются чем-то независимо друг от друга и даже особо не помогают друг другу. В данном случае заметна активность отдельной группы. Другие отделы аналитики, которые есть в этой компании, никак в этом не участвуют.

        Во-вторых, я пока не заметил желания/возможностей/попыток действительно выйти на рынок. Пока виден пиар и некоторая активность в тех областях, где, например, уже прочно сидит тот же Яндекс.

        В-третьих, эта активность обнаруживает, например, проблему со штатом (наличием специалистов) у этой же компании.

        И наконец, кейсов по решению каких-то задач, которые могут кого-то заинтересовать сейчас, я не видел… максимум, что они пока могут предложить, это торговать данными.

        Но это всё моё частное мнение. Скажу честно, я не знаю ситуацию изнутри досконально. Только по слухам от знакомых:)

        Но пиар, кстати, неплох. Есть чему поучиться;)

  2. Александр, спасибо ! Этот блог — важное и полезное дело. Автору и всем читателям — творческих успехов, сил и радости !

  3. «появятся методы/технологии, которые подвинут классический бустинг в признаковом ML»
    Александр Геннадьевич, если не сложно, дайте, пожалуйста, ссылочки на современные работы в этой области.

      • 1. Да, на современные работы по бустингу.
        Либо я очень сильно ошибаюсь, либо после 1999 года в этой области ничего принципиально нового не было («AdaBoost» Freund and Schapire — 1997, «GBM» Friedman — 1999)

        2. На другие методы
        Есть что-то Кроме Factorization Machines, FTRL-proximal, ELM, word2vec? — все это конечно появилось не так давно (как бустинг), но тоже уже «классика»

        3. Deep Learning не предлагать 😉

      • Дополнение к 1.
        «Stacking generalization» Walpert — 1992
        «Blending» — как результат конкурса Netflix — 2009.

        Но и это максимум 2009, а сейчас уже 2016 🙂

      • Если по бустингу, то вот эти работы любопытны…
        http://www.jmlr.org/papers/volume15/dubout14a/dubout14a.pdf
        http://www.jmlr.org/papers/volume15/saberian14a/saberian14a.pdf
        Это если сходу из более-менее свежего (14й год), не факт, конечно, что они станут классикой, как то, что Вы перечислили…

        Есть кое-что новое и по SVM:
        http://www.jmlr.org/papers/volume15/nandan14a/nandan14a.pdf
        http://www.jmlr.org/papers/volume15/claesen14a/claesen14a.pdf

        И по другим методам — достаточно взять какой-нибудь неплохой журнал но ML.

        В случае Рэндлом (Factorization Machines) — он писал диссертацию и у него были «стандартные» работы, но это вдруг зажгло: во-первых, результатами на том же Кэгле, во-вторых, на него обратили внимание некоторые мэтры из DS, что повысило цитируемость уже в научной среде.

      • 1. Посмотрел обе статьи по SVM.
        И Бельгийские студенты и индийские профессора из штатов бегают по одному и тому же полю с граблями 🙂
        Индусы забегают дальше и выдерживают более сильные удары.

        2. «Мэтр из DS» это Питер Норвиг? или ранее был кто-то еще?
        На самом деле очень интересно, кто из мэтров первым «просек фишку»
        (эквивалентность SVM c полиномиальным ядром но за линейное время и на оргромных разреженных массивах с пропусками)

      • 1: Я не обещал, что будут шедевры, но бегают же по этому полю до сих пор.

        2: Да, он самый. Неплохая реклама получилась. Кстати, сейчас уже LibFM мало кто использует. На больших данных он бесполезен, а на малых — на том же кэгле — есть чуть более эффективные методы (хотя, как всегда, зависит от задачи).

  4. С новым годом, Александр Геннадьевич!

    Спасибо за интересные записи, здоровья и творческих успехов.

Добавить комментарий

Заполните поля или щелкните по значку, чтобы оставить свой комментарий:

Логотип WordPress.com

Для комментария используется ваша учётная запись WordPress.com. Выход / Изменить )

Фотография Twitter

Для комментария используется ваша учётная запись Twitter. Выход / Изменить )

Фотография Facebook

Для комментария используется ваша учётная запись Facebook. Выход / Изменить )

Google+ photo

Для комментария используется ваша учётная запись Google+. Выход / Изменить )

Connecting to %s