По ежегодной традиции поздравляю всех читателей блога с праздником! Немного статистики, небольшой подарок читателям, а также, как я обещал, разберём итоги и правильные ответы Странного теста.
Если Вы заметили, в блоге уже давно нет назойливой рекламы! Кроме того, блог теперь находится по адресу dyakonov.org (хотя старый адрес alexanderdyakonov.wordpress.com тоже валидный).
Для удобства я сделал карту блога, теперь все посты (точнее все популярные, без объявлений) сгруппированы по темам — должно быть удобно для новичков. Недавно удалил свой старый сайт (на narod.ru), но по просьбам читателей, старые материалы перенёс сюда (см. раздел «Науч-поп» на карте)
Число опубликованных постов в этом году — 14, вся статистика по годам представлена в таблице.
Число посетителей выросло по сравнению с прошлым годом (см. титульный рис.), и уже близко к точке насыщения. У блога 415 постоянных подписчика (те, кому приходят оповещения на почту или есть аккаунт на wordpress, а год назад было 280), ещё 253 читателей показано в статистике Feedly.
Большинство приходит в блог по поисковым запросам, причём от Гугла, по прежнему, приходит в 5 раз больше человек, чем от Яндекса. Очень много заходов с различных соревновательных платформ и образовательных курсов. Чаще всего блог просматривают по вторникам в 18:00. География заходов на сайт показана на рис. По сравнению с 2017 годом, шестёрка стран-лидеров по заходам осталась неизменной (Россия, Украина, Беларусь, США, Казахстан, Германия), а с 7го места Францию потеснила Великобритания.
Самые популярные посты этого года
- Логистическая функция ошибки (5498 просмотров)
- Вопросы на собеседованиях (4013)
- Смещение (bias) и разброс (variance) (2607)
- Байесовский подход (2505)
Из записей прошлых лет:
- AUC ROC (площадь под кривой ошибок) (15143 — запись 2017 года)
- Случайный лес (Random Forest) (12096 — 2016)
- Python: категориальные признаки (9073 — 2016)
- Cтекинг (Stacking) и блендинг (Blending) (7202 — 2017)
- Поиск аномалий (Anomaly Detection) (6934 — 2017)
Теперь, как я и обещал, разберём странный тест по ML, который я недавно выложил в блоге. Его прошло 148 человек, для сравнения Минитест на знание ML и DM прошло почти 700 человек. Как мне говорили некоторые, они посмотрели вопросы и просто испугались проходить. Статистика прохождения показана на рис.
Для каждого вопроса нужно было выбрать один из четырёх ответов. Сразу скажу, что правильный ответ всегда третий. Студенты, у которых я веду занятия, знают, что я всегда оставляю «пасхальное яйцо» а заданиях;) Теперь самые сложные вопросы…
Классический курс Калтеха от Yaser Abu-Mostafa имеет такую эмблему (см. рис). Что на ней изображено?
(правильно ответили 9 из 148)
Собственно, я постоянно слышу, что курс Калтеха «волшебный», идёт на втором месте по популярности после курса Эндрю Ына, на нём всё просто и понятно… Возникает естественный вопрос, а «что же на эмблеме?», тем более, что в понятном курсе этому посвящена целая лекция! Правильный ответ — стохастический и детерминистический шум! Если Вы вообще не понимаете, что это за термины, пересматривайте курс заново;)
Как в уже ставшей классической книге «Глубокое обучение» Я.Гудфеллоу и товарищи объясняют, что в многомерных пространствах стационарные точки, как правило, седловые?
(правильно ответили 14 из 148)
Опять же, все же хвалят книгу deeplearningbook. Мне она тоже нравится, но не потому, что там написано что-то полезное. В основном, там базовые вещи, и сейчас уже немного устаревшие, но вот талант авторов (или какого-то одного автора) оригинально смотреть на обыденные в DL вещи меня очень поразил. Правильный ответ — с помощью монетки! Перечитывайте главу Optimization, а для тех, кто не поленился и купил русское цветное издание, я даже страницу назову — 246.
Как Фридман назвал градиентный бустинг над деревьями?
(правильно ответили 14 из 148)
Ну тут да… больше на знание истории ML, чем на знание чего-то полезного и нужного, но это есть даже на странице вики про градиентный бустинг — TreeBoost.
В лучшей программе по игре в Go – AlphaGo Zero – для описания позиции использован тензор размера 19 x 19 x 17, известно, что 19 x 19 – размеры игрового поля, почему 17?
(правильно ответили 27 из 148)
Ну тут уж извините, все говорят, что искусственный интеллект побеждает человека в играх, не грех и почитать… Если лень в оригинале, то вот — на хабре. А вообще-то, это задача на логику: при программировании игр как-то передают последние ходы, поэтому 17 = 8 (полуходов чёрных) + 8 (полуходов белых) + 1 (метаинформация, здесь — только цвет твоих фишек). В любом случае, должно быть 2N+k. Есть, конечно, и другие способы передачи истории партии, но я уже боюсь спрашивать.
Что такое «цензурированные данные»?
(правильно ответили 27 из 148)
Это стандартный термин. Его точно грех не знать, особенно если Вы говорите, что специализируетесь в анализе данных (а не машинном обучении). Данные, в которых нет полной информации о объекте.
Как видите, всё просто;) А вот и лучшие прохождения теста (см. табл.). Ясно, что тут три левых ника. Но Амир Мирас и Печёнкин Богдан всегда могут обратиться ко мне за рекомендациями. А если потенциальный работодатель читает эти строки, срочно связывайтесь с ними (первый — мой магистр, а второй — недавно был в призёрах Газпромнефти)
Теперь совсем немного о себе… на следующий год опять много планов. Надо доделать все учебные курсы, которые я запланировал (прямо сейчас глубоко погружен в RL). Сфера моих профессиональных интересов, видимо, сместится в сторону обработки текстов, построению чатботов, технологий speech2text и text2speech, что, скорее всего, повлияет на содержание блога. Поскольку на книгу постоянно не остаётся времени, есть идея создавать видео-контент (небольшие обучающие ролики) на базе имеющегося материала… но это как пойдёт.
В комментариях можно оставлять пожелания по содержанию блога в 2019 году, замечания и критику… Желательно представляться;) Собственно, блог я веду пока вижу, что «это кому-нибудь нужно».
Ещё раз всех с Новогодними праздниками, счастья, здоровья, удачи!
[…] UPDATE: результаты теста разобраны здесь. […]
С НГ!
Спасибо!
С Наступающим и огромное спасибо за блог. К сожалению критики и замечаний с моей стороны пока нет, но для меня ваш блог полезен, так что пишите, будем читать. По-поводу пожеланий — обработка текста достаточно интересная и обширная тема, так что будем ждать новых постов. Вы сказали, что сфера ваших проф. интересов сместится в эту сторону, если не секрет — то что за проект/ы?
Представиться могу, но врятли это как то поможет — Евгений Миронов, работаю в Toptal.
Спасибо. Вас персонально с Новым годом!
Ещё, по крайней мере, один месяц секрет. Потом, при случае, расскажу подробности. Собственно, это больше исследовательский проект, в который, кстати, нужны будут исследователи (разрабатывать новые методы, быть в курсе SOTA и т.п.)
Звучит интересно, это в рамках университетской деятельности или за ее пределами?
Спасибо за блог и с Новым годом!
Пишите еще, пожалуйста, у Вас хорошо получается!
У меня на столе всегда лежат Ваши статьи.
> 17 = 1 (текущее положение) + 8 (полуходов чёрных) + 8 (полуходов белых)
Если задача на логику, то странная она у вас, Александр. 17-й дополнительный вход – это не текущее положение, а цвет текущего игрока.
Да, в целом я совсем неверно всё описал. Обычно делают 2N+K, K -для описания метаинформации о позиции (например, в шахматах — ходили ли король и ладьи и т.п.), 2N — для описания полуходов соперников. Но конкретно в реализации АльфаГо — это не полуходы, а факты нахождения камней определённого цвета на позициях. А вся метаинформация состоит из указания цвета, для этого используется один канал.
Из постановки вопроса и вариантов ответа, на мой взгляд, всё равно всё интуитивно… а здесь я ступил. Сейчас подумаю, как исправить, приложив минимум усилий.
С Новым годом, Александр Геннадьевич!
Успехов и удачи Вам в новых направлениях исследований и в разработке учебных курсов! Пусть сил и энергии хватает на воплощение всех идей и планов!
Спасибо Вам большое за блог, и в особенности за впечатляющие и вдохновляющие примеры объяснения машинного обучения доступным языком, решения сложных задач простыми методами и полезности визуализации данных. Про технологии обработки текстов будет тоже очень интересно почитать. Буду ждать новых постов в 2019 году!
Маша
Машенька, радость моя, Вы меня ещё помните:) Это самый большой подарок на Новый год! Спасибо. Вам тоже удачи, сил и энергии!
Спасибо большое! Надеюсь, машинного обучения в моей профессиональной жизни будет больше в этом году — это один из новогодних планов. Часто вспоминаю Ваше напутствие: «Вперёд движется тот, кто хотя бы ползёт».
Точнее «К цели движется тот, кто хотя бы ползёт!» Это из припева песни «Не говори» группы «Чёрный обелиск»
http://radio.obozrevatel.com/chernyy-obelisk/ne-govori-194579
Ну а ещё, это «как говорила Анхела»;)
С наступившим!
А что за счетчик лайков? Если можно посты лайкать, я б воспользовался 😉
Да, тут можно, но лайкать, как я понимаю, могут только зарегистрированные на вордпрессе. Спасибо, с прошедшими!
Вторник. Сижу на работе, читаю этот пост. Дошёл до фразы: «Чаще всего блог просматривают по вторникам в 18:00». Смотрю на часы…))
Поздравляю с праздниками и большое спасибо за блог!
Спасибо! Я всегда думал, кто эти люди, которые во вторник в 18:00 читают блог…