Сейчас расскажем о самообучении – способе многому научить модель без ручной разметки и, в некотором смысле, отказаться от глубокого обучения при настройке модели для решения нужной Вам задачи. Материал требует среднего уровня подготовки, даётся много ссылок на оригинальные работы.
Ответы на вопросы в канале
В своём телеграм-канале я периодически публикую вопросы-викторины на темы анализа данных, математики и т.п. Здесь перечислены последние вопросы с моими комментариями, правильными ответами (отмечены зелёным) и статистикой ответов. Есть также полезные ссылки с первоисточниками.
Проблема калибровки уверенности
Удивительно, но нигде нет хорошей обзорной работы по всем методам калибровки модели — процесса в результате которого «чёрные ящики» не просто качественно решают задачу классификации, но ещё и правильно оценивают свою уверенность в выданном ответе. Этот обзор не начального уровня — необходимо представлять, как работают и используются алгоритмы классификации, хотя автор существенно упростил изложение, например, обошёлся без условных вероятностей в определениях (из-за чего немного пострадала строгость изложения).
Итоги OneTwoTrip Contest
Недавно завершилось соревнование «OneTwoTrip Contest» на платформе Boosters. Здесь представлено некоторое саммари результатов.
С Новым 2020 годом!
По традиции раз в год поздравляю всех читателей блога с праздником! Немного статистики и небольшой подарок читателям.
Токенизация на подслова (Subword Tokenization)
Эта заметка для более продвинутых в ML (в отличие от основной массы предыдущих постов): для тех, кто постигает таинства анализа текстов, поскольку речь пойдёт о предобработке текстовых данных, которая может улучшить качество в некоторых задачах.
Линейная регрессия++
Эта заметка написана несколько в другом стиле, чем многие предыдущие… Поскольку автор постоянно совершенствует курс по машинному обучению, здесь берётся самая простая и популярная тема классических курсов по ML, и показывается, о чём в ней можно / стоит ещё рассказать (хотя об этом часто забывают), какие здесь есть сложные и интересные вопросы (если Вы хотите проверить свои или чужие знания по линейной регрессии).
Python и Pandas: делаем быстрее
Давно в блоге не было материалов для любителей Python. В прошлом году я провёл эксперимент: предложил студентам усовершенствовать свои фрагменты кода для предобработки данных. В некоторых местах я специально писал неоптимально, а в некоторых думал, что оптимально… сейчас расскажу, что из этого получилось. При чтении старайтесь не пролистывать быстро вниз: попробуйте догадаться, какие из предложенных вариантов кода самые быстрые.
Кривые в машинном обучении
Этот пост продолжает тему оценки качества алгоритмов машинного обучения для решения задач классификации. Рассмотрим кривые «полнота-точность», Gain, Lift, K-S (machine learning curves) и таблицу для анализа доходности. Самое главное — мы определим все кривые через уже знакомые нам понятия, часто используемые в ML (а не как обычно: для каждой кривой придумывается своя терминология).
Нейронные обыкновенные дифференциальные уравнения
На конференции NeurIPS 2018 одной из лучших работ была признана статья «Neural Ordinary Differential Equations». Это нестандартный пост для блога, который, впрочем, может положить начало традиции… я выкладываю несколько обзоров на русском языке этой статьи и прошу читателей помочь выбрать мне лучшие.