- Awesome Public Datasets on GitHub доступные наборы данных из разных областей
- A Benchmark Dataset for Time Series Anomaly Detection Новый набор данных для задачи обнаружения выбросов (детектирования аномалий).
- PlaneCrashInfo Статистика крушений самолётов. Здесь пример, как её можно обрабатывать.
Месяц: Апрель 2015
Наука о данных разработчиков питает
Недавно участвовал в передаче “Стартапы. Инвестиции. Инновации” на медиапортале json.tv. Желающие могут посмотреть;) Признаюсь, что я немного нагнал про информатику… это слово есть в названии ВМКашной специальности: «Прикладная математика и информатика», а вот квалификация — «математик, системный программист» (в моём дипломе так). В названия ВАКовских специальностей оно тоже входит: 05.13.17 «Теоретические основы информатики». Но термин всё равно устаревает: молодёжь им не пользуется.
Многие ответы на вопросы в передаче по содержанию тесно пересекаются с лекцией на Постнауке: Анализ данных как область знания. А если на меня тошно смотреть, то можно послушать радио: передача Наука в фокусе на Эхе Москвы. Простите за пиар:) Просто, раз есть повод, сделал подборку ссылок по теме поста…
Почти юбилей
Примерно месяц назад я начал вести этот блог. При этом не объяснился, зачем… Просто показалось, что это удобно — иметь место, где можно поместить объявление или памятку (хотя бы для себя).
Я думал, что буду постить 2-3 раза в месяц, но это случилось 12 раз. Возможно, скоро надоест:)
Я думал, что аудитория будет небольшой (~15 посетителей за неделю), но в среднем его просматривают 20 человек в день (максимум — 65, минимум — 2).
Я думал, что аудитория будет состоять из моих студентов и коллег, но основной приток идёт из Фейсбука (которым я раньше не пользовался). Интересно, что Контактик уступает в два раза.
Судя по кликам, посетителям не интересны обзоры из серии «Мир анализа данных» или «Мир программирования», а вот ссылки на конкретные видяшки, страницы конференций, слайды и пр. пользуются популярностью.
Продолжаю эксперимент!
Спасибо всем, кто читает. Надеюсь, это как-то делает Вас лучше.
Kaggle: наши в тройке
Недавно завершилось соревнование Microsoft по классификации вредоносных программ. Российская команда вошла в тройку (среди 377 участников). Приятно, что все бронзовые призёры в прошлом ПЗАДовцы. Имена героев:
- Михаил Трофимов (был вторым в кэгловском Авито)
- Дмитрий Ульянов (побеждал здесь и здесь)
- Станислав Семёнов (12й в рейтинге Кэгла)
Решение ребят описано в форуме. Также скоро будет доклад на конференции.
Поздравляем и желаем дальнейших успехов!
Напомню, что до этого последний российский успех на Кэгле — вхождение в тройку Михаила Сиверского на соревновании по социальным сетям (кстати, в рамках последнего ПЗАДа).
Plotly
Самый важный совет для «визуализаторов данных»: храните не инфографику, а сами данные. Их всегда можно изобразить, причём в нужном формате. Звучит просто, но сам я часто попадался на этом, когда строил алгоритмы машинного обучения. Проводил эксперименты, изучал зависимость качества от параметров, сохранял графики… а когда потом писал статью, всё заново пересчитывал. Кстати, о том, где можно визуализировать сохранённые данные. Есть такой ресурс: https://plot.ly. Это бесплатное, простое и быстрое средство. Если зарегистрироваться, то на Вашу почту будут ещё приходить всякие забавные визуализации. А позволяет он делать такие штуки (щёлкните по графику):
Pandas
Чтобы в Питоне работать с данными, в которых не все признаки вещественные, приходится использовать пакет Pandas. В нём реализован тип дата-фрейм (который соответствует аналогичному в R). По сравнению с R здесь всё менее интуитивно, например, специфическая индексация элементов дата-фрейма (которую, впрочем, нетрудно освоить). Очень хороших учебных пособий по Панде нет, но на станице пакета размещено pdf-описание, в котором, в принципе, всё необходимое есть. Проще на основе описания создать себе ноутбук с подсказками основных функций. Мой лежит здесь.
Мир программирования (1)
Обзор некоторых (в основном, свежих) материалов по языкам R и Python. Так получилось, что большая часть материалов — для новичков.
- Learn X in Y minutes (уровень: начальный и средний) Хорошие и небольшие обзоры по языкам программирования.
- Do you know Python? (уровень: знать Питон) Неплохой тест на знание языка Питон.
- 5 Best Python Libraries for Data Science (уровень: начальный) Перечень основных библиотек для датамайнера со ссылками на лучшие туториалы.
- An Introduction to Statistics (уровень: начальный) Ресурс по статистике, но есть примитивный справочник по Питону для новичков.
- 14 Best Python Pandas Features (уровень: знать Питон) Небольшой, но очень хороший обзор основных функций пакета Pandas.
- usefulr.wordpress.com (уровень: средний) Ещё один блог о языке R.
- R Cheat Sheets (уровень: знать R) Подсказки по языку R, интересный материал по графике в R.
- The Grammar of Data Science: Python vs R (уровень: средний) Сравнение R и Python на примере одной задачи.
Лекции прошлых школ
Недавно я писал о будущих научных школах по анализу данных. Полезно также изучать материалы прошлых подобных мероприятий. Вот несколько ссылок с выложенными видео / слайдами (с уклоном в большие данные):
- Machine Learning and Very Large Data Sets Яндекс-мероприятие 2013 года. Хороший состав лекторов.
- Microsoft Computer Vision School Проводилась у нас на ВМК в 2011 году. Уклон в изображения и видео.
- Нейроинфорамтика-2015 «Свежее» мероприятие, математики мало, больше про устройство мозга, но кое-что есть.
Если кто-то знает ссылки на подобные достойные мероприятия — я пополню коллекцию.
Мини-лекции
Внимание: ссылки в этом посте уже нерабочие…
В поддержку Олимпиады 3К созданы онлайн-курсы, для них подготовлены небольшие видео-ролики. Ниже ссылки на эти видео для трёх курсов. Они, конечно, не покрывают всех тем, но… что успели заснять…
Машинное обучение и анализ данных
- Оценка вероятности: когда к нам придёт клиент?
- Байесовский классификатор: оптимальная неоптимальность
- Задача кластеризации и выделение сообществ в социальных сетях
- Линейная регрессия: как решать матричные уравнения
- Функционалы качества и функции потерь: Константы тоже бывают разные
- Функционалы качества и функции потерь: Какие множества похожи?
- Функционалы качества и функции потерь: AUC ROC — путь из (0,0) в (1,1)
Инвестиции и корпоративные финансы
- Реальные и финансовые активы, акции
- Облигации и валюты
- Производные инструменты
- Композитные финансовые инструменты
- Финансовый рынок: биржевой, внебиржевой, первичный, вторичный
- Композитные финансовые инструменты
- Финансовый рынок: биржевой, внебиржевой, первичный, вторичный
- Модель экономики с финансовым рынком
- Перемещение ресурсов во времени и по состояниям мира
- Диверсификация и переложение рисков
- Открытие цен и эффективный рынок
Теория вероятностей и математическая статистика
- Петербургский парадокс: Первые подходы
- Почему не надо расстраиваться в очередях
- Ожидание худшей доходности
- Метод Монте-Карло
- Петербургский парадокс: Жорж-Луи Бюффон. Имитация игр.
- Петербургский парадокс: Вильям Феллер. Разорительная безобидная игра
- Петербургский парадокс: Вильям Феллер. Обобщение справедливых игр
- Петербургский парадокс: Даниил Бернулли. Функция полезности.