Data Science Game 2017

Завершился очередной неофициальный чемпионат мира по анализу данных среди студентов вузов. И уже 3 год подряд я пишу в этом блоге «Наши победили!»

dsg2017 Читать далее

Реклама

Визуализация (часть 0)

На самой первой лекции по анализу данных для наших магистров ВМК МГУ я рассказываю про визуализацию. Начинаю лекцию с небольшого исторического обзора, главная цель которого — объяснить, что «рисовать данные» люди начали относительно недавно. Ниже некоторые примеры из лекции (смотрите ссылки, там есть интересные вещи)…

picture Читать далее

Компания vs вуз vs академия

Идеальный способ решать какие-то задачи анализа данных в компании (в разрезе вопроса «кто будет решать») — это растить свои компетенции. Сейчас можно (хотя и сложно!) найти толковых ребят, владеющих инструментарием анализа данных и статистики, ну а предметную область лучше изучать изнутри. Тем не менее, есть много ситуаций, когда необходимо решать задачи «на стороне». Причины могут быть самые разные (задач мало и требуется «разовое решение», нужно быстро решить какую-то отдельную задачу, необходима разведка, что даст использование новой аналитики и т.п.) Есть несколько вариантов, к кому идти за решением. Опишем одну типичную историю, которая позволит их сравнить, не претендуя на полное и подробное сравнение.

company_vs_vuz Читать далее

Data Science Contest Сбербанка

Недавно стартовал новый конкурс по анализу данных. В помощь новичкам, которые захотят поиграться его данными, вот презентация, которую я обсуждал со своими магистрами на прошлом занятии, а вот код, с помощью которого получены все графики. Кстати, большие ipynb-файлы с гитхаба лучше смотреть с помощью nbviewer, например так.

sberbank

id и время

На первых же занятиях по анализу данных, один из приёмов, которым я учу студентов — построение диаграммы рассеивания (скатерплот) по признакам id (номер в таблице) и время (номер, когда сделана запись). Недавно я сам попался на том, что вовремя не применил этот приём… time.jpg

Читать далее

Полезные знания

Недавно на DataReview прошёл конкурс на лучшее предложение темы статьи, в котором автор блога даже победил, предложив тему «Самые полезные знания в Data Science». Предполагалось, что журналисты опросят видных специалистов по DS (которые ведут реальные прикладные разработки) и выяснят, какие знания им самим пригодились, чему они учат новичков и т.п. Вот что получилось у DataReview. Честно говоря, я немного разочарован небольшим объёмом материала и маленьким покрытием современных компаний. Поэтому пришлось провести свой опрос. Он проводился среди сотрудников разных компаний (специально исключил банки и операторов большой тройки — они и так у всех на слуху). Все опрошенные DS-аналитики реально работают с данными, большинство из них достаточно известны среди нашего узкого круга.

znanija

Читать далее

Avito + Telstra + BNP

Кто ещё не смотрел — советую посмотреть видео с последних тренировок по машинному обучению. Очень хорошие доклады:

nizhibitskiy Читать далее