Расскажем об одном DL-подходе к задаче сокращения размера выборки, а на самом деле, даже более амбициозной задаче — создания синтетических данных, хранящих всю полезную информацию о выборке.
Читать далееданные
День нашей смерти
Недавно в рамках одного проекта по анализу кардиограмм выяснил, что статистические свойства этих сигналов меняются не только от каких-то ожидаемых причин, связанных с работой сердца и общим состоянием (усталостью, нагрузкой и т.п.) Ещё их начинает буквально «колбасить» в определённые дни, например, в день рождения. Как сказали кардиологи: это связано с нашими биоритмами и раз в год в один и тот же день — наш день рождения — происходит перестройка организма. Этот день самый опасный с точки зрения нашего состояния. Мне показалось это странным: всегда воспринимал конкретную дату рождения как случайную величину, но если эта теория верна, то в этот день (и в некоторый отрезок времени после него) выше вероятность умереть… было решено проверить эту гипотезу.
Прогноз визитов клиентов
Когда-то на kaggle.com была задачка от dunnhumby: про прогноз визитов клиентов и сумм их покупок. Сейчас данные недоступны. В рамках курса магистрам ВМК МГУ и ПЗАДа я рассказываю о методах решения подобных задач. О них можно почитать Читать далее
Наборы данных
- Awesome Public Datasets on GitHub доступные наборы данных из разных областей
- A Benchmark Dataset for Time Series Anomaly Detection Новый набор данных для задачи обнаружения выбросов (детектирования аномалий).
- PlaneCrashInfo Статистика крушений самолётов. Здесь пример, как её можно обрабатывать.