Илья Толстихин

Термин Data Scientist стал популярным в последнее время, но все как-то забыли, что DS изначально это не название должности в крутой компании, а именно учёный, т.е. человек который доказывает теоремы, пишет статьи, выступает на конференциях. Сегодня интервью именно с таким человеком, который, на мой взгляд, делает очень яркую карьеру в области теоретического машинного обучения. И имеет очень богатый опыт: работы в Лаборатории Касперского, преподавания машинного обучения, защиты диссертации, а сейчас трудится за границей — под руководством одного из самых именитых профессоров в теории обучения. Интервью получилось очень большим — и не только по науке!

tolstihin

Где учились? Почему поступили именно туда?

Я закончил ВМиК МГУ в 2010 году. Мои родители — физики-теоретики, оба закончили Физтех. Папа — доктор физ-мат наук, профессор МФТИ. Мама защитила PhD по физике в Японии, работает в Физическом Институте им. Лебедева РАН. Мы долго жили в Японии, но родители решили, что я должен получать образование в России, так что мы вернулись, когда я был в 5м классе. Уже тогда было понятно, что поступать буду по профилю точных наук. В физику меня родители как-то не подталкивали, а сам я ей не особо интересовался. Так что поступал в результате на ВМиК МГУ и ФУПМ МФТИ. Выбрал ВМиК, потому что был ближе к дому.

После выпуска из ВМиК в 2010 я поступил в аспирантуру ВЦ РАН, где защитил свою диссертацию и стал кандидатом физ-мат наук в 2014 году. В аспирантуру МГУ не пошел из-за мелких административных причин.

Довольны ли своим образованием? Какие предметы необходимы для образования в Data Science?

Полученным на ВМиК образованием я доволен. Были большие пробелы, но общая база была довольно сильная. По крайней мере, ее было достаточно, чтобы самому позже разобраться во всех нужных областях. Отмечу, что за границей русские студенты до сих пор очень ценятся, а русское образование в сфере точных наук очень уважается. 

Из пробелов, которые позже пришлось наверстывать самостоятельно, отмечу теорию вероятностей, математическую статистику и функциональный анализ. Не берусь утверждать, с чем были связаны эти пробелы, со мной или с их преподаванием на ВМиК, но позже я потратил изрядно времени, разбираясь в этих областях. Кстати, эти три предмета, пожалуй, одни из ключевых, если есть желание заниматься теорией машинного обучения на уровне международных конференций.

Я не большой специалист “живых” прикладных задач машинного обучения. Поэтому в ответе на вторую часть вопроса я буду рассуждать об “академическом” машинном обучении. Под этим я подразумеваю научное сообщество, активно публикующееся в таких конференциях как ICML, COLT, NIPS, CVPR и журналах типа JMLR, Machine Learning и др. Предположим, человек хочет влиться в это научное сообщество, то есть, начать активно работать в области и публиковаться. Если говорить о прикладной части науки, то, пожалуй, основными предметами в обиходе будут линейная алгебра, теория оптимизации и элементы того, что на западе называется computer science. Если же речь идет о теории машинного обучения, то, наверно, здесь необходимы теория вероятностей, математическая статистика, функциональный анализ. 

 Здесь и всюду далее под “теорией машинного обучения” я имею ввиду ту область, которую принято называть Learning Theory. Центральной конференцией в этой области является COLT.

В каких, на Ваш взгляд, учебных заведениях в России готовят лучших специалистов по DS?

Все рассуждения будут основаны на моем личном опыте и моем личном мнении. Они не обязательно соответствуют реальности.

Повторяясь, поскольку у меня мало опыта в вопросах прикладного анализа данных, буду рассуждать о потенциальных ученых в области машинного обучения. Когда я учился, ФУПМ и ВМиК были, пожалуй, самыми удачными местами. О МехМате не берусь рассуждать — мало чего о нем знаю. Позже появился ШАД. Я о нем слышал много хорошего, но никогда там не учился и не преподавал. Как обстоят дела теперь — не знаю, потому что несколько “отошел от дел” и уже два года живу в Германии. Я думаю, ВМиК МГУ и ФУПМ МФТИ остаются кузницами сильных кадров. Наверно, набирают обороты ФКН Вышки и СколТех. Насколько мне известно, оба ВУЗа сумели набрать очень сильный преподавательский состав. В качестве дополнительного источника знаний, конечно, я бы рекомендовал ШАД. Также я бы порекомендовал открытые семинары “стохастический анализ в задачах” на НМУ и лекции, устраиваемые на premolab в ИППИ. 

Еще один комментарий. Если говорить о науке, то, на мой взгляд, главный период в жизни молодого ученого — аспирантура. Именно в этот период человек формирует свои научные интересы, знакомится с последними результатами в области, учится самостоятельно ставить новые и интересные задачи, решать их, излагать на бумаге, представлять общественному вниманию. Во всем этом, на мой взгляд, очень важную роль должен играть “ментор”. Ментор и научный руководитель — не обязательно одно лицо. Ментором может быть соавтор вашей статьи, старший товарищ в аспирантуре, профессор, чьи лекции вы посещаете, научный руководитель, … Ментор должен уделять вам внимание, обсуждать с вами науку, немного подталкивать в какое-то направление и делиться знаниями. Важно, чтобы ментор сам вел исследования и активно публиковался, желательно, в международных журналах и конференциях. Мне кажется, если удалось найти такого ментора — совершенно неважно, где вы учитесь.

По поводу DS — мне кажется так: если у человека достаточно базовых знаний для самостоятельного изучения предмета, то он может стать специалистом (и в теории и в приложениях) независимо от места. Сейчас в сети полно ресурсов, материалов, лекций, книг, конкурсов, и т.д.

Поддерживаете ли отношения с бывшими одногруппниками? Сколько из них осталось в специальности?

К сожалению, регулярно я общаюсь только с несколькими одногруппниками. Из них в науке остались, пожалуй, только два-три (один работает PostDoc’ом в Париже в группе очень известного в нашей области ученого, другой — в аспирантуре РАН). Еще один мой одногруппник сделал очень успешную карьеру в сфере финансов и сейчас возглавляет отдел в известном банке. Несколько других друзей с моего потока работают (или работали) в Яндексе, MS и Google.

Где сейчас работаете (где работали раньше)? Чем занимаетесь?

Сейчас я работаю PostDoc’ом в Max PLanck Institute for Intelligent Systems, Department of Empirical Inference. Это группа Бернарда Шолкопфа — одного из самых цитируемых в машинном обучении ученых (он, например, придумал kernel PCA, one-class SVM и популяризовал применение ядер в машинном обучении). Институт находится в городе Тюбинген на Юго-Западе Германии, рядом со Штутгартом, в 3 часах от Цюриха.

По приезду мне дали контракт на 3 года (это стандартная длительность пост-дока в Европе). По сути, единственная моя обязанность — заниматься наукой. Это означает, что я должен публиковать статьи в конференциях и журналах. Никаких бюрократических обязанностей у меня нет, преподавать я тоже не должен. 

Раньше я работал довольно долго в Лаборатории Касперского. Там мы с нашим небольшим отделом достаточно успешно применяли алгоритмы машинного обучения в задачах, связанных с компьютерными вирусами.

Можете описать свой типичный рабочий день?

Я встаю в 8:30, завтракаю дома. К 10 прихожу на работу. До работы от двери до двери идти порядка 10 минут пешком. Сижу я в довольно большом и уютном кабинете вдвоем с PhD студентом Бернарда. 

Дальше все зависит от ситуации. Либо я рецензирую статьи, если это сезон конференций. На это может уйти вся неделя. Либо я работаю над текстом своей статьи, если результаты уже готовы. Это тоже может занять много времени, но, в целом, занятие довольно рутинное. Если я работаю над какой-то задачей, то за день может произойти что у годно. Я могу весь день просидеть, читая какую-нибудь статью или учебник. Могу расстроиться, что ничего не получается, и проплевать весь день в потолок. Могу провести пол-дня в кабинете коллеги, с которым работаю над задачей. Или в кабинете коллеги, который тоже плюет в потолок.

У нашего отдела три раза в неделю регулярные семинары. По вторникам и четвергам “tea talks”, а по средам “cake talk”. Tea talk — это 15 минутный доклад на свободную тему. Докладчики назначаются случайно и по принципу “кто давно не выступал”. Cake talk — это 45 минутный научный доклад. Обычно люди рассказывают подробно о том, чем они сейчас занимаются, или о последнем законченном проекте. Cake talk, потому что человек, дававший прошлый доклад, приносит на следующий доклад всякие сладости (торты, пироги…)

В какой-то момент иду обедать. Обычно в районе часа дня. У нас в соседнем здании замечательная кантина. Обычно хожу не один. На обед уходит порядка 30 минут, но может растянуться и на час и на полтора. После обеда иногда прогуливаемся вокруг кампуса, чтобы обсудить что-то по науке или просто переварить.

На работе я обычно сижу где-то до 18:00, если не назначено никаких встреч и нет никаких срочных проектов. Я стараюсь строго разграничивать работу и дом — если я ушел с работы, значит, на сегодня хватит. Дома я не работаю. Мне это помогает привести в порядок время и мысли.

Где комфортнее жить и заниматься наукой: в России или за границей?

На мой взгляд, уровень жизни моей семьи в Германии сильно повысился по сравнению с той, которая у нас была в Москве. Живем мы втроем — я, жена и 7-месячная дочь. Сейчас у жены все время уходит на дочь, поэтому она не работает. Не буду вдаваться в подробности и цифры, но одной моей зарплаты здесь хватает вполне на всю нашу семью. Каждый месяц мы платим за большую 3х-комнатную квартиру, медицинскую страховку, электричество и отопление, сотовые, интернет. На еде мы не экономим — любим готовить и вкусно есть. После всего этого у нас еще остается на поездки (в горы, по Европе, в Россию), одежду, велосипеды, фитнес, и так далее. Кроме того, здесь ряд социальных компенсаций: институт нам компенсирует часть страховки, Германия и Тюбинген (отдельно) нам доплачивают за дочь. 

С точки зрения условий для занятия наукой — я сейчас не вижу ни одного места в Москве, которое могло бы предложить мне такие же условия. Фактически, я полностью свободен и могу выбирать любые задачи и темы. Нам полностью оплачивают все командировки, все поездки на конференции, школы, семинары, книги. Мы можем довольно легко приглашать к себе коллег и ученых из других стран, если видим хороший потенциал в совместном проекте: их проживание и перелеты будут полностью оплачены. При этом я полностью освобожден от бюрократических обязанностей: я не должен заполнять отчеты, подавать на гранты, заботиться о зарплате. Отчетности тоже никакой нет: в неудачный год я могу не опубликовать ни одной работы. Когда контракт заканчивается, продливать его или нет решает лично Бернард. 

Наш отдел — один из самых старых и сильных групп в машинном обучении. У нас работает суммарно, наверно, порядка 50 человек.  К нам очень часто приезжают в гости с докладами известные специалисты (многие — друзья Бернарда), и с ними всегда можно встретиться и поговорить. Вот, например, недавно приезжал Владимир Наумович Вапник (он был научным руководителем Бернарда) — удалось довольно много с ним пообщаться, узнать много интересных историй и поговорить о его последних работах. Почти все коллеги из отдела ежегодно печатаются на топовых конференциях (ICML, COLT, NIPS, CVPR, …) и в журналах (JMLR, Machine Learning, Annals of Statistics, …) В нашем кампусе есть еще два института (биологии и кибернетики), а в нашем институте — два других отдела (робототехника и компьютерное зрения). Очень часто проходят совместные семинары, лекции, поездки на природу. Часто можно найти какую-нибудь интересную задачу у коллег, поделиться опытом. Вместе, все эти факторы помогают очень плодотворно, весело и много работать.

В чём специфика европейской жизни (особенности быта, менталитета и т.п.) с точки зрения молодого учёного?

Мы ведем здесь очень спокойный, здоровый и размеренный образ жизни. Тюбинген — довольно маленький университетский город, живет здесь всего порядка 80 тысяч человек. В то же время Тюбинген никогда не спит: треть населения — студенты Тюбингенского Университета. В центре полно пабов, клубов, ресторанчиков, которые работают допоздна. Насколько я знаю, Тюбинген лидирует в списке городов с самым молодым населением в Германии. Здесь много зелени, с Севера город окружен большим лесом. Рядом Швабские Альпы. Кругом природа. 

В Германии много социальных льгот: например, нам за маленькую дочь приплачивает и страна и город. Институт компенсирует часть страховки, занятие немецким. С видом на жительство, конечно, удобно путешествовать по Европе — никакие визы больше не нужны. Отдельно хочу отметить медицину. Во-первых, жена рожала здесь, и это прошло максимально плавно и комфортно. Медицинская страховка довольно дорогая (около 400 евро в месяц на всю семью), но она покрывает все: от скорой помощь до лекарств. Я думаю, мы на одних родах ее уже отбили.

Про прелести жизни с точки зрения молодого ученого — уже написал в прошлом вопросе. Коротко — платят хорошо, бюрократии нет, полная свобода в выборе задач.

Занимаетесь ли Вы сейчас преподаванием?

Нет, преподаванием я не занимаюсь. PostDoc позиция, насколько я понимаю, принципиально не предполагает этого: человек полностью свободен от всего, кроме занятия наукой. Это хороший опыт и в это время человек должен максимально плодотворно публиковаться. 

Но при желании возможность все равно есть: у нас, например, многие коллеги читают курсы в Тюбингенском университете.

Я вел курс по Learning Theory во время последней Machine Learning Summer School.

Какими языками программирования и технологиями владеете?

Сейчас программирую я редко, поскольку занимаюсь в основном теорией. Если приходится что-то посчитать — то обычно делаю это либо на MATLAB либо на Python. MATLAB помню еще со времен учебы на ВМиК. Python сам освоил. Со времен работы в Касперском помню си, но им никогда не пользуюсь.

Вы занимаетесь одной научной темой или меняете их?

Это зависит от предпочтений и стиля человека. Я думаю, с точки зрения карьеры в науке выгоднее заниматься многими темами, активно сотрудничать с коллегами, часто менять соавторов. Мне нравится брать задачу и доводить ее до конца. По крайней мере — глубоко погружаться в тему. Обычно у меня есть одна продолжительная тема, над которой я работаю постоянно, и на стороне возникают сотрудничества с разными коллегами на любые другие темы.

Иметь знакомых всегда хорошо — к ним можно съездить, погостить. Они могут пригласить на конференции и семинары, организованные ими.

Какой Ваш самый «технически трудный» научный результат?

Я не знаю, что значит “технически”. Но если мерить по времени и силам, затраченным на проект, приходит одна история на ум. Я в какой-то момент выдвинул гипотезу о справедливости неравенства, связывающего математические ожидания двух случайных величин определенного вида. Но никак не мог его доказать. Наверно, недели две-три *непрерывно* работал над этим, но без успехов. Потом полетел в Берлин к одному моему соавтору. Думали, вместе справимся. не справились. К счастью, после Берлина я полетел на маленькую конференцию, где встретил случайно другого своего знакомого, очень сильного ученого. Я ему рассказал про задачу. Он заинтересовался. Мы с ним за ужином разговорились, начали обсуждать. В итоге еще через неделю, благодаря ему, гипотезу мы успешно доказали. Это была статья на конференцию ALT.

Какие научные статьи Вас максимально поразили в последнее время?

Сложно выделить несколько. Из классических результатов — в последнее время на мои исследования сильно повлияла глава про нижние минимаксные оценки из книги А.Б. Цыбакова: Le Cam’s method, Fano inequality, Assouad’s lemma — все это очень красивые результаты. 

Я недавно был на школе по статистике (Spring School on Structural Inference), где одну из лекций читал Ramon van Handel. То, что он там рассказывал, пожалуй, меня поразило элегантностью и находчивостью доказательств. Он рассказывал про верхние оценки на математическое ожидание спектральной нормы структурных случайных матриц. Весь курс лекций был о том, как убрать зазор порядка “корень из логарифма n” (где n — размер матрицы) между верхней и нижней оценкой. Вопрос может показаться несущественным, но в его решении всплывают страшно красивые результаты и техники. 

Из более “mainstream” статей, наверно, могу выделить статью “Train faster, generalize better”. Авторы показывают, что метод стохастического градиента с ранним остановом имеет хорошую обобщающую способность. Даже в невыпуклых задачах. Сейчас тема невыпуклой оптимизации набирает огромную популярность, благодаря ее актуальности в Deep Learning.

Где совсем недавно были получены интересные результаты в теоретической области Data Science?

В 2000х годах большие прорывы были в классической теории статистического обучения. Грубо говоря, удалось показать, что обучение с учителем во многих случаях происходит быстрее (заданная точность достигается при обучении на меньшем числе данных), чем было принято считать раньше (со времен VC-оценок Вапника и Червоненкиса). В прошлом году в этой же области была наконец решена (Simon, COLT, 2015 & Hanneke, 2016, arxiv) задача, которую не могли решить более 40 лет. Но в общем, все это далеко от практики. 

Б’ольшее отношение к практике имеют недавние результаты по Active Learning. Это когда алгоритм обучения сам решает, нужна ли ему метка очередного объекта обучающей выборки или нет. В некоторых случаях эта метка не даст ему никакой новой и полезной информации, поэтому он от нее может отказаться. Это существенно сокращает расходы по разметке данных, которые обычно дорого стоят. Были найдены алгоритмы, которые во многих случаях ведут к существенному сокращению размеченных данных.

Другая любопытная область — semi-supervised learning (SSL). Это когда помимо размеченных данных в обучающей выборке есть много неразмеченных точек. Из практики известно, что это сильно помогает строить хорошие классификаторы. В последние годы было получено много “негативных результатов”, показывающих, что во многих случаях SSL не помогает по сравнению с обычным обучением с учителем (когда алгоритм просто игнорирует неразмеченные данные). К сожалению, до сих пор очень мало строгих теоретических результатов о том, когда же SSL действительно помогает. Я сам сейчас над этим частично работаю.

Еще одна любопытная область — causality (см. также здесь). Это любимая тема Бернарда и нашего отдела. Если вкратце, представьте две случайных величины: X и Y. Предположим, они статистически зависимы. Как мы знаем, correlation does not mean causation. Другими словами, это не означает, что между X и Y есть причинно-следственная связь. Возможно, есть третья случайная величина Z, которая является причиной и для X и для Y. Пример “из учебника” — зависимость между числом аистов и рождаемостью в этом регионе. Или зависимость между числом Нобелевских лауреатов и потреблением шоколада в этой стране. В первом случае роль Z играет число ферм в регионе, во втором — благосостояние страны. Возникает вопрос: возможно ли на основе наблюдаемых выборок из X и Y установить о наличии причинно-следственной связи между ними? Заметьте: такой вывод часто можно сделать, “влияя” на одну из случайных величин. Скажем, можно насильственно увеличить потребление шоколада в стране и посмотреть, начнут ли люди получать Нобелевские премии. Но такие эксперименты не всегда гуманны и этичны. Именно поэтому отвечать на подобные вопросы мы хотим исключительно на основе наблюдаемых данных. Это очень молодая тема и развивается она очень активно. Главное — она очень полезна в приложениях. Сейчас алгоритмы машинного обучения в своей работе учитывают лишь статистические связи и полностью игнорируют наличие причинно-сдедственных цепочек в данных. Например, это приводит к еще одному “примеру из учебника”: до недавнего времени при покупке рюкзака для ноутбука Amazon в качестве рекомендуемого товара показывал ноутбук. Но, очевидно, в большинстве случаев человек, покупающий рюкзак, уже обзавелся ноутбуком.

Конечно, много прорывов было связано с Deep Learning. Но тут, наоборот, прорывы практические. С точки зрения теории никто эмпирические результаты этих методов объяснить до сих пор не может. Сейчас появляется *много* работ, пытающихся найти теоретические обоснования Deep Learning (например, недавно удалось показать, что к этому делу имеют отношения spin glass theory из физики), но никто не подкрался даже и близко. Я думаю, это будет одна из самых горячих тем в теории машинного обучения в ближайшие годы.

Есть ли такая область науки (DS), которую Вы не понимаете (в смысле: «зачем такой ерундой занимаются»?)

Я сам занимаюсь областью, которую большинство других людей и даже ученых из Machine Learning “не понимают”. Так что я полностью открыт ко всем задачам и областям. Мне кажется, любая область может сыграть ключевую роль в какой-то момент.

Какой, на Ваш взгляд, наиболее интересный сплав теории и практики? (где по внешнему виду совсем теоретические вещи пригодились для реальных практических задач)

Это тоже сложный вопрос. Из теории машинного обучения принято отмечать SVM и Boosting. Обе вещи вытекли из *сугубо* теоретических аргументов. Обе вещи пользуются бешеной популярностью на практике. Я бы добавил все, что связано с ядрами в машинном обучении (symmetric positive-definite kernels, reproducing kernels, RKHS) — это позволило очень многие линейные методы без лишнего труда превращать в нелинейные. Еще одна область, которая сейчас набирает бешеную популярность — тесно связанные Online Learning и Stochastic Optimization. В этой области теория сливается с практикой: как правило, любой теоретический результат здесь основан на конкретном алгоритме. Чем лучше и точнее теоретический анализ — тем лучше работает соответствующий алгоритм на практике.

Читаете ли Вы блоги по DS, персональные страницы представителей DS-сообщества?

Читаю, но только если увидел интересную ссылку (где-нибудь в Facebook). Ни один блог постоянно не читаю. 

Зато постоянно “читаю” Архив (arxiv.org) — они каждый день обновляют список последних загруженных статей, отсортированных по темам. Очень удобно. Обо всем новом узнаешь сразу же.

Какие у вас увлечения, что делаете в свободное время?

После переезда в Тюбинген я начал регулярно заниматься спортом. Примерно раз в два дня хожу в тренажерный зал или занимаюсь зарядкой на улице. Много бегаю. Люблю готовить. Много гуляем по городу. Любим кататься на лыжах. Слушаю музыку, читаю книги. Все как обычно.

 Какие книги читаете (например, несколько последних), какую музыку слушаете? Какой любимый художественный фильм?

Последнее время художественную литературу, к сожалению, читаю мало. В качестве “жвачки” прочитал недавно “Мертвую Зону” и “Салимов Удел” Кинга. Довольно увлекательно. До этого восполнял свои пробелы в Русской классике (Достоевский, Толстой). Сейчас изредка почитываю “Математику и правдоподобные рассуждения” Пойи. Очень любопытно. Еще друг подарил “Proofs from the book”, где собраны красивые доказательства из различных областей математики (в составлении участие принимал Эрдеш).

 Музыку очень люблю. Слушаю всегда. Работаю всегда в наушниках. Слушаю многое. Главным образом — электронную музыку, тяжелую музыку и классическую. Последнее время почти всегда на работе слушаю онлайн-радио frisky. Активно пользуюсь Apple Music, слушаю разные подборки классической музыки, джаза.

Какие планы на будущее?

Научно — плодотворно поработать здесь в Тюбингене (у меня еще минимум 4,5 года контракта). В ближайшее время планирую взять себе аспиранта. Дальше — посмотрим.

 В целом: Вырастить и достойно воспитать дочь. Определиться, где мы хотим осесть.

П.С. Статьи, слайды и диссертацию Ильи можно посмотреть на его персональном сайте.

Реклама

Илья Толстихин: 3 комментария

Добавить комментарий

Заполните поля или щелкните по значку, чтобы оставить свой комментарий:

Логотип WordPress.com

Для комментария используется ваша учётная запись WordPress.com. Выход / Изменить )

Фотография Twitter

Для комментария используется ваша учётная запись Twitter. Выход / Изменить )

Фотография Facebook

Для комментария используется ваша учётная запись Facebook. Выход / Изменить )

Google+ photo

Для комментария используется ваша учётная запись Google+. Выход / Изменить )

Connecting to %s