Продолжаем серию интервью в данном блоге. Как показывает статистика, это самые популярные посты. Сегодня переносимся за океан, узнаем для каких задач применяют анализ данных там и познакомимся с обаятельным человеком — Алексеем Нефёдовым, автором SVM tutorial (обязательно к прочтению для всех, кто учит машинное обучение).
1. Где учились? Почему поступили именно туда?
Я закончил факультет вычислительной математики и кибернетики (ВМК) Московского государственного университета. Кандидатскую диссертацию защитил там же. Выбор факультета основывался на моих интересах – компьютеры (игры, программирование), математика и физика. ВМК считался (и сейчас заслуженно считается) одним из лучших факультетов для тех, кто хочет получить образование в области программирования и прикладной математики. Как альтернатива ВМК рассматривался механико-математический факультет МГУ, но этот вариант считался более подходящим для любителей теоретической математики.
2. Довольны ли своим образованием? Какие предметы необходимы для образования в Data Science?
Своим образованием в целом доволен. Хотя я не рассматриваю образование как что-то, полученное раз и навсегда. Мне, например, всё время приходится узнавать и учить что-то новое, причём часто это новое совершенно не связано с моей профильной областью (прикладная математика, анализ данных), а связано, например, с биологией, генетикой, медициной и т.д.
На мой взгляд, для хорошего образования в Data Science нужно хорошо знать математику (включая алгебру, статистику, распознавание образов) и уметь хорошо программировать.
3. Где сейчас работаете? Чем занимаетесь?
Я работаю в американской фармацевтической компании Мёрк (Merck). Работа в основном связана с анализом данных, описывающих экспрессию генов (транскриптом) клеток в биологических исследованиях, а так же в клинических испытаниях лекарственных препаратов и вакцин. Транскриптом несёт в себе очень большое количество информации о состоянии клеток и о биохимических процессах, происходящих внутри клеток. Анализ транскриптома, дополняя другие методы исследований, позволяет составлять детальную картину нормальных и патологических процессов, происходящих в живом организме. Кроме этого, анализ транскриптома позволяет находить ценные биомаркеры как для клинической практики (диагностика заболеваний, прогноз эффективности лечения), так и для создания новых лекарственных препаратов и вакцин.
4. Чем занимается компания?
Компания занимается созданием лекарственных препаратов и терапий для лечения широкого спектра заболеваний, включая инфекционные, сердечно-сосудистые, неврологические, эндокринные и онкологические заболевания. В компании также разрабатывают вакцины для профилактики большого количества инфекционных заболеваний.
5. Какие её самые известные проекты?
История компании (в этом году ей исполнилось 125 лет) богата прорывными открытиями и разработками в медицине. Вот несколько примеров:
- первое промышленное производство пенициллина
- открытие стрептомицина (первого антибиотика, действующего против возбудителя туберкулеза)
- синтез кортизона (первого лекарства против ревматоидного артрита)
- разработка первых вакцин против кори, свинки, краснухи
- разработка первого препарата из группы статинов (понижение холестерина в крови)
- Crixivan – один из первых антиретровирусных препаратов (лечение ВИЧ-инфекции)
- Januvia – препарат для больных диабетом (понижение сахара в крови)
Из последних разработок Мёрка одной из наиболее известных является противораковый препарат Keytruda. Это один из первых представителей принципиально нового класса препаратов лечения рака, механизм действия которых заключается в отключении «защиты» опухоли от иммунной системы больного, в результате чего иммунная система начинает работать внутри опухоли и уничтожает её.
6. Почему Вы пошли работать в эту компанию?
Перед тем, как прийти в Мёрк, я занимался биоинформатикой в Пенсильванском университете. Один мой хороший знакомый, который уже долгое время работал в Мёрке, искал человека в свою группу, занимающуюся созданием биомаркеров на основе данных генной экспрессии. Он много рассказывал о Мёрке, о поиске и разработке лекарств, и о задачах, которыми занимается его группа. То, что я услышал, показалось мне очень интересным, и я решил воспользоваться приглашением.
7. Какие открытия в области биоинформатики ожидают нас в ближайшее время?
Как известно, делать детальные прогнозы трудно, особенно если речь идёт о будущем. Если говорить в общем, то мне представляются наиболее интересными несколько областей соприкосновения computer science, биологии и медицины, в которых можно ожидать (или, по крайне мере, очень хотелось бы ожидать) большого прогресса.
- Секвенирование и анализ последовательностей ДНК/РНК.
Секвенирование ДНК/РНК будет становиться всё более дешёвым и доступным для расширяющегося круга практических приложений. Объём данных, генерируемых расшифровкой новых геномов и транскриптомов, будет продолжать экспоненциально увеличиваться. Анализ этих данных будет способствовать новым открытиям в биологии и медицине, многие из которых станут прорывными. Прогресс в этой области будет тесно связан с развитием существующих, а также созданием новых методов в биоинформатике.
- Анализ микробиома и микробиоты.
Микробиом человека – это генетический материал его микробиоты, т.е. совокупности микроорганизмов (преимущественно бактерий), живущих в и на человеке (кишечник, полость рта, кожа, и т.д.). В последнее время появляется всё больше исследований, подтверждающих связь между «здоровьем» микробиоты и здоровьем человека. Может оказаться, что самые серьёзные заболевания, включающие расстройства пищеварения, метаболизма, иммунной системы, во многом связаны с подавленной или разрушенной микробиотой. Поскольку микробиота человека насчитывает тысячи видов одних только бактерий, а размер микробиома оценивается в несколько миллионов генов, задачи описания, анализа и сравнения микробиот/микробиомов послужат хорошим стимулом для развития новых методов в биоинформатике.
- Анализ иммунного репертуара.
Иммунный репертуар человека – это совокупность рецепторов его Т- и В-лимфоцитов. Иммунный репертуар содержит в себе информацию об очень многих инфекционных заболеваниях, которыми когда-либо болел данный человек, а также о том, чем занимается иммунная система в настоящее время (текущие инфекции, раки?), и насколько она здорова (работоспособна). Анализ и сравнение иммунных репертуаров разных людей позволит ответить на многие важные вопросы, касающиеся работы иммунной системы человека и его здоровья. С точки зрения биоинформатики, здесь, также как и в предыдущем пункте, возникают задачи описания и сравнения разнообразий, насчитывающих большое число групп (видов бактерий, клонов лимфоцитов), и большое число элементов в каждой группе. Вместе с тем, в анализе иммунного репертуара есть много своих интересных задач – например, установление соответствия между клонами лимфоцитов и конкретными патогенами, к которым эти клоны специфичны.
- Развитие систем семантического анализа текстов (см., например, IBM Watson).
Приложение таких систем к поиску ответов на биологические вопросы, медицинской диагностике, созданию лекарств.
- Предсказание трёхмерной модели белка по линейной последовательности его аминокислот.
↓
моделирование взаимодействий между белками
↓
молекулярная биология in silico
↓
модель клетки и многоклеточных организмов in silico
↓
биологические эксперименты in silico
8. Можете описать свой типичный рабочий день?
Расписание типичного рабочего дня выглядит примерно так. Встаю около 7:15, завтракаю дома, везу сына в детский садик рядом с работой (примерно 30 мин. на машине), на работу прихожу в 9:30. Обед с 12 до 13 в кафетерии на территории компании. С работы ухожу в районе 17:30 — 18:00. Один или два раза в неделю стараюсь сходить в тренажёрку, которая также расположена на территории компании. Домой прихожу около 18:30 — 19:00 часов вечера. С момента появления дома до того, как сын уляжется спать в районе 21:00-21:30 – прогулки, игры, хозяйственные дела, ужин. После того, как ребёнок засыпает, появляется свободное время. Ложусь спать около 00:00.
Рабочие дни в компании обычно очень насыщенны – митинги, новости, статьи, планирование и обсуждение проектов, собственно работа над проектами (анализ данных, подготовка отчётов и презентаций), и т.п. Работать приходится очень интенсивно. Проектов и задач, поступающих в нашу группу, много, поэтому важно правильно расставлять приоритеты и внимательно следить за временем. Во многих больших проектах собственно анализ данных занимает лишь небольшую часть времени; основные усилия уходят на интерпретацию и понимание результатов в контексте биологии, медицины, и разработки конкретных лекарственных препаратов. К сожалению, времени на разработку новых методов анализа данных, чтение статей по теории data analysis и machine learning остаётся гораздо меньше, чем хотелось бы.
9. Где комфортнее жить и заниматься наукой: в России или за границей?
Предполагаю, что под «за границей» имеются в виду страны Европы и США. Этот вопрос обсуждался среди моих друзей и знакомых огромное количество раз, так что я знаю, что на эту тему можно говорить и спорить очень долго, и одного мнения (а также двух и трех) здесь быть не может. Очень многое в этом вопросе определяется жизненной ситуацией, мировоззрением и целями конкретного человека. Моё частное, субъективное ощущение заключается в том, что жизнь и научная работа за границей, вообще говоря, устроены более комфортно, чем в России. Наиболее очевидные плюсы жизни за границей – организация быта и работы, высокий уровень финансирования науки, высокие зарплаты.
Конечно, за границей вместе со своими плюсами есть и свои минусы. Если вы уезжаете на долгое время – вам придётся адаптироваться к новому языку, менталитету, культуре, оставив позади (или, по-крайней мере, на большом расстоянии от себя) родной язык, родную культуру, родителей, друзей, и вообще всё то, к чему вы привыкли и из чего состояла ваша жизнь в России. Для многих людей это совсем не просто.
В любом случае, я считаю, что посмотреть на жизнь в других странах – это очень полезно. Если есть возможность съездить в отпуск, или на конференцию, или получить образование, или поработать за рубежом – очень рекомендую это сделать.
10. В чём специфика американской жизни (особенности быта, менталитета и т.п.) с точки зрения молодого учёного?
На это вопрос не так просто ответить – после 9 лет жизни в Америке многие особенности американской жизни перестали быть особенными и стали нормой. Попробую вспомнить, что сильно бросилось в глаза, когда я только приехал в Америку (исключительно мой субъективный опыт).
- Американский английский. Очень сильно отличается от английского, который я учил в России, слышал на международных конференциях и в Великобритании. В России и Европе обычно учат британский английский, однако американский английский и звучит по-другому, и многие слова и выражения в нём другие, и стиль другой.
- Американцы гораздо менее формальны, более непосредственны, раскрепощенны и открыты в общении друг с другом – как на работе, так и в жизни.
- В науке меньше теории и больше практики. Наука в большей степени рассматривается с точки зрения того, что она может сделать для жизни, людей, производства или бизнеса. Меньше тех, кто занимается чистой теорией (например, чисто теоретической математикой).
- Больше свободы. Больше возможности для самореализации.
- Выше зарплаты.
11. Занимаетесь ли Вы сейчас преподаванием?
Нет – и это то, чего мне сильно не хватает после ухода из университетской среды.
12. Какими языками программирования и технологиями владеете?
Сейчас на работе использую в основном MATLAB, реже – R. Иногда, когда требуется обработать большой объём данных за короткое время, пишу на C/C++. Также иногда использую Perl, Visual Basic и SQL.
13. Вы занимаетесь одной научной темой или меняете их?
В принципе, всё то, чем я занимался и занимаюсь в профессиональной сфере, так или иначе связано с анализом данных, поэтому в каком-то смысле можно считать, что научная тема одна. Однако области, в которых приходилось решать задачи анализа данных, несколько раз менялись. Моя дипломная и кандидатская работа, а также первая после окончания аспирантуры работа в компании, были связаны с анализом и распознаванием изображений. После этого я занимался приложениями в эпидемиологии, масс-спектрометрии, медицинской диагностике. Сейчас в Мёрке занимаюсь приложениями в области медицины и биологии. При этом при вхождении в новую прикладную область обычно приходилось учить много нового, связанного с этой областью. Может быть, здесь возможен и другой подход, но на мой взгляд без наличия хотя бы базового уровня знаний о прикладной области очень трудно делать содержательный анализ данных, понимать, что важно, а что не важно, интерпретировать результаты, обсуждать результаты с коллегами не математиками, и т.д.
14. Читаете ли Вы блоги по DS, персональные страницы представителей DS-сообщества?
Просматриваю 10-15 блогов, хотя и не очень регулярно. Причём чаще читаю что-то про биоинформатику и биологию, чем про DS. Очень нравятся форумы группы StackExchange, например — по теме DS – Cross Validated.
18. Какие у вас увлечения, что делаете в свободное время?
Я люблю книги, музыку, фильмы. Занимаюсь спортом (тренажёрка, велосипед, горные лыжи). С большим вниманием слежу за жизнью в России. Люблю путешествовать, но в настоящее время с маленьким ребёнком это делать не так просто. Ждём, когда сын подрастёт, и можно будет брать его в дальние поездки.
19. Какие книги читаете (например, несколько последних), какую музыку слушаете? Какой любимый художественный фильм?
Несколько понравившихся книг, из недавно прочитанного: The Selfish Gene (эгоистичный ген), Work Rules! by Laszlo Bock, Юные годы медбрата Паровозова. Любимая музыка: джаз, рок, электронная музыка. В последнее время – в основном электронный chill (отлично подходит для поездок на машине и музыкальных пауз на работе). Из недавно увиденных фильмов очень понравились Ex Machina и Her – рекомендую всем, кто профессионально или не профессионально интересуется компьютерами и искусственным интеллектом.
20. Какие планы на будущее?
Выбраться с семьёй на отдых – давно не было полноценного отпуска. Съездить в Москву. Заняться параглайдингом.
Спасибо за интервью, было интересно прочитать. Надеюсь, их будет больше. Сейчас очень много статей, руководств, а вот интервью маловато. Надеюсь, возьмёте интервью и с недавним победителем из ваших: http://blog.kaggle.com/2016/09/27/grupo-bimbo-inventory-demand-winners-interviewclustifier-alex-andrey/
Здравствуйте, спасибо за теплые слова. Про победу Александра Рыжкова я недавно здесь писал и поздравлял. Брать интервью — пока нет инфоповода, Александр же дал интервью для блога кэгла, а здесь я не дублирую информацию, которую можно получить в других местах интернета. Кроме того, в раздел жзл у меня попадают не победители кэгла, а интересные люди, про которых больше нигде нет информации.
Добрый день!
Передайте пожалуйста, что сайт
http://svmtutorial.online/ не работает (а почитать хотелось)
Ошибка «You have an error in your SQL syntax; «
Здравствуйте. У меня все работает…
Странно — из под Tor у меня тоже открылось. В обычных браузерах так и не заработало
[…] Алексей Нефёдов (532) […]