Алексей Нефёдов

Продолжаем серию интервью в данном блоге. Как показывает статистика, это самые популярные посты. Сегодня переносимся за океан, узнаем для каких задач применяют анализ данных там и познакомимся с обаятельным человеком — Алексеем Нефёдовым, автором SVM tutorial (обязательно к прочтению для всех, кто учит машинное обучение).

nefedov

1. Где учились? Почему поступили именно туда?

Я закончил факультет вычислительной математики и кибернетики (ВМК) Московского государственного университета. Кандидатскую диссертацию защитил там же. Выбор факультета основывался на моих интересах – компьютеры (игры, программирование), математика и физика. ВМК считался (и сейчас заслуженно считается) одним из лучших факультетов для тех, кто хочет получить образование в области программирования и прикладной математики. Как альтернатива ВМК рассматривался механико-математический факультет МГУ, но этот вариант считался более подходящим для любителей теоретической математики.

2. Довольны ли своим образованием? Какие предметы необходимы для образования в Data Science?

Своим образованием в целом доволен. Хотя я не рассматриваю образование как что-то, полученное раз и навсегда. Мне, например, всё время приходится узнавать и учить что-то новое, причём часто это новое совершенно не связано с моей профильной областью (прикладная математика, анализ данных), а связано, например, с биологией, генетикой, медициной и т.д.

На мой взгляд, для хорошего образования в Data Science нужно хорошо знать математику (включая алгебру, статистику, распознавание образов) и уметь хорошо программировать.

3. Где сейчас работаете? Чем занимаетесь?

Я работаю в американской фармацевтической компании Мёрк (Merck). Работа в основном связана с анализом данных, описывающих экспрессию генов (транскриптом) клеток в биологических исследованиях, а так же в клинических испытаниях лекарственных препаратов и вакцин. Транскриптом несёт в себе очень большое количество информации о состоянии клеток и о биохимических процессах, происходящих внутри клеток. Анализ транскриптома, дополняя другие методы исследований, позволяет составлять детальную картину нормальных и патологических процессов, происходящих в живом организме. Кроме этого, анализ транскриптома позволяет находить ценные биомаркеры как для клинической практики (диагностика заболеваний, прогноз эффективности лечения), так и для создания новых лекарственных препаратов и вакцин.

4. Чем занимается компания?

Компания занимается созданием лекарственных препаратов и терапий для лечения широкого спектра заболеваний, включая инфекционные, сердечно-сосудистые, неврологические, эндокринные и онкологические заболевания. В компании также разрабатывают вакцины для профилактики большого количества инфекционных заболеваний.

5. Какие её самые известные проекты?

История компании (в этом году ей исполнилось 125 лет) богата прорывными открытиями и разработками в медицине. Вот несколько примеров:

  • первое промышленное производство пенициллина
  • открытие стрептомицина (первого антибиотика, действующего против возбудителя туберкулеза)
  • синтез кортизона (первого лекарства против ревматоидного артрита)
  • разработка первых вакцин против кори, свинки, краснухи
  • разработка первого препарата из группы статинов (понижение холестерина в крови)
  • Crixivan – один из первых антиретровирусных препаратов (лечение ВИЧ-инфекции)
  • Januvia – препарат для больных диабетом (понижение сахара в крови)

Из последних разработок Мёрка одной из наиболее известных является противораковый препарат Keytruda. Это один из первых представителей принципиально нового класса препаратов лечения рака, механизм действия которых заключается в отключении «защиты» опухоли от иммунной системы больного, в результате чего иммунная система начинает работать внутри опухоли и уничтожает её.

6. Почему Вы пошли работать в эту компанию?

Перед тем, как прийти в Мёрк, я занимался биоинформатикой в Пенсильванском университете. Один мой хороший знакомый, который уже долгое время работал в Мёрке, искал человека в свою группу, занимающуюся созданием биомаркеров на основе данных генной экспрессии. Он много рассказывал о Мёрке, о поиске и разработке лекарств, и о задачах, которыми занимается его группа. То, что я услышал, показалось мне очень интересным, и я решил воспользоваться приглашением.

7. Какие открытия в области биоинформатики ожидают нас в ближайшее время?

Как известно, делать детальные прогнозы трудно, особенно если речь идёт о будущем. Если говорить в общем, то мне представляются наиболее интересными несколько областей соприкосновения computer science, биологии и медицины, в которых можно ожидать (или, по крайне мере, очень хотелось бы ожидать) большого прогресса.

  1. Секвенирование и анализ последовательностей ДНК/РНК.

    Секвенирование ДНК/РНК будет становиться всё более дешёвым и доступным для расширяющегося круга практических приложений. Объём данных, генерируемых расшифровкой новых геномов и транскриптомов, будет продолжать экспоненциально увеличиваться. Анализ этих данных будет способствовать новым открытиям в биологии и медицине, многие из которых станут прорывными. Прогресс в этой области будет тесно связан с развитием существующих, а также созданием новых методов в биоинформатике.

  2. Анализ микробиома и микробиоты.

    Микробиом человека – это генетический материал его микробиоты, т.е. совокупности микроорганизмов (преимущественно бактерий), живущих в и на человеке (кишечник, полость рта, кожа, и т.д.). В последнее время появляется всё больше исследований, подтверждающих связь между «здоровьем» микробиоты и здоровьем человека. Может оказаться, что самые серьёзные заболевания, включающие расстройства пищеварения, метаболизма, иммунной системы, во многом связаны с подавленной или разрушенной микробиотой. Поскольку микробиота человека насчитывает тысячи видов одних только бактерий, а размер микробиома оценивается в несколько миллионов генов, задачи описания, анализа и сравнения микробиот/микробиомов послужат хорошим стимулом для развития новых методов в биоинформатике.

  3. Анализ иммунного репертуара.

    Иммунный репертуар человека – это совокупность рецепторов его Т- и В-лимфоцитов. Иммунный репертуар содержит в себе информацию об очень многих инфекционных заболеваниях, которыми когда-либо болел данный человек, а также о том, чем занимается иммунная система в настоящее время (текущие инфекции, раки?), и насколько она здорова (работоспособна). Анализ и сравнение иммунных репертуаров разных людей позволит ответить на многие важные вопросы, касающиеся работы иммунной системы человека и его здоровья. С точки зрения биоинформатики, здесь, также как и в предыдущем пункте, возникают задачи описания и сравнения разнообразий, насчитывающих большое число групп (видов бактерий, клонов лимфоцитов), и большое число элементов в каждой группе. Вместе с тем, в анализе иммунного репертуара есть много своих интересных задач – например, установление соответствия между клонами лимфоцитов и конкретными патогенами, к которым эти клоны специфичны.

  4. Развитие систем семантического анализа текстов (см., например, IBM Watson).

    Приложение таких систем к поиску ответов на биологические вопросы, медицинской диагностике, созданию лекарств.

  5. Предсказание трёхмерной модели белка по линейной последовательности его аминокислот.


    моделирование взаимодействий между белками

    молекулярная биология in silico

    модель клетки и многоклеточных организмов in silico

    биологические эксперименты in silico

8. Можете описать свой типичный рабочий день?

Расписание типичного рабочего дня выглядит примерно так. Встаю около 7:15, завтракаю дома, везу сына в детский садик рядом с работой (примерно 30 мин. на машине), на работу прихожу в 9:30. Обед с 12 до 13 в кафетерии на территории компании. С работы ухожу в районе 17:30 — 18:00. Один или два раза в неделю стараюсь сходить в тренажёрку, которая также расположена на территории компании. Домой прихожу около 18:30 — 19:00 часов вечера. С момента появления дома до того, как сын уляжется спать в районе 21:00-21:30 – прогулки, игры, хозяйственные дела, ужин. После того, как ребёнок засыпает, появляется свободное время. Ложусь спать около 00:00.

Рабочие дни в компании обычно очень насыщенны – митинги, новости, статьи, планирование и обсуждение проектов, собственно работа над проектами (анализ данных, подготовка отчётов и презентаций), и т.п. Работать приходится очень интенсивно. Проектов и задач, поступающих в нашу группу, много, поэтому важно правильно расставлять приоритеты и внимательно следить за временем. Во многих больших проектах собственно анализ данных занимает лишь небольшую часть времени; основные усилия уходят на интерпретацию и понимание результатов в контексте биологии, медицины, и разработки конкретных лекарственных препаратов. К сожалению, времени на разработку новых методов анализа данных, чтение статей по теории data analysis и machine learning остаётся гораздо меньше, чем хотелось бы.

9. Где комфортнее жить и заниматься наукой: в России или за границей?

Предполагаю, что под «за границей» имеются в виду страны Европы и США. Этот вопрос обсуждался среди моих друзей и знакомых огромное количество раз, так что я знаю, что на эту тему можно говорить и спорить очень долго, и одного мнения (а также двух и трех) здесь быть не может. Очень многое в этом вопросе определяется жизненной ситуацией, мировоззрением и целями конкретного человека. Моё частное, субъективное ощущение заключается в том, что жизнь и научная работа за границей, вообще говоря, устроены более комфортно, чем в России. Наиболее очевидные плюсы жизни за границей – организация быта и работы, высокий уровень финансирования науки, высокие зарплаты.

Конечно, за границей вместе со своими плюсами есть и свои минусы. Если вы уезжаете на долгое время – вам придётся адаптироваться к новому языку, менталитету, культуре, оставив позади (или, по-крайней мере, на большом расстоянии от себя) родной язык, родную культуру, родителей, друзей, и вообще всё то, к чему вы привыкли и из чего состояла ваша жизнь в России. Для многих людей это совсем не просто.

В любом случае, я считаю, что посмотреть на жизнь в других странах – это очень полезно. Если есть возможность съездить в отпуск, или на конференцию, или получить образование, или поработать за рубежом – очень рекомендую это сделать.

10. В чём специфика американской жизни (особенности быта, менталитета и т.п.) с точки зрения молодого учёного?

На это вопрос не так просто ответить – после 9 лет жизни в Америке многие особенности американской жизни перестали быть особенными и стали нормой. Попробую вспомнить, что сильно бросилось в глаза, когда я только приехал в Америку (исключительно мой субъективный опыт).

  1. Американский английский. Очень сильно отличается от английского, который я учил в России, слышал на международных конференциях и в Великобритании. В России и Европе обычно учат британский английский, однако американский английский и звучит по-другому, и многие слова и выражения в нём другие, и стиль другой.
  2. Американцы гораздо менее формальны, более непосредственны, раскрепощенны и открыты в общении друг с другом – как на работе, так и в жизни.
  3. В науке меньше теории и больше практики. Наука в большей степени рассматривается с точки зрения того, что она может сделать для жизни, людей, производства или бизнеса. Меньше тех, кто занимается чистой теорией (например, чисто теоретической математикой).
  4. Больше свободы. Больше возможности для самореализации.
  5. Выше зарплаты.

11. Занимаетесь ли Вы сейчас преподаванием?

Нет – и это то, чего мне сильно не хватает после ухода из университетской среды.

12. Какими языками программирования и технологиями владеете?

Сейчас на работе использую в основном MATLAB, реже – R. Иногда, когда требуется обработать большой объём данных за короткое время, пишу на C/C++. Также иногда использую Perl, Visual Basic и SQL.

13. Вы занимаетесь одной научной темой или меняете их?

В принципе, всё то, чем я занимался и занимаюсь в профессиональной сфере, так или иначе связано с анализом данных, поэтому в каком-то смысле можно считать, что научная тема одна. Однако области, в которых приходилось решать задачи анализа данных, несколько раз менялись. Моя дипломная и кандидатская работа, а также первая после окончания аспирантуры работа в компании, были связаны с анализом и распознаванием изображений. После этого я занимался приложениями в эпидемиологии, масс-спектрометрии, медицинской диагностике. Сейчас в Мёрке занимаюсь приложениями в области медицины и биологии. При этом при вхождении в новую прикладную область обычно приходилось учить много нового, связанного с этой областью. Может быть, здесь возможен и другой подход, но на мой взгляд без наличия хотя бы базового уровня знаний о прикладной области очень трудно делать содержательный анализ данных, понимать, что важно, а что не важно, интерпретировать результаты, обсуждать результаты с коллегами не математиками, и т.д.

14. Читаете ли Вы блоги по DS, персональные страницы представителей DS-сообщества?

Просматриваю 10-15 блогов, хотя и не очень регулярно. Причём чаще читаю что-то про биоинформатику и биологию, чем про DS. Очень нравятся форумы группы StackExchange, например — по теме DSCross Validated.

18. Какие у вас увлечения, что делаете в свободное время?

Я люблю книги, музыку, фильмы. Занимаюсь спортом (тренажёрка, велосипед, горные лыжи). С большим вниманием слежу за жизнью в России. Люблю путешествовать, но в настоящее время с маленьким ребёнком это делать не так просто. Ждём, когда сын подрастёт, и можно будет брать его в дальние поездки.

19. Какие книги читаете (например, несколько последних), какую музыку слушаете? Какой любимый художественный фильм?

Несколько понравившихся книг, из недавно прочитанного: The Selfish Gene (эгоистичный ген), Work Rules! by Laszlo Bock, Юные годы медбрата Паровозова. Любимая музыка: джаз, рок, электронная музыка. В последнее время – в основном электронный chill (отлично подходит для поездок на машине и музыкальных пауз на работе). Из недавно увиденных фильмов очень понравились Ex Machina и Her – рекомендую всем, кто профессионально или не профессионально интересуется компьютерами и искусственным интеллектом.

20. Какие планы на будущее?

Выбраться с семьёй на отдых – давно не было полноценного отпуска. Съездить в Москву. Заняться параглайдингом.

Алексей Нефёдов: 6 комментариев

  1. Спасибо за интервью, было интересно прочитать. Надеюсь, их будет больше. Сейчас очень много статей, руководств, а вот интервью маловато. Надеюсь, возьмёте интервью и с недавним победителем из ваших: http://blog.kaggle.com/2016/09/27/grupo-bimbo-inventory-demand-winners-interviewclustifier-alex-andrey/

    • Здравствуйте, спасибо за теплые слова. Про победу Александра Рыжкова я недавно здесь писал и поздравлял. Брать интервью — пока нет инфоповода, Александр же дал интервью для блога кэгла, а здесь я не дублирую информацию, которую можно получить в других местах интернета. Кроме того, в раздел жзл у меня попадают не победители кэгла, а интересные люди, про которых больше нигде нет информации.

Оставьте комментарий