Сейчас практически все, кто занимается анализом малых данных, делают это с помощью Питона… а ведь ещё 5 лет назад не было пакетов типа scikit-learn и единственной средой с реализованными бустингом, случайным лесом и т.п. оставался R (+ RStudio, т.к. никаких ноутбуков тоже не было). Или приходилось реализовывать все алгоритмы «с нуля», что я и делал в том же Matlab-е. Ещё были разные программки на С/С++ типа libSVM, SVMlight…
Собственно, ситуация здесь примерно как с фотографией. Раньше ей занимались единицы, поскольку надо было ехать в специализированные магазины, мешать закрепители и проявители, проявлять по ночам и т.п. Сейчас любой может купить фотоаппарат практически любого уровня, нажать на кнопку и тут же увидеть фотографию. Так и в анализе данных: раньше им занимались лишь специалисты, теперь порог вхождения минимален, машинным обучением можно «баловаться», не особо понимая, а что находится внутри «чёрных ящиков».
Но тем не менее, программировать на Питоне надо уметь. Я подготовил обзорную презенташку, для «погружения в Питон». Собственно, это не совсем полноценный учебный курс. Поскольку презентация больше ориентирована на наших магистров, а среди них есть те, кто на Питоне уже что-то делал (почти 2 года), а есть те, кто о нём только услышал… поэтому надо, чтобы польза была всем (опытные услышали что-то новое), а новички — основное.
Напомню, что ранее я публиковал материалы по
(их надо бы доработать, чем я в ближайшее время займусь). А вот новая презентация по Питону.
Возможно, вы сами уже видели, но в назваеиях слайдов опечатка, надо jupyter,
Спасибо. Да, это я виноват… пишу как английский вариант слова «Юпитер» (и часто путаю при запуске ноутбука).
Хм… только быстро я это не исправлю, надо в кучу мест заливать новый вариант презенташки…
Александр, хочу спросить — есть ли в Python векторизация для матриц , как например в Matlab ?
Возможна ли похожая запись в Python
x=rand(100000,100000);
X=x.*10;
И если такая возможность есть — будет ли выигрыш по времени ?
Да, не в стандарном Питоне, а в библиотечке numpy — она практически идентична (даже с точки зрения синтаксиса) стандартному Матлабу.
Вот Матлабовский код:
tic
x=rand(10000,10000);
x=x.*10;
toc
Elapsed time is 0.972197 seconds.
Вот Питоновский:
import numpy as np
import time
t = time.time()
x = np.random.rand(10000, 10000)
x = x * 10
print (time.time() — t)
1.06682610512
В Матлабе чуть быстрее (я прогнал несколько раз),
но питон у меня стоит на VirtualBox.
[…] заметки в блоге из этой же серии:Питон (Python), Python: категориальные признаки, Знакомство с Pandas, […]