Знакомство с Pandas (слайды)

2015/11/062016/03/22 alexanderdyakonov кодпрезентация, pandas, python

Для магистров ВМК МГУ подготовил презентацию по пакету Pandas. С удивлением обнаружил, что по очень популярной среди питонистов панде совсем нет образовательных презентаций. Например, на www.slideshare.net нет ни одного материала по этому пакету (только среди обзоров пакетов для аналитиков данных). Поэтому исправил данный недостаток и закачал туда свою презенташку.

ссылка для скачивания (pdf)

Делал в небольшой спешке, но получилось неплохо. Для себя открыл, что после версии 0.14 (стоит у меня) многое успело измениться. Сейчас можно использовать подобные конструкции: s.dt.hour (для автоматического извлечения часа из datetime-серии) или pd.Series([3,2,2,2,5,3,3]).sample(3) (выбирать подвыборки), но про это я в презентации не писал — остановился только на «старых добрых» фишках.

В ближайшее время доработаю учебный ноутбук по панде, о котором писал ранее…

UPD: Был неправ, что на www.slideshare.net нет презенташек по панде. После регистрации на ресурсе местный поисковик стал выдавать кучу релевантных слайдов (а до регистрации ничего не выдавал ;).

Знакомство с Pandas (слайды): 15 комментариев

Александр Двойнев:

2015/11/06 в 11:18

Александр Геннадьевич, чем больше читаю ваш блог — тем больше завидую нынешним студентам 🙂

Ответить
- alexanderdyakonov:
  
  2015/11/06 в 12:41
  
  Спасибо, Александр! Они, правда, себе не завидуют (судя по кислым лицам и по посещаемости ~30%). Но у Вас, надеюсь, всё хорошо (даже без панды в базовом образовании)?
  
  Ответить
  - Александр Двойнев:
    
    2015/11/06 в 13:26
    
    Да всё это приходящее. Были б мозги и знание Английского. Мозги делают на ВМК, Аглицкий – в принципе, тоже приходящее.
    Зависть – не от того, что нам когда-то панду с питоном не дали, а ностальгическая: в целом из-за того, что моё студенческое время прошло 🙂
    
    Покажите студентам нынешние цены на платные курсы: может, хоть это вразумит. Скажем, Билайн: 100.000р: http://bigdata.beeline.digital/#registration
  - Иван Сусанин:
    
    2015/11/09 в 00:38
    
    Спасибо. Кратко и по делу. По scikit-learn не планируете такую же сделать с кратким обзором наиболее популярных и полезных подходов?
  - alexanderdyakonov:
    
    2015/11/09 в 01:04
    
    Планировал… хотел и просто по питону (каким-то сложным моментам), по numpy и по scikit-learn сделать… но теперь уже не уверен, что успею свести все свои материалы в презентацию. Но по scikit-learn я дал магистрам одно задание, результаты которого (при их правильном подходе) будут очень полезны всем. Если получится что-то разумное — дам ссылку в блоге.
Питон (Python) | Анализ малых данных:

2016/10/12 в 11:43

[…] Pandas […]

Ответить
Юрий Попов:

2017/07/25 в 19:49

Благодарю за презентацию.
Прошу добавить на слайд 5 указание о том что для загрузки файлов без заголовка (числовые матрицы) необходимо читающую функцию вызывать как : read_csv(«file_name», header=None)
Также прошу добавить на слайд 6 раздел смотрим данные материалы по определению раз количества строк и столбцов( функция len).
А то опять поиски. А тут у Вас все под руками.
Если можно конечно
С Уважением Попов Ю.Г,

Ответить
- alexanderdyakonov:
  
  2017/07/26 в 20:40
  
  Здравствуйте, Юрий!
  
  Не понял, что надо добавить на слайд 6…
  
  Ответить
Юрий Попов:

2017/07/26 в 10:49

В дополнение к первому комменту сообщаю, что являюсь начинающим питонистом, вопросы которые возникают записываю в собственный дневник, эти вопросы они мелкие но на них тратиться куча времени. С целью сокращения времени на поиск ответов на вопросы очевидные для скажем «опытного» питониста и предлагаю включить в Вашу работу информацию для начинающих. Могу поучаствовать, так как явлюсь тем самым начинающим у которого возникают «дурацкие» вопросы, и испорченным к тому же С и Матлабом, предложениями, либо если сбросите рыбу слайда слайдами, вообщем как удобно.
С Уважением Попов Ю.Г.

Ответить
- alexanderdyakonov:
  
  2017/07/26 в 20:41
  
  Спасибо за отклик. Если хотите, присылайте список «дурацких вопросов» — я по нему сделаю отдельный пост.
  
  Ответить
Юрий Попов:

2017/07/31 в 10:23

Здравствуйте Александр Геннадьевич!
Высылаю Вам порядок действий который вызвал проблему, в части потраченного времени. На все вопросы ответы нашел, но время это съело очень много. Через полгода у меня лично в памяти будет чисто по этому вопросу, и не хочется повторять «памперсы». В Вашей презентации очень много интересного по библиотеке, вот почему и просил дополнить ее «рецептами «быстрого старта»

Вот собственно сами вопросы

1. Прочитать файл
Зачастую файл представлен как матрица чисел с пропусками, например (3 на 3)
0.1, 302, 404
21, 2.2, 67
45, , 17
При считывании надо считать все цифры. А пандас использует 1-ю строку как заголовок и она теряется. Что делать с комплексными числами в матрице???
2. Посмотреть размеры считанной таблицы что то типа size() или length () матлаб
3. Отсеять (выделить )строки с пропущенными данными (это строка 3)
4. Выбрать подматрицу matrix(1:2, 1:2) (это у Вас нашел, iloc)
5. Выбрать строку или n строк,
6. Выбрать столбец данных или n – столбцов

Дальше данные используются для расчетов

Это пока все.
С уважением Попов Ю.Г.

Ответить
- alexanderdyakonov:
  
  2017/07/31 в 12:20
  
  Мне кажется, что большинство ответов есть здесь: http://mlbootcamp.ru/article/tutorial/
  
  Ответить
  - Юрий Попов:
    
    2017/08/02 в 11:48
    
    Огромная благодарность! На данный момент это то что нужно!!!!!
С Новым 2018 годом! | Анализ малых данных:

2018/01/02 в 17:59

[…] Знакомство с Pandas (слайды) (3110) […]

Ответить
Scikit-Learn: тонкие вопросы о реализации методов машинного обучения | Анализ малых данных:

2021/03/05 в 12:04

[…] же серии:Питон (Python), Python: категориальные признаки, Знакомство с Pandas, Знакомство с scikit-learn (слайды), Считаем категории, NumPy — […]

Ответить

	alexanderdyakonov к записи Случайный лес (Random For…
	alexanderdyakonov к записи Логистическая функция ошибки
	alexanderdyakonov к записи AUC ROC (площадь под кривой…
	alexanderdyakonov к записи Случайный лес (Random For…
	Ульяна к записи Случайный лес (Random For…
	Ilias Tuktarov к записи AUC ROC (площадь под кривой…
	lapkin25 к записи Логистическая функция ошибки

Анализ малых данных

КвазиНаучный блог Александра Дьяконова

Знакомство с Pandas (слайды)

Знакомство с Pandas (слайды): 15 комментариев

Оставьте комментарий Отменить ответ

Ноябрь 2015
Пн	Вт	Ср	Чт	Пт	Сб	Вс
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

Поделиться ссылкой:

Похожее

Знакомство с Pandas (слайды): 15 комментариев

Оставьте комментарий Отменить ответ