Знакомство с Pandas (слайды)

Для магистров ВМК МГУ подготовил презентацию по пакету Pandas. С удивлением обнаружил, что по очень популярной среди питонистов панде совсем нет образовательных презентаций. Например, на www.slideshare.net нет ни одного материала по этому пакету (только среди обзоров пакетов для аналитиков данных). Поэтому исправил данный недостаток и закачал туда свою презенташку.

ссылка для скачивания (pdf)

Делал в небольшой спешке, но получилось неплохо. Для себя открыл, что после версии 0.14 (стоит у меня) многое успело измениться. Сейчас можно использовать подобные конструкции: s.dt.hour (для автоматического извлечения часа из datetime-серии) или pd.Series([3,2,2,2,5,3,3]).sample(3) (выбирать подвыборки), но про это я в презентации не писал — остановился только на «старых добрых» фишках.

В ближайшее время доработаю учебный ноутбук по панде, о котором писал ранее…

UPD: Был неправ, что на www.slideshare.net нет презенташек по панде. После регистрации на ресурсе местный поисковик стал выдавать кучу релевантных слайдов (а до регистрации ничего не выдавал ;).

Знакомство с Pandas (слайды): 15 комментариев

    • Спасибо, Александр! Они, правда, себе не завидуют (судя по кислым лицам и по посещаемости ~30%). Но у Вас, надеюсь, всё хорошо (даже без панды в базовом образовании)?

      • Да всё это приходящее. Были б мозги и знание Английского. Мозги делают на ВМК, Аглицкий – в принципе, тоже приходящее.
        Зависть – не от того, что нам когда-то панду с питоном не дали, а ностальгическая: в целом из-за того, что моё студенческое время прошло 🙂

        Покажите студентам нынешние цены на платные курсы: может, хоть это вразумит. Скажем, Билайн: 100.000р: http://bigdata.beeline.digital/#registration

      • Спасибо. Кратко и по делу. По scikit-learn не планируете такую же сделать с кратким обзором наиболее популярных и полезных подходов?

      • Планировал… хотел и просто по питону (каким-то сложным моментам), по numpy и по scikit-learn сделать… но теперь уже не уверен, что успею свести все свои материалы в презентацию. Но по scikit-learn я дал магистрам одно задание, результаты которого (при их правильном подходе) будут очень полезны всем. Если получится что-то разумное — дам ссылку в блоге.

  1. Благодарю за презентацию.
    Прошу добавить на слайд 5 указание о том что для загрузки файлов без заголовка (числовые матрицы) необходимо читающую функцию вызывать как : read_csv(«file_name», header=None)
    Также прошу добавить на слайд 6 раздел смотрим данные материалы по определению раз количества строк и столбцов( функция len).
    А то опять поиски. А тут у Вас все под руками.
    Если можно конечно
    С Уважением Попов Ю.Г,

  2. В дополнение к первому комменту сообщаю, что являюсь начинающим питонистом, вопросы которые возникают записываю в собственный дневник, эти вопросы они мелкие но на них тратиться куча времени. С целью сокращения времени на поиск ответов на вопросы очевидные для скажем «опытного» питониста и предлагаю включить в Вашу работу информацию для начинающих. Могу поучаствовать, так как явлюсь тем самым начинающим у которого возникают «дурацкие» вопросы, и испорченным к тому же С и Матлабом, предложениями, либо если сбросите рыбу слайда слайдами, вообщем как удобно.
    С Уважением Попов Ю.Г.

  3. Здравствуйте Александр Геннадьевич!
    Высылаю Вам порядок действий который вызвал проблему, в части потраченного времени. На все вопросы ответы нашел, но время это съело очень много. Через полгода у меня лично в памяти будет чисто по этому вопросу, и не хочется повторять «памперсы». В Вашей презентации очень много интересного по библиотеке, вот почему и просил дополнить ее «рецептами «быстрого старта»

    Вот собственно сами вопросы

    1. Прочитать файл
    Зачастую файл представлен как матрица чисел с пропусками, например (3 на 3)
    0.1, 302, 404
    21, 2.2, 67
    45, , 17
    При считывании надо считать все цифры. А пандас использует 1-ю строку как заголовок и она теряется. Что делать с комплексными числами в матрице???
    2. Посмотреть размеры считанной таблицы что то типа size() или length () матлаб
    3. Отсеять (выделить )строки с пропущенными данными (это строка 3)
    4. Выбрать подматрицу matrix(1:2, 1:2) (это у Вас нашел, iloc)
    5. Выбрать строку или n строк,
    6. Выбрать столбец данных или n – столбцов

    Дальше данные используются для расчетов

    Это пока все.
    С уважением Попов Ю.Г.

Оставьте комментарий