pandas数据处理与分析

pandas数据处理与分析

  • 大小:48.8 MB
  • 类型:pandas
  • 格式:PDF
  • 出版:人民邮电出版社
  • 作者:耿远昊
  • 更新:2022-08-02 09:14:56
vip 免费获取(已有160人参与)
关注公众号免费送书
版权投诉 / 资源反馈(本资源由用户 于正青 投稿)

内容简介 本书以Python中的pandas库为主线,介绍各类数据处理与分析方法。 本书共包含13章,第一部分介绍NumPy和pandas的基本内容;第二部分介绍pandas库中的4类操作,包括索引、分组、变形和连接;第三部分介绍基于pandas库的4类数据,包括缺失数据、文本数据、分类数据和时间序列数据,并介绍这4类数据的处理方法;第四部分介绍数据观测、特征工程和性能优化的相关内容。本书以丰富的练习为特色,每章的最后一节为习题,同时每章包含许多即时性的练习(练一练)。读者可通过这些练习将对数据科学的宏观认识运用到实践中。 目录 第 一部分基础知识 第1章 预备知识2 1.1Python基础2 1.1.1推导式2 1.1.2匿名函数4 1.1.3打包函数5 1.2NumPy基础7 1.2.1NumPy数组的构造7 1.2.2NumPy数组的变形11 1.2.3NumPy数组的切片15 1.2.4广播机制17 1.2.5常用函数19 1.3习题24 第2章 pandas基础26 2.1文件的读取和写入26 2.1.1文件读取26 2.1.2数据写入28 2.2基本数据结构29 2.2.1Series29 2.2.2DataFrame30 2.3常用基本函数32 2.3.1汇总函数33 2.3.2特征统计函数34 2.3.3频次函数35 2.3.4替换函数36 2.3.5排序函数39 2.3.6apply()函数40 2.4窗口42 2.4.1滑动窗口42 2.4.2扩张窗口45 2.5习题46 第二部分4类操作 第3章索引50 3.1单级索引50 3.1.1DataFrame的列索引50 3.1.2Series的行索引51 3.1.3loc索引器52 3.1.4iloc索引器56 3.1.5query()函数57 3.1.6索引运算58 3.2多级索引59 3.2.1多级索引及其表的结构59 3.2.2多级索引中的loc索引器61 3.2.3多级索引的构造65 3.3常用索引方法66 3.3.1索引层的交换和删除66 3.3.2索引属性的修改67 3.3.3索引的设置与重置70 3.3.4索引的对齐71 3.4习题72 第4章分组74 4.1分组模式及其对象74 4.1.1分组的一般模式74 4.1.2分组依据的本质75 4.1.3groupby对象76 4.2聚合函数78 4.2.1内置聚合函数78 4.2.2agg()函数79 4.3变换和过滤80 4.3.1变换函数81 4.3.2组索引与过滤82 4.4跨列分组83 4.5习题85 第5章变形87 5.1长宽表的变形87 5.1.1长表的透视变形88 5.1.2宽表的逆透视变形91 5.2其他变形方法95 5.2.1索引变形95 5.2.2扩张变形98 5.3习题98 第6章连接100 6.1关系连接100 6.1.1关系连接的基本概念100 6.1.2列连接102 6.1.3索引连接104 6.2其他连接105 6.2.1方向连接105 6.2.2比较与组合108 6.3习题109 第三部分4类数据 第7章缺失数据114 7.1缺失值的统计和删除114 7.1.1缺失信息的统计114 7.1.2缺失信息的删除115 7.2缺失值的填充和插值116 7.2.1利用fillna() 进行填充116 7.2.2插值函数118 7.3Nullable类型120 7.3.1缺失记号及其缺陷120 7.3.2Nullable类型的性质122 7.3.3缺失数据的计算和分组124 7.4习题126 第8章文本数据128 8.1str对象128 8.1.1str对象的设计意图128 8.1.2[]索引器129 8.1.3string类型129 8.2正则表达式基础131 8.2.1元字符132 8.2.2分组捕获与反向引用134 8.2.3零宽断言135 8.3文本处理的5类操作136 8.3.1拆分136 8.3.2合并137 8.3.3匹配138 8.3.4替换139 8.3.5提取140 8.4其他字符串方法141 8.4.1字母型方法141 8.4.2数值型方法142 8.4.3统计型方法143 8.4.4格式型方法143 8.5习题145 第9章分类数据147 9.1cat对象147 9.1.1cat对象的属性147 9.1.2类别的增加、删除和修改148 9.2有序类别150 9.2.1序的建立150 9.2.2排序和比较150 9.3区间类别152 9.3.1利用cut()和qcut()进行区间构造152 9.3.2一般区间的构造153 9.3.3区间的属性与方法155 9.4习题155 第10章 时间序列数据159 10.1时间戳160 10.1.1时间戳的构造与属性160 10.1.2时间戳序列的生成161 10.1.3dt对象164 10.1.4时间戳序列的索引与切片166 10.2时间差167 10.2.1时间差序列的生成168 10.2.2时间差序列的运算169 10.3日期偏置170 10.3.1Offset对象170 10.3.2采样频率173 10.4时间序列操作175 10.4.1采样频率滑窗175 10.4.2重采样177 10.4.3特殊连接181 10.5习题184 第四部分进阶实战 第11章 数据观测190 11.1可视化方法190 11.1.1基本绘图190 11.1.2元素控制198 11.1.3子图绘制203 11.2数据观测方法206 11.2.1数据类型206 11.2.2数据统计量207 11.2.3数据分布209 11.2.4基于数据报告的观测210 11.3习题212 第12章 特征工程216 12.1单特征构造216 12.1.1特征变换216 12.1.2文本数据特征223 12.1.3时间序列数据特征226 12.1.4单特征构造的一般方法230 12.2多特征构造236 12.2.1分组技术236 12.2.2特征降维239 12.3特征选择242 12.3.1基于统计量的选择242 12.3.2基于模型的选择249 12.4习题255 第13章 性能优化258 13.1pandasic代码要义258 13.2多进程加速261 13.2.1多进程和多线程261 13.2.2多进程的陷阱264 13.2.3异步进程268 13.2.4进程中的数据共享271 13.2.5在pandas中使用 多进程282 13.3利用Cython加速286 13.3.1初识Cython286 13.3.2优化策略288 13.3.3多线程加速295 1

相关资源

  • 《可编程控制器应用基础(第2版)》示例程序,课件

    《可编程控制器应用基础(第2版)》示例程序,课件

    内容简介 本书以三菱公司FX系列小型整体式可编程控制器为对象,对其常用指令和基本应用行了详细的介绍。 本书以模块式结构编排,贯穿一个模块,一个知识的编写思想,并通过课堂演示、技能训练等实践教学环节,使学生切实掌握可编程控制器的基础知识及基本应用。 本书可作为中等职业及技工学校的教材,也可供相关行业作为岗前培训教材使用。 目录 知识模块一可编程控制器常见应用系统 第一部分教学组织 一、目的要求 二、教学节奏与方式

    大小:5.21 MB控制器配套资源

  • 操作系统

    操作系统 课后答案

    《重点大学计算机系列教材:操作》是清华大学本科生课程操作的教材,主要介绍操作的基本概念和基本原理,包括进程管理、死锁、存储管理、I/O设备管理和文件等,内容涵盖了现代操作所应具备的各个功能模块。 操作是一门比较难的课程,内容较为单调枯燥、晦涩难懂,学生不易掌握。本书作者具有丰富的教学经验,曾荣获霍英东教育基金会高等院校青年教师奖、北京市高校青年教师教学基本功比赛一等奖等奖项,对教学规律、课程内容和学生特点

    大小:951 KB操作系统课后答案

  • 《智能楼宇技术》教案,习题答案

    《智能楼宇技术》教案,习题答案

    内容介绍 本书根据智能楼宇的发展,全面介绍智能建筑的概念、组成、设计和管理等主要技术。全书共分10章,分别为智能建筑概述、楼宇智能化的关键技术、智能建筑设备自动化系统、安全防范系统、消防系统、智能建筑通信自动化系统、智能楼宇的音频系统、智能建筑办公自动化系统、综合布线系统和智能建筑系统集成及物业智能化管理。本书从实际应用出发,对楼宇智能化技术所涉及的基本原理和理论作了简要介绍,突出了实际工程所必需的知识

    大小:3.27 MB智能技术配套资源

  • PMP模拟题题库(全部3000题)

    想参加2018年12月份PMP考试的同学们,现在赶紧复习了!小编为大家整理了一些PMP中英文版的模拟试题练习,供各位练习与参考! PMP模拟试题练习汇总如下: PMP模拟试题练习(1) PMP模拟试题练习(2) PMP模拟试题练习(3) PMP模拟试题练习(4) PMP模拟试题练习(5) PMP模拟试题练习(6) PMP模拟试题练习(7) PMP模拟试题练习(8) PMP模拟试题练习(9) 精选的真题模拟题3000题,祝您一次通过pmp

    大小:8.4 MBPMP

  • 《Python金融大数据风控建模实战:基于机器学习》源码

    《Python金融大数据风控建模实战:基于机器学习》源码

    《 Python金融大数据风控建模实战:基于机器学习 》的定位是一本Python金融大数据风控建模的入门级读物。全书包括4篇:背景篇旨在由浅入深地引领读者走进金融科技领域,了解智能风控,系统、全面地认识评分卡;基础篇围绕评分卡构建的全流程,向读者一一讲述每个环节的理论知识,随之进行代码实践,帮助读者获得从0至1构建评分卡模型的工程能力;进阶篇旨在从建模中可能遇到问题出发,提供一些问题解决或模型提升的思路,使建立的评分卡具

    大小:17.6 MBPython配套资源

  • Selenium中文文档API

    Selenium中文文档API

    如今,大多数软件应用都是跑在浏览器中的网站应用。不同公司和组织之间的测试效率迥异。在这个富交互和响应式处理随处可见的时代,很多组织都使用敏捷的方式来开发,因此测试自动化也成为软件项目的必备部分。测试自动化意味着使用软件工具来反复运行项目中的测试,并为回归测试提供反馈。 测试自动化有很多优点。大多数都和测试的可重复性和高执行效率这两点相关。市面上有一些商业或开源的同居来辅助测试自动化开发。Selenium 应该是最

    大小:1.17 MBSelenium

  • 计算机系统基础

    计算机系统基础 课后答案

    本书主要介绍与计算机系统相关的核心概念,解释这些概念如何相互关联并最终影响程序执行的结果和性能。本书共分8章,主要内容包括数据的表示和运算、程序的转换及机器级表示、程序的链接、程序的执行、存储器层次结构、虚拟存储器、异常控制流和I/O操作的实现等。本书内容详尽,反映现实,概念清楚,通俗易懂,实例丰富,并提供大量典型习题供读者练习。本书可以作为计算机专业本科或大专院校学生计算机系统方面的基础性教材,也可以作

    大小:1.27 MB计算机系统课后答案

  • 编译原理及编译程序构造

    编译原理及编译程序构造 课后答案

    《编译原理及编译程序构造》全面地介绍编译系统的构造和相关原理与技术。全书共15章,力求展示一个完整的编译过程,在此基础上介绍与编译系统相关的理论和方法。《编译原理及编译程序构造》围绕这个完整的过程,还介绍并讨论了计算机领域三个非常重要的原理、概念和技术:高级程序设计语言的工作原理、程序模型间的转换方法,以及软件系统的概念。《编译原理及编译程序构造》强调编译系统的构造及其相关技术,突出对工程师人才的培养要

    大小:2.1 MB编译原理课后答案

参与送书

相关声明:

学习笔记