当前位置：主页 > python教程 > 最全的Python pandas用法总结

Python pandas用法详解

发布：2020-07-24 14:07:01 197

给网友朋友们带来一篇相关的编程文章，网友辛浩广根据主题投稿了本篇教程内容，涉及到Python、pandas、总结、最全的Python pandas用法总结相关内容，已被654网友关注，如果对知识点想更进一步了解可以在下方电子资料中获取。

最全的Python pandas用法总结

一、生成数据表

1、首先导入pandas库，一般都会用到numpy库，所以我们先导入备用：

import numpy as np
import pandas as pd

2、导入CSV或者xlsx文件：

df = pd.DataFrame(pd.read_csv('name.csv',header=1))
df = pd.DataFrame(pd.read_excel('name.xlsx'))

3、用pandas创建数据表：

df = pd.DataFrame({"id":[1001,1002,1003,1004,1005,1006], 
 "date":pd.date_range('20130102', periods=6),
 "city":['Beijing ', 'SH', ' guangzhou ', 'Shenzhen', 'shanghai', 'BEIJING '],
 "age":[23,44,54,32,34,32],
 "category":['100-A','100-B','110-A','110-C','210-A','130-F'],
 "price":[1200,np.nan,2133,5433,np.nan,4432]},
columns =['id','date','city','category','age','price'])

二、数据表信息查看

1、维度查看：

df.shape

2、数据表基本信息（维度、列名称、数据格式、所占空间等）：

df.info()

3、每一列数据的格式：

df.dtypes

4、某一列格式：

df['B'].dtype

5、空值：

df.isnull()

6、查看某一列空值：

df.isnull()

7、查看某一列的唯一值：

df['B'].unique()

8、查看数据表的值：

df.values

9、查看列名称：

df.columns

10、查看前10行数据、后10行数据：

df.head() #默认前10行数据
df.tail()    #默认后10 行数据

相关推荐：《Python视频教程》

三、数据表清洗

1、用数字0填充空值：

df.fillna(value=0)

2、使用列prince的均值对NA进行填充：

df['prince'].fillna(df['prince'].mean())

3、清楚city字段的字符空格：

df['city']=df['city'].map(str.strip)

4、大小写转换：

df['city']=df['city'].str.lower()

5、更改数据格式：

df['price'].astype('int')

6、更改列名称：

df.rename(columns={'category': 'category-size'})

7、删除后出现的重复值：

df['city'].drop_duplicates()

8、删除先出现的重复值：

df['city'].drop_duplicates(keep='last')

9、数据替换：

df['city'].replace('sh', 'shanghai')

四、数据预处理

df1=pd.DataFrame({"id":[1001,1002,1003,1004,1005,1006,1007,1008], 
"gender":['male','female','male','female','male','female','male','female'],
"pay":['Y','N','Y','Y','N','Y','N','Y',],
"m-point":[10,12,20,40,40,40,30,20]})

1、数据表合并

df_inner=pd.merge(df,df1,how='inner')  # 匹配合并，交集
df_left=pd.merge(df,df1,how='left')        #
df_right=pd.merge(df,df1,how='right')
df_outer=pd.merge(df,df1,how='outer')  #并集

2、设置索引列

df_inner.set_index('id')

3、按照特定列的值排序：

df_inner.sort_values(by=['age'])

4、按照索引列排序：

df_inner.sort_index()

5、如果prince列的值>3000，group列显示high，否则显示low：

df_inner['group'] = np.where(df_inner['price'] > 3000,'high','low')

6、对复合多个条件的数据进行分组标记

df_inner.loc[(df_inner['city'] == 'beijing') & (df_inner['price'] >= 4000), 'sign']=1

7、对category字段的值依次进行分列，并创建数据表，索引值为df_inner的索引列，列名称为category和size

pd.DataFrame((x.split('-') for x in df_inner['category']),index=df_inner.index,columns=['category','size']))

8、将完成分裂后的数据表和原df_inner数据表进行匹配

df_inner=pd.merge(df_inner,split,right_index=True, left_index=True)

五、数据提取

主要用到的三个函数：loc,iloc和ix，loc函数按标签值进行提取，iloc按位置进行提取，ix可以同时按标签和位置进行提取。

1、按索引提取单行的数值

df_inner.loc[3]

2、按索引提取区域行数值

df_inner.iloc[0:5]

3、重设索引

df_inner.reset_index()

4、设置日期为索引

df_inner=df_inner.set_index('date')

5、提取4日之前的所有数据

df_inner[:'2013-01-04']

6、使用iloc按位置区域提取数据

df_inner.iloc[:3,:2] #冒号前后的数字不再是索引的标签名称，而是数据所在的位置，从0开始，前三行，前两列。

7、适应iloc按位置单独提起数据

df_inner.iloc[[0,2,5],[4,5]] #提取第0、2、5行，4、5列

8、使用ix按索引标签和位置混合提取数据

df_inner.ix[:'2013-01-03',:4] #2013-01-03号之前，前四列数据

9、判断city列的值是否为北京

df_inner['city'].isin(['beijing'])

10、判断city列里是否包含beijing和shanghai，然后将符合条件的数据提取出来

df_inner.loc[df_inner['city'].isin(['beijing','shanghai'])]

11、提取前三个字符，并生成数据表

pd.DataFrame(category.str[:3])

六、数据筛选

使用与、或、非三个条件配合大于、小于、等于对数据进行筛选，并进行计数和求和。

1、使用“与”进行筛选

df_inner.loc[(df_inner['age'] > 25) & (df_inner['city'] == 'beijing'), ['id','city','age','category','gender']]

2、使用“或”进行筛选

df_inner.loc[(df_inner['age'] > 25) | (df_inner['city'] == 'beijing'), ['id','city','age','category','gender']]
.sort(['age'])

3、使用“非”条件进行筛选

df_inner.loc[(df_inner['city'] != 'beijing'), ['id','city','age','category','gender']].sort(['id'])

4、对筛选后的数据按city列进行计数

df_inner.loc[(df_inner['city'] != 'beijing'), ['id','city','age','category','gender']].sort(['id']).city.count()

5、使用query函数进行筛选

df_inner.query('city == ["beijing", "shanghai"]')

6、对筛选后的结果按prince进行求和

df_inner.query('city == ["beijing", "shanghai"]').price.sum()

七、数据汇总

主要函数是groupby和pivote_table

1、对所有的列进行计数汇总

df_inner.groupby('city').count()

2、按城市对id字段进行计数

df_inner.groupby('city')['id'].count()

3、对两个字段进行汇总计数

df_inner.groupby(['city','size'])['id'].count()

4、对city字段进行汇总，并分别计算prince的合计和均值

df_inner.groupby('city')['price'].agg([len,np.sum, np.mean])

八、数据统计

数据采样，计算标准差，协方差和相关系数

1、简单的数据采样

df_inner.sample(n=3)

2、手动设置采样权重

weights = [0, 0, 0, 0, 0.5, 0.5]
df_inner.sample(n=2, weights=weights)

3、采样后不放回

df_inner.sample(n=6, replace=False)

4、采样后放回

df_inner.sample(n=6, replace=True)

5、数据表描述性统计

df_inner.describe().round(2).T #round函数设置显示小数位，T表示转置

6、计算列的标准差

df_inner['price'].std()

7、计算两个字段间的协方差

df_inner['price'].cov(df_inner['m-point'])

8、数据表中所有字段间的协方差

df_inner.cov()

9、两个字段的相关性分析

df_inner['price'].corr(df_inner['m-point']) #相关系数在-1到1之间，接近1为正相关，接近-1为负相关，0为不相关

10、数据表的相关性分析

df_inner.corr()

九、数据输出

分析后的数据可以输出为xlsx格式和csv格式

1、写入Excel

df_inner.to_excel('excel_to_python.xlsx', sheet_name='bluewhale_cc')

2、写入到CSV

df_inner.to_csv('excel_to_python.csv')

以上就是最全的Python pandas用法总结的详细内容，更多请关注码农之家其它相关文章！

参考资料

pandas中MultiIndex和对象实际索引不一致解决方法

发布：2019-11-18

这篇文章主要介绍了详解pandas中MultiIndex和对象实际索引不一致问题,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习

解决Pandas同元素多列去重问题

发布：2020-01-23

今天小编就为大家分享一篇Pandas 同元素多列去重的实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

pandas DataFrame 如何删除重复的行

发布：2020-01-20

这篇文章主要介绍了pandas DataFrame 删除重复的行的实现方法，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧

pandas批量处理矢量化字符串实例分析

发布：2019-08-07

今天小编就为大家分享一篇使用pandas批量处理矢量化字符串的实例讲解，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

python:pandas合并csv文件的实例内容

发布：2020-02-04

下面小编就为大家分享一篇python:pandas合并csv文件的方法(图书数据集成)，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

pandas小数位数精度如何处理实例讲解

发布：2019-11-11

今天小编就为大家分享一篇pandas 小数位数精度的处理方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

详解pandas dataframe添加表格框线输出

发布：2020-02-21

今天小编就为大家分享一篇pandas dataframe添加表格框线输出的方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

Python pandas模块输出每行中间省略号问题及解决方法

发布：2019-08-11

这篇文章主要介绍Python pandas模块输出每行中间省略号问题,本文给大家介绍的非常详细，具有一定的参考借鉴价值，需要的朋友可以参考下

pandas DataFrame行或列的删除方法代码

发布：2020-01-06

这篇文章主要介绍了pandas DataFrame行或列的删除方法的实现示例，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学

python3 pandas 如何读取MySQL数据和插入

发布：2020-02-19

下面为大家分享一篇python3 pandas 读取MySQL数据和插入的实例，具有很好的参考价值，希望对大家有所帮助。一起过来看看吧

网友讨论

最新更新

最近更新

05-29Go语言面试八股文大全
05-29MySQL 8.4中文手册
05-29华为OD机考100题(真题)
05-29Python+OpenCV入门计算机视觉实战项目52讲 v1.0
05-21敏捷软件测试实践指南
05-21编写可维护的JavaScript
05-21Modbus协议
05-21竹林蹊径：深入浅出Windows驱动开发
05-21PCIE规范合集(PCI_Express_Base 1.0/2.1/3.0/4.0/5.0/6.0)
05-21深入理解Rust并发编程

热门资源

Python pandas用法详解

最全的Python pandas用法总结

参考资料

从芯片到云端：Python物联网全栈开发实践 PDF电子书

零起点Python足彩大数据与机器学习实盘分析 PDF电子书

Python机器学习：预测分析核心算法 PDF电子书

Python轻松学：爬虫、游戏与架站计算机书籍

Python爬虫开发从入门到实战 PDF电子书

深入浅出Python机器学习 PDF电子书

Python网络编程基础 PDF电子书

深入浅出深度学习：原理剖析与Python实践 PDF电子书

Python与数据挖掘 PDF电子书

相关文章

pandas中MultiIndex和对象实际索引不一致解决方法

解决Pandas同元素多列去重问题

pandas DataFrame 如何删除重复的行

pandas批量处理矢量化字符串实例分析

python:pandas合并csv文件的实例内容

pandas小数位数精度如何处理实例讲解

详解pandas dataframe添加表格框线输出

Python pandas模块输出每行中间省略号问题及解决方法

pandas DataFrame行或列的删除方法代码

python3 pandas 如何读取MySQL数据和插入

网友讨论