pandas 选取行和列数据的方法详解
- 更新时间:2023-01-24 13:55:01
- 编辑:麴明轩
参考资料
- Python数据科学速查表(Jupyter、Numpy、Pandas、Matplotlib、Seaborn、Keras) / 6.25 MB / 码小辫 推荐度:
- Pandas Cookbook 中文参考手册 PDF 电子书 / 38.1 MB / Theodore Petrou 推荐度:
- pandas1.0.1 官方文档 / 9.99 MB / 徐烨华 推荐度:
正文内容
前言
本文介绍在 pandas 中如何读取数据行列的方法。数据由行和列组成,在数据库中,一般行被称作记录 (record),列被称作字段 (field)。回顾一下我们对记录和字段的获取方式:一般情况下,字段根据名称获取,记录根据筛选条件获取。比如获取 student_id 和 studnent_name 两个字段;记录筛选,比如 sales_amount 大于 10000 的所有记录。对于熟悉 SQL 语句的人来说,就是下面的语句:
select student_id, student_name from exam_scores where chinese >= 90 and math >= 90
上面的 SQL 语句表示从考试成绩表 (exam_scores) 中,筛选出语文和数学都大于或等于 90 分的所有学生 id 和 name。学习 pandas 数据获取,推荐这种以数据处理的目标为导向的方式,而不是被动的按 pandas 提供的 loc, iloc的语法中,一条条顺序学习。
本篇我们要分析的关于销售数量和金额的一组数据,数据存放在 csv 文件中。示例数据我在 github 上放了一份,方便大家对照练习。
选择列
以下两种方法返回 Series 类型:
import pandas as pd df = pd.read_csv('sample-salesv3.csv') df.name # 或者 df['name']
如果需要返回 DataFrame 格式,使用 list 作为参数。为了方便说明,给出在 jupyter notebook 中显示的界面。
如果需要选取多列,传给 DataFrame 一个包含列名的 list:
选择行
假设我们要筛选 quantity < 0 的所有记录:
按多条件筛选的处理方式。假设想筛选 quantity < 0 并且 unit price > 50 的所有记录:
代码:
criteria = (df['quantity'] < 0) & (df['unit price'] > 50) df[criteria].head()
在 pandas 中,AND 条件的运算符为 & ,OR 条件的运算符为 |。假设想筛选所有 quantity > 30 或 unit price > 50 的记录:
代码:
criteria = (df['quantity'] > 30) | (df['unit price'] > 50) df[criteria].head()
基于字符串的记录筛选
如果筛选条件为基于字符串,可以使用用 Series.str.xxx 方法,主要有 startswith, endswith 和 contains等。举一个例子,筛选出所有 name 含有 White 的记录:
代码:
criteria = df['name'].str.contains('White') df[criteria].head()
这里解释一下 pandas 布尔索引 (boolean indexing) 的概念。布尔索引的意思是首先构建一个与 DataFrame 的 index 长度相同的一个 boolean 向量 (boolean vector),这个向量中只包含 True 或者 False,布尔索引是一个 Series。
然后 DataFrame 在筛选的时候,基于 DataFrame 的行索引,当布尔索引相同行索引所在行的 value 为 True 时,DataFrame 的这一行就包含在筛选之中,否则就排除在外。
为了能看得更加清晰,我们把上面的例子用另外一个方法来展示。创建一个新列:is_selected,这一列是一个布尔索引。
df['is_selected'] = df['name'].str.contains('White')
我们看到,is_selected 由 True 和 False 构成。
构建了 is_selected 列之后,通过df[df['name'].str.contains('White')] 筛选与下面的语句作用相同:
df[df['is_selected'] == True]
可以把 df['name'].str.contains('White') 这个布尔索引理解为构建了一个新列,然后基于这一列进行筛选。
基于 DateTime 类型的记录筛选
如果列的类型是 DateTime 类型,比如本示例的 date 列。pandas 读取 csv 文件时,date 列是 str 类型,所以我们先将 date 列转换成 datetime 类型,然后基于 pandas 的 Timestamp 类型构建筛选条件。
# 将 date 列转换成 datetime 类型 df['date'] = pd.to_datetime(df['date']) # 筛选条件为日期大于 2014/4/1 criteria = df['date'] > pd.Timestamp(2014,4,1) df[criteria].head()
同时选择行和列
如果基于本篇所说的模式,同时选择行和列,最简单的方法是组合,比如先基于行构建 DataFrame,然后再基于这个 DataFrame 选取需要的列:
where = df['name'].str.contains('White') cols = ['name', 'quantity', 'unit price', 'ext price'] df[where][cols].head()
参考
Comparison with SQL
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持码农之家。
pandas相关教程
-
对pandas中时间窗函数rolling的实例讲解
今天小编就为大家分享一篇对pandas中时间窗函数rolling的使用详解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
发布时间:2021-04-27
-
pandas进行数据的交集与并集方式的合并方法详解
今天小编就为大家分享一篇pandas进行数据的交集与并集方式的数据合并方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
发布时间:2019-07-29
-
pandas批量处理矢量化字符串实例分析
今天小编就为大家分享一篇使用pandas批量处理矢量化字符串的实例讲解,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
发布时间:2019-08-07
-
Python pandas模块输出每行中间省略号问题及解决方法
这篇文章主要介绍Python pandas模块输出每行中间省略号问题,本文给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下
发布时间:2019-08-11
-
pandas中MultiIndex和对象实际索引不一致解决方法
这篇文章主要介绍了详解pandas中MultiIndex和对象实际索引不一致问题,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习
发布时间:2019-11-18
-
python选取特定列 如何使用pandas的 iloc,loc,icol(列切片及行切片)
今天小编就为大家分享一篇python选取特定列 pandas iloc,loc,icol的使用详解(列切片及行切片),具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
发布时间:2020-01-09
-
pandas DataFrame 如何删除重复的行
这篇文章主要介绍了pandas DataFrame 删除重复的行的实现方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
发布时间:2020-01-20
-
Python数据分析基础:机器学习numpy和pandas基础
这是一个机器学习numpy和pandas基础,包含了matplotlib等模块库的基本使用,是机器学习快速入门利器。主要介绍了Python 机器学习库 NumPy入门教程,需要的朋友欢迎下载! numpy(Numerical Python extensions)是一个第三方的Python包,用于科学计算。这个库的前身是1995年就开始开发的一个用于数组运算的库。经过了长时间的发展,基本上成了绝大部分Python科学计算的基础包,当然也包括所有提供Python接口的深度学习框架。
大小:7.3 MBPython数据分析
-
pandas官方文档
pandas秘籍,中文说明,数据聚合、合并、分组、排序、画图等功能相当详尽,学习pandas的不二文档。
大小:2.8 MBpandas
-
Python数据科学速查表(Jupyter、Numpy、Pandas、Matplotlib、Seaborn、Keras)
首先必须对原作者表示感谢!!!因为这个实在太好用了!!!(以下内容如侵,请告知) 原图github链接,可以过去star一个 : https://github.com/jaystone776/python-data-science-cheatsheet 一、Jupyter Notebook(必会入门工具) 二、数据导入 三、Python基础 四、Numpy(计算库) 四、Pandas基础 五、Pandas进阶 六、Matplotlib 七、Seaborn 八、Keras
大小:6.25 MBPython数据科学