当前位置:首页 > Python技术文章 > Python Pandas分组聚合的实现方法

Python Pandas分组聚合的实例讲解

  • 发布时间:
  • 作者:码农之家原创
  • 点击:72

这篇文章主要知识点是关于Python、Pandas、分组聚合、的内容,如果大家想对相关知识点有系统深入的学习,可以参阅以下相关资源

Python全栈开发实践入门

它是一本Python全栈新手入门书,里边有许多安裝配备检测布署层面的內容。用户学知识时通常是只就某一点加强学习,没办法见到全景图,而这书把服务器搭建、运行环境、编码创作、程序流

查看详情

Python Pandas分组聚合的实现方法

Pycharm 鼠标移动到函数上,CTRL+Q可以快速查看文档,CTR+P可以看基本的参数。

apply(),applymap()和map()

apply()和applymap()是DataFrame的函数,map()是Series的函数。

apply()的操作对象是DataFrame的一行或者一列数据,applymap()是DataFrame的每一个元素。map()也是Series中的每一个元素。

apply()对dataframe的内容进行批量处理, 这样要比循环来得快。如df.apply(func,axis=0,.....) func:定义的函数,axis=0时为对列操作,=1时为对行操作。

map()和python内建的没啥区别,如df['one'].map(sqrt)。

import numpy as np

from pandas import Series, DataFrame

 

frame = DataFrame(np.random.randn(4, 3),

         columns = list('bde'),

         index = ['Utah', 'Ohio', 'Texas', 'Oregon'])

print frame

print np.abs(frame)

print

 

f = lambda x: x.max() - x.min()

print frame.apply(f)

print frame.apply(f, axis = 1)

def f(x):

  return Series([x.min(), x.max()], index = ['min', 'max'])

print frame.apply(f)

print

 

print 'applymap和map'

_format = lambda x: '%.2f' % x

print frame.applymap(_format)

print frame['e'].map(_format) 

Groupby

Groupby是Pandas中最为常用和有效的分组函数,有sum()、count()、mean()等统计函数。

groupby 方法返回的 DataFrameGroupBy 对象实际并不包含数据内容,它记录的是df['key1'] 的中间数据。当你对分组数据应用函数或其他聚合运算时,pandas 再依据 groupby 对象内记录的信息对 df 进行快速分块运算,并返回结果。

df = DataFrame({'key1': ['a', 'a', 'b', 'b', 'a'],

        'key2': ['one', 'two', 'one', 'two', 'one'],

        'data1': np.random.randn(5),

        'data2': np.random.randn(5)})

grouped = df.groupby(df['key1'])

print grouped.mean() 



df.groupby(lambda x:'even' if x%2==0 else 'odd').mean() #通过函数分组 

聚合agg()

对于分组的某一列(行)或者多个列(行,axis=0/1),应用agg(func)可以对分组后的数据应用func函数。例如:用grouped['data1'].agg('mean')也是对分组后的'data1'列求均值。当然也可以同时作用于多个列(行)和使用多个函数上。

df = DataFrame({'key1': ['a', 'a', 'b', 'b', 'a'],

        'key2': ['one', 'two', 'one', 'two', 'one'],

        'data1': np.random.randn(5),

        'data2': np.random.randn(5)})

grouped = df.groupby('key1')

print grouped.agg('mean')

 

     data1   data2

key1          

a   0.749117 0.220249

b  -0.567971 -0.126922 

apply()和agg()功能上差不多,apply()常用来处理不同分组的缺失数据的填充和top N的计算,会产生层级索引。

而agg可以同时传入多个函数,作用于不同的列。

df = DataFrame({'key1': ['a', 'a', 'b', 'b', 'a'],

        'key2': ['one', 'two', 'one', 'two', 'one'],

        'data1': np.random.randn(5),

        'data2': np.random.randn(5)})

grouped = df.groupby('key1')

print grouped.agg(['sum','mean'])
print grouped.apply(np.sum)  #apply的在这里同样适用,只是不能传入多个,这两个函数基本是可以通用的。 

         data1               data2         
           sum      mean       sum      mean
key1                                       
a     2.780273  0.926758 -1.561696 -0.520565
b    -0.308320 -0.154160 -1.382162 -0.691081


         data1     data2 key1       key2
key1                                   
a     2.780273 -1.561696  aaa  onetwoone
b    -0.308320 -1.382162   bb     onetwo

apply和agg功能上基本是相近的,但是多个函数的时候还是agg比较方便。

apply本身的自由度很高,如果分组之后不做聚合操作紧紧是一些观察的时候,apply就有用武之地了。

print grouped.apply(lambda x: x.describe())

 

        data1   data2

key1             

a  count 3.000000 3.000000

   mean -0.887893 -1.042878

   std  0.777515 1.551220

   min  -1.429440 -2.277311

   25%  -1.333350 -1.913495

   50%  -1.237260 -1.549679

   75%  -0.617119 -0.425661

   max  0.003021 0.698357

b  count 2.000000 2.000000

   mean -0.078983 0.106752

   std  0.723929 0.064191

   min  -0.590879 0.061362

   25%  -0.334931 0.084057

   50%  -0.078983 0.106752

   75%  0.176964 0.129447

   max  0.432912 0.152142 

此外apply还能改变返回数据的维度。

http://pandas.pydata.org/pandas-docs/stable/groupby.html

此外还有透视表pivot_table ,交叉表crosstab ,但是我没用过。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持码农之家。

以上就是本次给大家分享的关于Python的全部知识点内容总结,大家还可以在下方相关文章里找到python求最大值最小值的实、 Python工具整理推荐、 Python调用C# Com dll组件的方、 等python文章进一步学习,感谢大家的阅读和支持。

上一篇:Flask框架中表单基础介绍与提交方式详解

下一篇:PyQt5帮助文档查找每个类的方法

展开 +

收起 -

Python Pandas分组聚合 相关内容
Python pandas模块输出每行中间省略号问题及解决方法

这篇文章主要介绍Python pandas模块输出每行中间省略号问题,本文给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下

查看详情
Python3.5 Pandas模块中Series用法详解

这篇文章主要介绍了Python3.5 Pandas模块之Series用法,结合实例形式分析了Python3.5中Pandas模块的Series结构原理、创建、获取、运算等相关操作技巧与注意事项,需要的朋友可以参考下

查看详情
Python编程无师自通

Python编程无师自通 专业程序员的养成 零基础自学Python3入门教程 Python基础教程

查看详情
笨办法学python3 查看详情
自学Python编程基础学习笔记

这是一本面向Python初学者的实用学习笔记,适合刚接触Python的初学者以及希望使用Python处理和分析数据的读者阅读,也可最为工具参考资料

查看详情
自然语言处理Python进阶

第1章教你应用内嵌的NLTK语料库和頻率遍布。人们还将学什么是WordNet,并探寻其特性和使用方法。 第2章演试怎样从各种各样文件格式的数据库中获取文字。人们还将学习培训怎样从互联网源获

查看详情
Python网络爬虫实战

本书从Python的安装开始,详细讲解了Python从简单程序延伸到Python网络爬虫的全过程。本书从实战出发,根据不同的需求选取不同的爬虫,有针对性地讲解了几种Python网络爬虫。本书共8章,涵盖

查看详情
教孩子学编程:Python语言版

这是一本教孩子使用Python进行基础程序设计和解决问题的入门图书,针对变量、循环、函数等编程基础概念的介绍,可以帮助年轻的程序员构建所需的技能,适合任何想要通过Python学习编程的读

查看详情
Python数据科学入门

这本书讲述了Python语言的数据科学基础知识,涵盖数据采集、清洗、存储、检索、转换、可视化、高级数据分析等方面,欢迎下载

查看详情
Python Pandas分组聚合 学习笔记
网友NO.834994

Python pandas.DataFrame调整列顺序及修改index名的方法

1. 从字典创建DataFrame import pandas dict_a = {'user_id':['webbang','webbang','webbang'],'book_id':['3713327','4074636','26873486'],'rating':['4','4','4'],'mark_date':['2017-03-07','2017-03-07','2017-03-07']} df = pandas.DataFrame(dict_a) # 从字典创建DataFrame df # 创建好的df列名默认按首字母顺序排序,和字典中的先后顺序并不一样,字典中是'user_id','book_id','rating','mark_date' book_id mark_date rating user_id0 3713327 2017-03-07 4 webbang1 4074636 2017-03-07 4 webbang2 26873486 2017-03-07 4 webbang 2. 调整列顺序 df = df[['user_id','book_id','rating','mark_date']] # 调整列顺序为'user_id','book_id','rating','mark_date' df user_id book_id rating mark_date0 webbang 3713327 4 2017-03-071 webbang 4074636 4 2017-03-072 webbang 26873486 4 2017-03-07 3. 调整index为从1开始 df.index = range(1,len(df) + 1) # 将index改成从1开始 df user_id book_id rating mark_date1 webbang 3713327 4 2017-03-072 webbang 4074636 4 2017-03-073 webbang 2……

网友NO.378335

使用python的pandas库读取csv文件保存至mysql数据库

第一:pandas.read_csv读取本地csv文件为数据框形式 data=pd.read_csv('G:\data_operation\python_book\chapter5\\sales.csv') 第二:如果存在日期格式数据,利用pandas.to_datatime()改变类型 data.iloc[:,1]=pd.to_datetime(data.iloc[:,1]) 注意:=号,这样在原始的数据框中,改变了列的类型 第三:查看列类型 print(data.dtypes) 第四:方法一:保存至MYSQL【缺点耗时长】 利用MYSQLdb库,封装成一个类,实现创建表,添加数据的操作,缺点耗时长 class Jess_mysql(): """ 设置mysql类,实现创建数据框,表,及添加数据 """ def __init__(self): self.mysql=MySQLdb.connect(user=mysql_name,host=mysql_host,password=mysql_password,database=mysql_database) self.conn=self.mysql.cursor() def create_table(self,table_names,col_names): """ 创建表 :param table_names: 表名 :param col_names: 列名,列表格式 :return: """ tables=' varchar(20),'.join(['%s'] *len(col_names)) sql_yuju='create table if no……

网友NO.266786

Python基于pandas实现json格式转换成dataframe的方法

本文实例讲述了Python基于pandas实现json格式转换成dataframe的方法。分享给大家供大家参考,具体如下: # -*- coding:utf-8 -*-#!python3import reimport jsonfrom bs4 import BeautifulSoupimport pandas as pdimport requestsimport osfrom pandas.io.json import json_normalizeclass image_structs(): def __init__(self): self.picture_url = { "image_id": '', "picture_url": '' }class data_structs(): def __init__(self): # columns=['title', 'item_url', 'id','picture_url','std_desc','description','information','fitment']) self.info={ "title":'', "item_url":'', "id":0, "picture_url":[], "std_desc":'', "description":'', "information":'', "fitment":'' }# "https://waldoch.com/store/catalogsearch/result/index/?cat=0p=1limit=200q=nerf+bar" web = requests.get(url) soup = BeautifulSoup(web.text,"html.parser") alink = soup.find_all("a",class_="product-image") for a in alink: title = a["title"] item_url = a["href"] result.append([title,item_url]) df = pd.DataFrame(result,columns=["t……

网友NO.375020

python3 pandas 读取MySQL数据和插入

下面为大家分享一篇python3 pandas 读取MySQL数据和插入的实例,具有很好的参考价值,希望对大家有所帮助。一起过来看看吧 python 代码如下: # -*- coding:utf-8 -*-import pandas as pdimport pymysqlimport sysfrom sqlalchemy import create_enginedef read_mysql_and_insert(): try: conn = pymysql.connect(host='localhost',user='user1',password='123456',db='test',charset='utf8') except pymysql.err.OperationalError as e: print('Error is '+str(e)) sys.exit() try: engine = create_engine('mysql+pymysql://user1:123456@localhost:3306/test') except sqlalchemy.exc.OperationalError as e: print('Error is '+str(e)) sys.exit() except sqlalchemy.exc.InternalError as e: print('Error is '+str(e)) sys.exit() try: sql = 'select * from sum_case' df = pd.read_sql(sql, con=conn) except pymysql.err.ProgrammingError as e: print('Error is '+str(e)) sys.exit() print(df.head()) df.to_sql(name='sum_case_1',con=engine,if_exists='append',index=False) conn.close() print('ok') if _……

网友NO.614395

Python 数据处理库 pandas 入门

pandas是一个Python语言的软件包,在我们使用Python语言进行机器学习编程的时候,这是一个非常常用的基础编程库。本文是对Python 数据处理库 pandas 入门教程,非常不错,感兴趣的朋友一起看看吧 pandas是一个Python语言的软件包,在我们使用Python语言进行机器学习编程的时候,这是一个非常常用的基础编程库。本文是对它的一个入门教程。 pandas提供了快速,灵活和富有表现力的数据结构,目的是使“关系”或“标记”数据的工作既简单又直观。它旨在成为在Python中进行实际数据分析的高级构建块。 入门介绍 pandas适合于许多不同类型的数据,包括: 具有异构类型列的表格数据,例如SQL表格或Excel数据 有序和无序(不一定是固定频率)时间序列数据。 具有行列标签的任意矩阵数据(均匀类型或不同类型) 任何其他形式的观测/统计数据集。 由于这是一个P……

<
1
>

Copyright 2018-2020 xz577.com 码农之家

本站所有电子书资源不再提供下载地址,只分享来路

免责声明:网站所有作品均由会员网上搜集共同更新,仅供读者预览及学习交流使用,下载后请24小时内删除

版权投诉 / 书籍推广 / 赞助:QQ:520161757