当前位置:主页 > python教程 > python去重及数据合并用法

python的去重以及数据合并的用法说明

发布:2023-04-17 16:55:01 59


本站收集了一篇相关的编程文章,网友伊安宁根据主题投稿了本篇教程内容,涉及到python的去重、python数据合并、python合并、python去重及数据合并用法相关内容,已被334网友关注,相关难点技巧可以阅读下方的电子资料。

python去重及数据合并用法

python去重及数据合并

drop_dupicates

参数含义:

  • subset:即表示要去重指定参考的列
  • keep : {‘first’, ‘last’, False}, default ‘first’

inplace:boolean, default False, 直接在原来的数据上修改还是保留副本

data = pd.DataFrame({'id':[1,1,2],'value':[12,14,27]})

#第一个参数传入需要比对的列,在"id"列有相同的id,则进行去重
data.drop_duplicates(['id'],keep='last',inplace=True)

#我想比较"id"、"value"两列的值全部相同时则去重
data.drop_duplicates(['id','value'],keep='last',inplace=True)

#如果想直接比较数据中的全部列都相同时才能去除,则可以按照如下方法.keep默认的是保留第一个
data.drop_duplicates()

merge

首先关于连接,从SQL中的可以得知,连接主要分为外连接和内连接:

内连接

内连接是指在两个数据表中,根据其指定合并的列,找到其交集,也就是既在df1中出现,也在df2中出现的数据

df1=pd.DataFrame({'key':['b','b','a','c','a','a','b'],
                  'data':range(7)})
df2=pd.DataFrame({'key':['a','b','d'],
                  'data2':range(3)})
df = pd.merge(df1,df2,on='key',how='inner') #不写how也没关系,因为merge默认的就是内连接 

假设如果在df1和df2中的指定要合并的列的列名不一致的话,则需要显式指定根据哪一列进行合并

df3=pd.DataFrame({'key1':['b','b','a','c','a','a','b'],
                  'data':range(7)})
df4=pd.DataFrame({'key2':['a','b','d'],
                  'data2':range(3)})
df = pd.merge(df3,df4,left_on='key1',right_on='key2')
# 该结果比上面的on='key'的结果多一列相同的列,但是两个的本质是一样的,都是内连接

外连接

外连接可以分为三种,全外连接、左连接和右连接。

全外连接就是保留两个表中指定合并的列关键字的并集,然后在左右两个表中找到相对应的数据进行填充,没有的用NAN代替

df1=pd.DataFrame({'key':['b','b','a','c','a','a','b'],
                  'data':range(7)})
df2=pd.DataFrame({'key':['a','b','d'],
                  'data2':range(3)})

df = pd.merge(df1,df2,on='key',how='outer')

右连接是保留右表中指定列的所有关键字,然后去左表中找到指定列对应的数据进行补充,没有的就NAN代替

df = pd.merge(df1,df2,on='key',how='right')

左连接是保留左表中指定列的所有关键字,然后去右表中找到指定列对应的数据进行补充,没有的就NAN代替

df = pd.merge(df1,df2,on='key',how='left')

python去重脚本

可以用来去除字典、漏洞数量等

使用方法,将要去重的部分保存成为csv格式,并命名为all.csv,直接执行后,会在当前目录下生成qc.csv的文件!

#coding:utf-8

ciku=open(r'all.csv','r')   #打开需要去重文件
xieci=open(r'qc.csv','w')   #打开处理后存放的文件
cikus=ciku.readlines() 
list2 = {}.fromkeys(cikus).keys()     #列表去重方法,将列表数据当作字典的键写入字典,依据字典键不可重复的特性去重
i=1
for line in list2:
    if line[0]!=',':
        # print line[0:-1].decode('utf-8').encode('gbk')
        # print  u"writing"+i
        i+=1
        xieci.writelines(line)
xieci.close()

总结

以上为个人经验,希望能给大家一个参考,也希望大家多多支持码农之家。


参考资料

相关文章

  • Python实现合并多张图片成视频的示例详解

    发布:2023-04-22

    随着短视频的兴起,越来越多的人开始用各种形式进行视频制作,本篇博客从程序员的角度为大家解析一下如何通过 Python 合并多个图片为一个视频,需要的可以参考一下


  • Python实现自动合并Word并添加分页符

    发布:2023-03-28

    这篇文章主要为大家详细介绍了如何基于Python实现对多个Word文档加以自动合并,并在每次合并时按要求增添一个分页符的功能,感兴趣的可以了解一下


  • Python合并多个装饰器的方法

    发布:2020-01-17

    这篇文章主要介绍了Python合并多个装饰器小技巧,本文用改写调用函数的方式实现把多个装饰器合并成一行、一个函数来调用,需要的朋友可以参考下


网友讨论