当前位置:首页 > Python技术文章 > Python用list或dict字段模式读文件的实例

如何用Python的list或dict字段模式读取文件

  • 发布时间:
  • 作者:码农之家原创
  • 点击:163

这篇文章主要知识点是关于Python、list、dict、读取文件、python读取文件名称生成list的方法 的内容,如果大家想对相关知识点有系统深入的学习,可以参阅以下相关资源

Python贝叶斯分析

这书详细介绍了贝叶斯统计中的关键定义,及其将其运用于数据分析的方式 。这书选用编写程序测算的好用方式介绍了贝叶斯模型的基本,应用一些手工制作结构的统计数据和一部分简易的真

查看详情

Python用list或dict字段模式读文件的实例

前言

Python用于处理文本数据绝对是个利器,极为简单的读取、分割、过滤、转换支持,使得开发者不需要考虑繁杂的流文件处理过程(相对于JAVA来说的,嘻嘻)。博主自己工作中,一些复杂的文本数据处理计算,包括在HADOOP上编写Streaming程序,均是用Python完成。

而在文本处理的过程中,将文件加载内存中是第一步,这就涉及到怎样将文件中的某一列映射到具体的变量的过程,最最愚笨的方法,就是按照字段的下标进行引用,比如这样子:

# fields是读取了一行,并且按照分隔符分割之后的列表
user_id = fields[0]
user_name = fields[1]
user_type = fields[2]

如果按照这种方式读取,一旦文件有顺序、增减列的变动,代码的维护是个噩梦,这种代码一定要杜绝。

本文推荐两种优雅的方式来读取数据,都是先配置字段模式,然后按照模式读取,而模式则有字典模式和列表模式两种形式;

读取文件,按照分隔符分割成字段数据列表

首先读取文件,按照分隔符分割每一行的数据,返回字段列表,以便后续处理。

代码如下:

def read_file_data(filepath):
 '''根据路径按行读取文件, 参数filepath:文件的绝对路径
 @param filepath: 读取文件的路径
 @return: 按\t分割后的每行的数据列表
 '''
 fin = open(filepath, 'r')
 for line in fin:
  try:
   line = line[:-1]
   if not line: continue
  except:
   continue
  
  try:
   fields = line.split("\t")
  except:
   continue
  # 抛出当前行的分割列表
  yield fields
 fin.close()

使用yield关键字,每次抛出单个行的分割数据,这样在调度程序中可以用for fields in read_file_data(fpath)的方式读取每一行。

映射到模型之方法1:使用配置好的字典模式,装配读取的数据列表

这种方法配置一个{“字段名”: 字段位置}的字典作为数据模式,然后按照该模式装配读取的列表数据,最后实现用字典的方式访问数据。

所使用的函数:

@staticmethod
def map_fields_dict_schema(fields, dict_schema):
 """根据字段的模式,返回模式和数据值的对应值;例如 fields为['a','b','c'],schema为{'name':0, 'age':1},那么就返回{'name':'a','age':'b'}
 @param fields: 包含有数据的数组,一般是通过对一个Line String通过按照\t分割得到
 @param dict_schema: 一个词典,key是字段名称,value是字段的位置;
 @return: 词典,key是字段名称,value是字段值
 """
 pdict = {}
 for fstr, findex in dict_schema.iteritems():
  pdict[fstr] = str(fields[int(findex)])
 return pdict

有了该方法和之前的方法,可以用以下的方式读取数据:

# coding:utf8
"""
@author: www.crazyant.net
测试使用字典模式加载数据列表
优点:对于多列文件,只通过配置需要读取的字段,就能读取对应列的数据
缺点:如果字段较多,每个字段的位置配置,较为麻烦
"""
import file_util
import pprint
 
# 配置好的要读取的字典模式,可以只配置自己关心的列的位置
dict_schema = {"userid":0, "username":1, "usertype":2}
for fields in file_util.FileUtil.read_file_data("userfile.txt"):
 # 将字段列表,按照字典模式进行映射
 dict_fields = file_util.FileUtil.map_fields_dict_schema(fields, dict_schema)
 pprint.pprint(dict_fields)

输出结果:

{'userid': '1', 'username': 'name1', 'usertype': '0'}
{'userid': '2', 'username': 'name2', 'usertype': '1'}
{'userid': '3', 'username': 'name3', 'usertype': '2'}
{'userid': '4', 'username': 'name4', 'usertype': '3'}
{'userid': '5', 'username': 'name5', 'usertype': '4'}
{'userid': '6', 'username': 'name6', 'usertype': '5'}
{'userid': '7', 'username': 'name7', 'usertype': '6'}
{'userid': '8', 'username': 'name8', 'usertype': '7'}
{'userid': '9', 'username': 'name9', 'usertype': '8'}
{'userid': '10', 'username': 'name10', 'usertype': '9'}
{'userid': '11', 'username': 'name11', 'usertype': '10'}
{'userid': '12', 'username': 'name12', 'usertype': '11'}

映射到模型之方法2:使用配置好的列表模式,装配读取的数据列表

如果需要读取文件所有列,或者前面的一些列,那么配置字典模式优点复杂,因为需要给每个字段配置索引位置,并且这些位置是从0开始完后数的,属于低级劳动,需要消灭。

列表模式应命运而生,先将配置好的列表模式转换成字典模式,然后按字典加载就可以实现。

转换模式,以及用按列表模式读取的代码:

@staticmethod
def transform_list_to_dict(para_list):
 """把['a', 'b']转换成{'a':0, 'b':1}的形式
 @param para_list: 列表,里面是每个列对应的字段名
 @return: 字典,里面是字段名和位置的映射
 """
 res_dict = {}
 idx = 0
 while idx < len(para_list):
  res_dict[str(para_list[idx]).strip()] = idx
  idx += 1
 return res_dict
 
@staticmethod
def map_fields_list_schema(fields, list_schema):
 """根据字段的模式,返回模式和数据值的对应值;例如 fields为['a','b','c'],schema为{'name', 'age'},那么就返回{'name':'a','age':'b'}
 @param fields: 包含有数据的数组,一般是通过对一个Line String通过按照\t分割得到
 @param list_schema: 列名称的列表list
 @return: 词典,key是字段名称,value是字段值
 """
 dict_schema = FileUtil.transform_list_to_dict(list_schema)
 return FileUtil.map_fields_dict_schema(fields, dict_schema)

使用的时候,可以用列表的形式配置模式,不需要配置索引更加简洁:

# coding:utf8
"""
@author: www.crazyant.net
测试使用列表模式加载数据列表
优点:如果读取所有列,用列表模式只需要按顺序写出各个列的字段名就可以
缺点:不能够只读取关心的字段,需要全部读取
"""
import file_util
import pprint
 
# 配置好的要读取的列表模式,只能配置前面的列,或者所有咧
list_schema = ["userid", "username", "usertype"]
for fields in file_util.FileUtil.read_file_data("userfile.txt"):
 # 将字段列表,按照字典模式进行映射
 dict_fields = file_util.FileUtil.map_fields_list_schema(fields, list_schema)
 pprint.pprint(dict_fields) 

运行结果和字典模式的完全一样。

file_util.py全部代码

以下是file_util.py中的全部代码,可以放在自己的公用类库中使用

# -*- encoding:utf8 -*-
'''
@author: www.crazyant.net
@version: 2014-12-5
'''
 
class FileUtil(object):
 '''文件、路径常用操作方法
 '''
 @staticmethod
 def read_file_data(filepath):
  '''根据路径按行读取文件, 参数filepath:文件的绝对路径
  @param filepath: 读取文件的路径
  @return: 按\t分割后的每行的数据列表
  '''
  fin = open(filepath, 'r')
  for line in fin:
   try:
    line = line[:-1]
    if not line: continue
   except:
    continue
   
   try:
    fields = line.split("\t")
   except:
    continue
   # 抛出当前行的分割列表
   yield fields
  fin.close()
 
 @staticmethod
 def transform_list_to_dict(para_list):
  """把['a', 'b']转换成{'a':0, 'b':1}的形式
  @param para_list: 列表,里面是每个列对应的字段名
  @return: 字典,里面是字段名和位置的映射
  """
  res_dict = {}
  idx = 0
  while idx < len(para_list):
   res_dict[str(para_list[idx]).strip()] = idx
   idx += 1
  return res_dict
 
 @staticmethod
 def map_fields_list_schema(fields, list_schema):
  """根据字段的模式,返回模式和数据值的对应值;例如 fields为['a','b','c'],schema为{'name', 'age'},那么就返回{'name':'a','age':'b'}
  @param fields: 包含有数据的数组,一般是通过对一个Line String通过按照\t分割得到
  @param list_schema: 列名称的列表list
  @return: 词典,key是字段名称,value是字段值
  """
  dict_schema = FileUtil.transform_list_to_dict(list_schema)
  return FileUtil.map_fields_dict_schema(fields, dict_schema)
 
@staticmethod
def map_fields_dict_schema(fields, dict_schema):
 """根据字段的模式,返回模式和数据值的对应值;例如 fields为['a','b','c'],schema为{'name':0, 'age':1},那么就返回{'name':'a','age':'b'}
 @param fields: 包含有数据的数组,一般是通过对一个Line String通过按照\t分割得到
 @param dict_schema: 一个词典,key是字段名称,value是字段的位置;
 @return: 词典,key是字段名称,value是字段值
 """
 pdict = {}
 for fstr, findex in dict_schema.iteritems():
  pdict[fstr] = str(fields[int(findex)])
 return pdict

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家学习或者使用python能有一定的帮助,如果有疑问大家可以留言交流。

python读取文件名称生成list的方法

下面为大家分享一篇python读取文件名称生成list的方法,具有很好的参考价值,希望对大家有所帮助。一起过来看看吧

经常需要读取某个文件夹下所有的图像文件。

我使用python写了个简单的代码,读取某个文件夹下某个后缀的文件,将文件名生成为文本(csv格式)

import fnmatch
import os
import pandas as pd
import numpy as np 
import sys
InputStra = sys.argv[1]
InputStrb = sys.argv[2]
def ReadSaveAddr(Stra,Strb):
 #print(Stra)
 #print(Strb)
 print("Read :",Stra,Strb)
 a_list = fnmatch.filter(os.listdir(Stra),Strb)
 print("Find = ",len(a_list))
 df = pd.DataFrame(np.arange(len(a_list)).reshape((len(a_list),1)),columns=['Addr']) 
 df.Addr = a_list
 #print(df.head())
 df.to_csv('Get.lst',columns=['Addr'],index=False,header=False)
 print("Write To Get.lst !")
ReadSaveAddr(InputStra,InputStrb)

上面代码保存为:GetLst.py

使用时:

在cmd窗口输入:

python GetLst.py F:/train/pos *.png

发现上面代码不能深入到下一层目录,又做了点修改:

def ReadSaveAddr2(Stra,Strb):
 df = pd.DataFrame(np.arange(0).reshape(0,1),columns=['Addr']) 
 print(df)
 path = InputStra
 for dirpath,dirnames,filenames in os.walk(path):
  #for filename in filenames:
  a_list = fnmatch.filter(os.listdir(dirpath),Strb)
  if len(a_list):
   dft = pd.DataFrame(np.arange(len(a_list)).reshape((len(a_list),1)),columns=['Addr']) 
   dft.Addr = a_list
   dft.Addr = dirpath + '\\' + dft.Addr#输出绝对路径
   frames = [df,dft]
   df = pd.concat(frames)
   print(df.shape)
 df.to_csv('Get.lst',columns='Addr'],index=False,header=False)
 print("Write To Get.lst !")

相关推荐:

Python 读取指定文件夹下的所有图像方法

以上就是python读取文件名称生成list的方法的详细内容,更多请关注码农之家其它相关文章!

以上就是本次给大家分享的关于Python的全部知识点内容总结,大家还可以在下方相关文章里找到python求最大值最小值的实、 Python工具整理推荐、 Python调用C# Com dll组件的方、 等python文章进一步学习,感谢大家的阅读和支持。

上一篇:Python利用字典的默认行为技巧总结

下一篇:Python调用C# Com dll组件的方法详解

展开 +

收起 -

Python读取文件 相关内容
python里dict变成list的实例方法

​python里dict(字典)变成list(列表)的方法:1.key_value = list(a.keys());2.value_list = list(a.values())。注意:列表不可以转换为字典。

查看详情
python list输出最后10个元素

在本篇文章中小编给各位分享的是关于python list输出最后10个元素的实例代码,有需要的朋友们跟着学习下。

查看详情
Python快速查找list中相同部分的实例代码

今天小编就为大家分享一篇Python快速查找list中相同部分的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧

查看详情
python list的用法实例讲解

Python list中常用的方法有创建列表,添加新元素,查看列表中的值,删除list中的元素,排序和反转以及list切片等方法

查看详情
父与子的编程之旅:与小卡特一起学Python

本书是一本家长与孩子共同学习编程的入门书,以Python语言为例,详尽细致地介绍了Python如何安装、字符串和操作符等程序设计的基本概念,介绍了条件语句、函数、模块等进阶内容,讲解了用

查看详情
Python生物信息学数据管理(含源码)

生物科学学校的Python课程内容教材内容,合适大学本科课堂教学或制造行业人员的Python短期培训班。这书案例借以处理分子生物学难题,根据程序编写手法的方式,包含尽量多的机构、剖析、

查看详情
Python Django Web典型模块开发实战

腾讯云服务社区/阿里巴巴云栖社区栏目创作者Django全栈开发心得分享 详细说明DjangoWeb开发设计中11个常见典型性控制模块的开发设计全过程 协助你变成一位Django全栈开发的高手级程序猿 项目

查看详情
Python3程序开发指南

本书全面深入地讲解了Python语言,讲述了构成Python语言的8个关键要素,包含数据类型、控制结构与函数、模块、正则表达式、GUI程序设计等各个方面

查看详情
Python3.7从零开始学

本书专门针对Python新手量身定做,是编者学习和使用Python开发过程中的体会和经验总结,涵盖实际开发中重要的知识点,内容详尽,代码可读性及可操作性强。

查看详情
基于Python的大数据分析基础及实战

配套设施教程视频教你如何学Python 提炼出避坑技能招式简要、高效率懂Python 实战演练经典案例轻轻松松、迅速玩Python 解读实践活动实例视頻源码源统计数据 对于Python初学者量身订做,新手入

查看详情
Python接口自动化测试

正确引导测试工程师攻破Python新手入门难题 出示可落地式的HTTP协议书插口自动化技术脚本制作、切切实实的可软件环境 有着《Python接口自动化测试》,就有着全套的源代码,依照这书的自然

查看详情
Python读取文件 学习笔记
网友NO.722389

如何将python中的List转化成dictionary

问题1:如何将一个list转化成一个dictionary? 问题描述: 比如在python中我有一个如下的list,其中奇数位置对应字典的 key ,偶数位置为相应的 value 解决方案: 1.利用zip函数实现 2.利用循环来实现 3.利用 enumerate 函数生成 index 来实现 问题2 我们如何将两个list 转化成一个dictionary? 问题描述: 假设你有两个 list 解决方案: 还是常见的 zip 函数 这里我们看到了 zip 函数确实在配对上面起到了很不错的效果,如果两个list都很大,你需要引入 itertools.izip 来解决问题 或者下面的直接使用 dict 函数 那么如果我们有三个lsit呢? 比如我们有时候会遇到这样的问题比如在一个经纬度下面记录某个数据,这个时候又该怎么实现呢? 我们可以看到这个时候 zip 函数还是可以帮助我们成功的实现所需要的功能,首先将经纬度一一配对整合到一起,随后再将val连起来,最后使……

网友NO.989203

python: 判断tuple、list、dict是否为空的方法

Test tuple_test = ()assert not tuple_testlist_test = []assert not list_testdict_test = {}assert not dict_test Summary 根据实验结果可知,直接通过: if not xxx: 即可判断 tuple、list、dict 是否 为空 。 以上这篇python: 判断tuple、list、dict是否为空的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持码农之家。 ……

网友NO.425890

Python 按字典dict的键排序,并取出相应的键值放于list中的实例

方法一: def dict_to_numpy_method1(dict): dict_sorted=sorted(dict.iteritems(), key=lambda d:d[0]) results=[value for key,value in dict_sorted] 方法二: def dict_to_numpy_method2(dict): keys=dict.keys() keys.sort() results=[dic[key] for key in keys] 方法三: def dict_to_numpy_method3(dict): keys=dict.keys() keys.sort() results=map(dict.get,keys) 以上这篇Python 按字典dict的键排序,并取出相应的键值放于list中的实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持码农之家。 ……

网友NO.176183

python遍历 truple list dictionary的几种方法总结

实例如下: def TestDic1(): dict2 ={'aa':222,11:222} for val in dict2: print valdef TestDic2(): dict2 ={'aa':222,11:222} for (key,val) in dict2.items(): print key,":",val def TestList1(): list=[1,2,3,4,5,3,2,'ada','fs3'] for i in range(len(list)): print list[i]def TestDic3(): dict2 ={'aa':222,11:222} print "###########iteritems#################" for k,v in dict2.iteritems(): print "dict[%s]=" % k,vdef TestDic4(): dict2 ={'aa':222,11:222} print "###########iterkeys,itervalues#######" for k,v in zip(dict2.iterkeys(),dict2.itervalues()): print "dict[%s]=" % k,v def TestList2(): list=[1,2,3,4,5,3,2,'ada','fs3'] for i in list: print i 以上这篇python遍历 truple list dictionary的几种方法总结就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持码农之家。 ……

网友NO.408281

对Python3中dict.keys()转换成list类型的方法详解

在python3中使用dict.keys()返回的不在是list类型了,也不支持索引,我们可以看一下下面这张图片 那么我们应该怎么办呢,其实解决的方法也是非常简单的,只需要使用list()就可以了,可以看下面的代码 list(dict.keys()) 我们可以看一下下面这张图片,现在就支持索引了 以上这篇Python3中dict.keys()转换成list类型就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持码农之家。 ……

<
1
>

Copyright 2018-2020 xz577.com 码农之家

本站所有电子书资源不再提供下载地址,只分享来路

免责声明:网站所有作品均由会员网上搜集共同更新,仅供读者预览及学习交流使用,下载后请24小时内删除

版权投诉 / 书籍推广 / 赞助:QQ:520161757