标签分类
当前位置:首页 > 数据库电子书 > 大数据电子书网盘下载
大数据挖掘:系统方法与实例分析 大数据挖掘:系统方法与实例分析
码小辫

码小辫 提供上传

资源
45
粉丝
26
喜欢
79
评论
16

    大数据挖掘:系统方法与实例分析 PDF 高清版

    大数据电子书
    • 发布时间:

    给大家带来的一篇关于大数据相关的电子书资源,介绍了关于大数据、数据挖掘、系统方法方面的内容,本书是由机械工业出版社出版,格式为PDF,资源大小57 MB,周英编写,目前豆瓣、亚马逊、当当、京东等电子书综合评分为:7.1,更多相关的学习资源可以参阅 数据库电子书、等栏目。

  • 大数据挖掘:系统方法与实例分析 PDF 下载
  • 下载地址:https://pan.baidu.com/s/1yJSg-uWbc-dyxlfP9p4kiQ
  • 分享码:cg28
  • 大数据挖掘:系统方法与实例分析

    大数据挖掘:系统方法与实例分析是大数据挖掘行业的扛鼎之作,由全世界科学计算行业的管理者MathWorks(MATLAB企业)官方网的杰出大数据挖掘权威专家编写,MathWorks官方网及多名权威专家联手强烈推荐。
    它从技术性、方法、实例和*佳实践活动4个层面对怎样系统、深层次把握大数据挖掘出示了详细的解读。

    技术性:不但解读了大数据挖掘的基本原理、全过程、专用工具,还解读了互联网大数据的提前准备、解决、与探寻;

    方法:既深层次地解读了关联规则方法、重归方法、归类方法、聚类分析法方法、分折方法、确诊方法等6类别大数据挖掘行为主体方法,又重中之重解读了时间序列方法和智能化提升方法二种大数据挖掘中常见的方法;
    实例:详尽地重现了来源于金融机构、证劵、机械设备、矿业、生物科学和人文科学等6大行业的成功案例,不但有实例的保持全过程,并且也有实例基本原理和预备期专业知识的的解读;

    最先小结了大数据挖掘中明确发掘、运用技术性及其怎样均衡的造型艺术,随后小结了大数据挖掘的项目风险管理和团队协作的造型艺术。

    目录

    • 第一篇基础篇
    • 第1章绪论
    • 1.1 大数据与数据挖掘
    • 1.1.1 何为大数据
    • 1.1.2 大数据的价值
    • 1.1.3 大数据与数据挖掘的关系
    • 1.2 数据挖掘的概念和原理
    • 1.2.1 什么是数据挖掘
    • 1.2.2 数据挖掘的原理
    • 1.3 数据挖掘的内容
    • 1.3.1 关联
    • 1.3.2 回归
    • 1.3.3 分类
    • 1.3.4 聚类
    • 1.3.5 预测
    • 1.3.6 诊断
    • 1.4 数据挖掘的应用领域
    • 1.4.1 零售业
    • 1.4.2 银行业
    • 1.4.3 证券业
    • 1.4.4 能源业
    • 1.4.5 医疗行业
    • 1.4.6 通信行业
    • 1.4.7 汽车行业
    • 1.4.8 公共事业
    • 1.5 大数据挖掘的要点
    • 1.6 小结
    • 参考文献
    • 第2章数据挖掘的过程及工具
    • 2.1 数据挖掘过程概述
    • 2.2 挖掘目标的定义
    • 2.3 数据的准备
    • 2.4 数据的探索
    • 2.5 模型的建立
    • 2.6 模型的评估
    • 2.7 模型的部署
    • 2.8 工具的比较与选择
    • 2.9 小结
    • 参考文献
    • 第3章 MATLAB数据挖掘快速入门
    • 3.1 MATLAB快速入门
    • 3.1.1 MATLAB概要
    • 3.1.2 MATLAB的功能
    • 3.1.3 快速入门案例
    • 3.1.4 入门后的提高
    • 3.2 MATLAB常用技巧
    • 3.2.1 常用标点的功能
    • 3.2.2 常用操作指令
    • 3.2.3 指令编辑操作键
    • 3.2.4 MATLAB数据类型
    • 3.3 MATLAB开发模式
    • 3.3.1 命令行模式
    • 3.3.2 脚本模式
    • 3.3.3 面向对象模式
    • 3.3.4 三种模式的配合
    • 3.4 MATLAB数据挖掘引例
    • 3.5 MATLAB集成数据挖掘工具
    • 3.5.1 分类学习机简介
    • 3.5.2 交互探索算法的方式
    • 3.5.3 MATLAB分类学习机应用实例
    • 3.6 小结
    • 第二篇技术篇
    • 第4章数据的准备
    • 4.1 数据的收集
    • 4.1.1 认识数据
    • 4.1.2 数据挖掘的数据源
    • 4.1.3 数据抽样
    • 4.1.4 金融行业的数据源
    • 4.1.5 从雅虎获取交易数据
    • 4.1.6 从大智慧获取财务数据
    • 4.1.7 从Wind获取高质量数据
    • 4.2 数据质量分析
    • 4.2.1 数据质量分析的必要性
    • 4.2.2 数据质量分析的目地
    • 4.2.3 数据质量分析的内容
    • 4.2.4 数据质量分析方法
    • 4.2.5 数据质量分析的结果及应用
    • 4.3 数据预处理
    • 4.3.1 为什么需要数据预处理
    • 4.3.2 数据预处理的方法
    • 4.3.3 数据清洗
    • 4.3.4 数据集成
    • 4.3.5 数据归约
    • 4.3.6 数据变换
    • 4.4 小结
    • 参考文献
    • 第5章数据的探索
    • 5.1 衍生变量
    • 5.1.1 衍生变量的定义
    • 5.1.2 变量衍生的原则和方法
    • 5.1.3 常用的股票衍生变量
    • 5.1.4 评价型衍生变量
    • 5.1.5 衍生变量数据收集与集成
    • 5.2 数据的统计
    • 5.2.1 基本描述性统计
    • 5.2.2 分布描述性统计
    • 5.3 数据可视化
    • 5.3.1 基本可视化方法
    • 5.3.2 数据分布形状可视化
    • 5.3.3 数据关联情况可视化
    • 5.3.4 数据分组可视化
    • 5.4 样本选择
    • 5.4.1 样本选择的方法
    • 5.4.2 样本选择应用实例
    • 5.5 数据降维
    • 5.5.1 主成分分析(PCA)基本原理
    • 5.5.2 PCA应用案例:企业综合实力排序
    • 5.5.3 相关系数降维
    • 5.6 小结
    • 参考文献
    • 第6章关联规则方法
    • 6.1 关联规则概要
    • 6.1.1 关联规则提出背景
    • 6.1.2 关联规则的基本概念
    • 6.1.3 关联规则的分类
    • 6.1.4 关联规则挖掘常用算法
    • 6.2 Apriori算法
    • 6.2.1 Apriori算法基本思想
    • 6.2.2 Apriori算法步骤
    • 6.2.3 Apriori算法实例
    • 6.2.4 Apriori算法程序实现
    • 6.2.5 算法的优缺点
    • 6.3 FP-Growth算法
    • 6.3.1 FP-Growt算法步骤
    • 6.3.2 FP-Growt算法实例
    • 6.3.3 FP-Growt算法优缺点
    • 6.4 应用实例:行业关联选股法
    • 6.5 小结
    • 参考文献
    • 第7章数据回归方法
    • 7.1 一元回归
    • 7.1.1 一元线性回归
    • 7.1.2 一元非线性回归
    • 7.1.3 一元多项式回归
    • 7.2 多元回归
    • 7.2.1 多元线性回归
    • 7.2.2 多元多项式回归
    • 7.3 逐步归回
    • 7.3.1 逐步回归基本思想
    • 7.3.2 逐步回归步骤
    • 7.3.3 逐步回归的MATLAB方法
    • 7.4 Logistic回归
    • 7.4.1 Logistic模型
    • 7.4.2 Logistic回归实例
    • 7.5 应用实例:多因子选股模型的实现
    • 7.5.1 多因子模型基本思想
    • 7.5.2 多因子模型的实现
    • 7.6 小结
    • 参考文献
    • 第8章分类方法
    • 8.1 分类方法概要
    • 8.1.1 分类的概念
    • 8.1.2 分类的原理
    • 8.1.3 常用的分类方法
    • 8.2 K-近邻(KNN)
    • 8.2.1 K-近邻原理
    • 8.2.2 K-近邻实例
    • 8.2.3 K-近邻特点
    • 8.3 贝叶斯分类
    • 8.3.1 贝叶斯分类原理
    • 8.3.2 朴素贝叶斯分类原理
    • 8.3.3 朴素贝叶斯分类实例
    • 8.3.4 朴素贝叶斯特点
    • 8.4 神经网络
    • 8.4.1 神经网络原理
    • 8.4.2 神经网络实例
    • 8.4.3 神经网络特点
    • 8.5 逻辑斯蒂(Logistic)
    • 8.5.1 逻辑斯蒂原理
    • 8.5.2 逻辑斯蒂实例
    • 8.5.3 逻辑斯蒂特点
    • 8.6 判别分析
    • 8.6.1 判别分析原理
    • 8.6.2 判别分析实例
    • 8.6.3 判别分析特点
    • 8.7 支持向量机(SVM)
    • 8.7.1 SVM基本思想
    • 8.7.2 理论基础
    • 8.7.3 支持向量机实例
    • 8.7.4 支持向量机特点
    • 8.8 决策树
    • 8.8.1 决策树的基本概念
    • 8.8.2 决策树的构建步骤
    • 8.8.3决策树实例
    • 8.8.4 决策树特点
    • 8.9 分类的评判
    • 8.9.1 正确率
    • 8.9.2 ROC曲线
    • 8.10 应用实例:分类选股法
    • 8.10.1 案例背景
    • 8.10.2 实现方法
    • 8.11 延伸阅读:其他分类方法
    • 8.12 小结
    • 参考文献
    • 第9章聚类方法
    • 9.1 聚类方法概要
    • 9.1.1 聚类的概念
    • 9.1.2 类的度量方法
    • 9.1.3 聚类方法的应用场景
    • 9.1.4 聚类方法分类
    • 9.2 K-means方法
    • 9.2.1 K-means原理和步骤
    • 9.2.2 K-means实例1:自主编程
    • 9.2.3 K-means实例2:集成函数
    • 9.2.4 K-means特点
    • 9.3 层次聚类
    • 9.3.1 层次聚类原理和步骤
    • 9.3.2 层次聚类实例
    • 9.3.3 层次聚特点
    • 9.4 神经网络聚类
    • 9.4.1 神经网络聚类原理和步骤
    • 9.4.2 神经网络聚类实例
    • 9.4.3 神经网络聚类特点
    • 9.5 模糊C-均值(FCM)方法
    • 9.5.1 FCM原理和步骤
    • 8.5.2 FCM应用实例
    • 9.5.3 FCM算法特点
    • 9.6 高斯混合聚类方法
    • 9.6.1 高斯混合聚类原理和步骤
    • 9.6.2 高斯聚类实例
    • 9.6.3 高斯聚类特点
    • 9.7 类别数的确定方法
    • 9.7.1 原理
    • 9.7.2 实例
    • 9.8 应用实例:股票聚类分池
    • 9.8.1 聚类目标和数据描述
    • 9.8.2 实现过程
    • 9.8.3 结果及分析
    • 9.9 延伸阅读
    • 9.9.1 目前聚类分析研究的主要内容
    • 9.9.2 SOM智能聚类算法
    • 9.10 小结
    • 参考文献
    • 第10章预测方法
    • 10.1 预测方法概要
    • 10.1.1 预测的概念
    • 10.1.2 预测的基本原理
    • 10.1.3 预测的准确度评价及影响因素
    • 10.1.4 常用的预测方法
    • 10.2 灰色预测
    • 10.2.1 灰色预测原理
    • 10.2.2 灰色预测的实例
    • 10.3 马尔科夫预测
    • 10.3.1 马尔科夫预测原理
    • 10.3.2 马尔科夫过程的特性
    • 10.3.3 马尔科夫预测实例
    • 10.4 应用实例:大盘走势预测
    • 10.4.1 数据的选取及模型的建立
    • 10.4.2 预测过程
    • 10.4.3 预测结果与分析
    • 10.5 小结
    • 参考文献
    • 第11章诊断方法
    • 11.1 离群点诊断概要
    • 11.1.1 离群点诊断的定义
    • 11.1.2 离群点诊断的作用
    • 11.1.3 离群点诊断方法分类
    • 11.2 基于统计的离群点诊断
    • 11.2.1 理论基础
    • 11.2.2 应用实例
    • 11.2.3 优点与缺点
    • 11.3 基于距离的离群点诊断
    • 11.3.1 理论基础
    • 11.3.2 应用实例
    • 11.3.3 优点与缺点
    • 11.4 基于密度的离群点挖掘
    • 11.4.1 理论基础
    • 11.4.2 应用实例
    • 11.4.3 优点与缺点
    • 11.5 基于聚类的离群点挖掘
    • 11.5.1 理论基础
    • 11.5.2 应用实例
    • 11.5.3 优点与缺点
    • 11.6 应用实例:离群点诊断股票买卖择时
    • 11.7 延伸阅读:新兴的离群点挖掘方法
    • 11.7.1 基于关联的离群点挖掘
    • 11.7.2 基于粗糙集的离群点挖掘
    • 11.7.3 基于人工神经网络的离群点挖掘
    • 11.8 小结
    • 参考文献
    • 第12章时间序列方法
    • 12.1 时间序列基本概念
    • 12.1.1 时间序列的定义
    • 12.1.2 时间序列的组成因素
    • 12.1.3 时间序列的分类
    • 12.1.4 时间序列分析方法
    • 12.2 平稳时间序列分析方法
    • 12.2.1 移动平均法
    • 12.2.2 指数平滑法
    • 12.3 季节指数预测法
    • 12.3.1 季节性水平模型
    • 12.3.2 季节性趋势模型
    • 12.4 时间序列模型
    • 12.4.1 ARMA模型
    • 12.4.2 ARIMA模型
    • 12.4.3 ARCH模型
    • 12.4.4 GARCH模型
    • 12.5 应用实例:基于时间序列的股票预测
    • 12.6 小结
    • 参考文献
    • 第13章智能优化方法
    • 13.1 智能优化方法概要
    • 13.1.1 智能优化方法的概念
    • 13.1.2 常用的智能优化方法
    • 13.2 遗传算法
    • 13.2.1 遗传算法的原理
    • 13.2.2 遗传算法的步骤
    • 13.2.3 遗传算法实例
    • 13.2.4 遗传算法的特点
    • 13.3 模拟退火算法
    • 13.3.1 模拟退火算法的原理
    • 13.3.2 模拟退火算法步骤
    • 13.3.3 模拟退火算法实例
    • 13.3.4 模拟退火算法的特点
    • 13.4 延伸阅读:其它智能方法
    • 13.4.1 粒子群算法
    • 13.4.2 蚁群算法
    • 13.5 小结
    • 参考文献
    • 第三篇项目篇
    • 第14章数据挖掘在银行信用评分中的应用
    • 14.1 概述
    • 14.1.1 信用评分的概念
    • 14.1.2 信用评分的意义
    • 14.1.3 个人信用评分的影响因素
    • 14.1.4 信用评分的方法
    • 14.2 DM法信用评分实施过程
    • 14.2.1 数据的准备
    • 14.2.2 数据预处理
    • 14.2.3 logistics模型
    • 14.2.4 神经网络模型
    • 14.3 AHP信用评分方法
    • 14.3.1 AHP法简介
    • 14.3.2 AHP法信用评分实例
    • 14.4 延伸阅读:企业信用评级
    • 14.5 小结
    • 第15章数据挖掘在量化选股中的应用
    • 15.1 量化选股概述
    • 15.1.1 量化选股定义
    • 15.1.2 量化选股实现过程
    • 15.1.3 量化选股的分类
    • 15.2 数据的处理及探索
    • 15.2.1 获取股票日交易数据
    • 15.2.2 计算指标
    • 15.2.3 数据标准化
    • 15.2.4 变量筛选
    • 15.3 模型的建立及评估
    • 15.3.1 股票预测的基本思想
    • 15.3.2 模型的训练及评价
    • 15.4 组合投资的优化
    • 15.4.1 组合投资的理论基础
    • 15.4.2 组合投资的实现
    • 15.5 量化选股的实施
    • 15.6 小结
    • 参考文献
    • 第16章数据挖掘在工业故障诊断中的应用
    • 16.1 故障诊断概述
    • 16.1.1 故障诊断的概念
    • 16.1.2 故障诊断的方法
    • 16.1.3 数据挖掘技术的故障诊断原理
    • 16.2 DM设备故障诊断实例
    • 16.2.1 加载数据
    • 16.2.2 探索数据
    • 16.2.3 设置训练样本的测试样本
    • 16.2.4 决策树方法训练模型
    • 16.2.5 集成决策树方法训练模型
    • 16.3 小结
    • 第17章数据挖掘技术在矿业工程中的应用
    • 17.1 概述
    • 17.1.1 矿业工程的内容
    • 17.1.2 矿业工程的数据及特征
    • 17.1.3 数据挖掘技术在矿业工程中的作用
    • 17.2 矿业工程数据挖掘实例:提纯预测
    • 17.2.1 数据的集成
    • 17.2.2 采用插值方式处理缺失值
    • 17.2.3 设置建模数据及验证方式
    • 17.2.4 多元线性回归模型
    • 17.3 小结
    • 参考文献
    • 第18章数据挖掘技术在生命科学中的应用
    • 18.1 概述
    • 18.1.1 生命科学的研究内容
    • 18.1.2 生命科学中大数据的特征
    • 18.1.3 数据挖掘技术在生命科学中的作用
    • 18.2 生命科学数据挖掘实例:基因表达模式挖掘
    • 18.2.1 加载数据
    • 18.2.2 数据初探
    • 18.2.3 数据清洗
    • 18.2.4 层次聚类
    • 18.2.5 K-means聚类
    • 18.3 小结
    • 参考文献
    • 第19章数据挖掘在社会科学研究中的应用
    • 19.1 概述
    • 19.1.1 社会学研究的内容
    • 19.1.2 社会学研究的方法
    • 19.1.3 数据挖掘在社会科学研究中的应用情况
    • 19.2 社会科学挖掘实例:人类行为研究
    • 19.2.1 加载数据
    • 19.2.2 数据可视化
    • 19.2.3 神经网络
    • 19.2.4 混淆矩阵评价分类器
    • 19.2.5 ROC法评价分类器
    • 19.2.6 变量优选
    • 19.2.7 用优选的变量训练网络
    • 19.3 小结
    • 第四篇理念篇
    • 第20章数据挖掘的艺术
    • 20.1 确定数据挖掘目标的艺术
    • 20.1.1 数据挖掘中的商业意识
    • 20.1.2 商业意识到数据挖掘目标
    • 20.1.3 商业意识的培养
    • 20.2 应用技术的艺术
    • 20.2.1 技术服务于业务的艺术
    • 20.2.2 算法选择的艺术
    • 20.2.3 与机器配合的艺术
    • 20.3 数据挖掘中平衡的艺术
    • 20.3.1 客观与主观的平衡
    • 20.3.2 数据量的平衡
    • 20.4 理性对待大数据时代
    • 20.4.1 发展大数据应避免的误区
    • 20.4.2 正确认识大数据的价值
    • 20.4.3 正面大数据应用面临的挑战
    • 20.5 小结
    • 参考文献
    • 第21章数据挖掘的项目管理和团队管理
    • 21.1 数据挖掘项目实施之道
    • 21.1.1 确定可行的目标
    • 21.1.2 遵守数据挖掘流程
    • 21.1.3 项目的质量控制
    • 21.1.4 项目效率
    • 21.1.5 成本控制
    • 21.1.6 数据挖掘过程改进
    • 21.2 数据挖掘团队的组建
    • 21.2.1 数据挖掘项目团队的构成
    • 21.2.2 团队负责人
    • 21.3 数据挖掘团队的管理
    • 21.3.1 团队管理的目标与策略
    • 21.3.2 规范化的管理
    • 21.4 优秀数据挖掘人才的修炼
    • 21.4.1 专业知识与技术
    • 21.4.2 快速获取知识的技能
    • 21.4.3 提高表达能力
    • 21.4.4 提高管理能力
    • 21.4.5 培养对数据挖掘的热情
    • 21.5 小结

    上一篇:MySQL技术内幕:InnoDB存储引擎  下一篇:深入OpenCV Android应用开发

    展开 +

    收起 -

    码小辫二维码
     ←点击下载即可登录

    大数据相关电子书
    学习笔记
    网友NO.538546

    python怎么做大数据分析

    数据获取:公开数据、Python爬虫 外部数据的获取方式主要有以下两种。(推荐学习:Python视频教程) 第一种是获取外部的公开数据集,一些科研机构、企业、政府会开放一些数据,你需要到特定的网站去下载这些数据。这些数据集通常比较完善、质量相对较高。 另一种获取外部数据的方式就是爬虫。 比如你可以通过爬虫获取招聘网站某一职位的招聘信息,爬取租房网站上某城市的租房信息,爬取豆瓣评分评分最高的电影列表,获取知乎点赞排行、网易云音乐评论排行列表。基于互联网爬取的数据,你可以对某个行业、某种人群进行分析。 在爬虫之前你需要先了解一些 Python 的基础知识:元素(列表、字典、元组等)、变量、循环、函数……… 以及,如何用 Python 库(urllib、BeautifulSoup、requests、scrapy)实现网页爬虫。 掌握基础的爬虫之后,你还需要一些高级技巧,比如正则表达式、使用cookie信息、模拟用户登录、抓包分析、搭建代理池等等,来应对不同网站的反爬虫限制。 数据存取:SQL语言 在应对万以内的数据的时候,Excel对于一般的分析没有问题,一旦数据量大,就会力不从心,数据库就能够很好地解决这个问题。而且大多数的企业,都会以SQL的形式来存储数据。 SQL作为最经典的数据库工具,为海量数据的存储与管……

    网友NO.632067

    python金融大数据分析有用吗

    《Python金融大数据分析 》是人民邮电出版社2015年12月出版的中译图书,作者[德]伊夫·希尔皮斯科,译者姚军。 《Python金融大数据分析》,唯一一本详细讲解使用Python分析处理金融大数据的专业图书;金融应用开发领域从业人员必读。适合对使用Python进行大数据分析、处理感兴趣的金融行业开发人员阅读。 (推荐学习:Python视频教程) 内容介绍 Python凭借其简单、易读、可扩展性以及拥有巨大而活跃的科学计算社区,在需要分析、处理大量数据的金融行业得到了广泛而迅速的应用,并且成为该行业开发核心应用的首选编程语言。 《Python金融大数据分析》提供了使用Python进行数据分析,以及开发相关应用程序的技巧和工具。 《Python金融大数据分析》总计分为3部分,共19章。 第1部分介绍了Python在金融学中的应用,其内容涵盖了Python用于金融行业的原因、Python的基础架构和工具,以及Python在计量金融学中的一些具体入门实例; 第2部分介绍了金融分析和应用程序开发中最重要的Python库、技术和方法,其内容涵盖了Python的数据类型和结构、用matplotlib进行数据可视化、金融时间序列数据处理、高性能输入/输出操作、高性能的Python技术和库、金融学中需要的多种数学工具、随机数生成和随机过程模拟、Python统计学应用、Python和Ex……

    网友NO.598724

    30个mysql千万级大数据SQL查询优化技巧详解

    1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索引而进行全表扫描,如:select id from t where num is null可以在num上设置默认值0,确保表中num列没有null值,然后这样查询:select id from t where num=0 3.应尽量避免在 where 子句中使用!=或操作符,否则引擎将放弃使用索引而进行全表扫描。 4.应尽量避免在 where 子句中使用or 来连接条件,否则将导致引擎放弃使用索引而进行全表扫描,如:select id from t where num=10 or num=20可以这样查询:select id from t where num=10 union all select id from t where num=20 5.in 和 not in 也要慎用,否则会导致全表扫描,如:select id from t where num in(1,2,3) 对于连续的数值,能用 between 就不要用 in 了:select id from t where num between 1 and 3 6.下面的查询也将导致全表扫描:select id from t where name like ‘%李%'若要提高效率,可以考虑全文检索。 7. 如果在 where 子句中使用参数,也会导致全表扫描。因为SQL只有在运行时才会解析局部变量,但优化程序不能将访问计划的选择推迟到运行时;它必须在编译时进行选择。然 而,如果在编译时建立访问计划,变量的值还是未知的,因而无法作为索引选择的输入项。如下面语句……

    网友NO.173965

    python分块读取大数据,避免内存不足的方法

    如下所示: def read_data(file_name): ''' file_name:文件地址 ''' inputfile = open(file_name, 'rb') #可打开含有中文的地址 data = pd.read_csv(inputfile, iterator=True) loop = True chunkSize = 1000 #一千行一块 chunks = [] while loop: try: chunk = dcs.get_chunk(chunkSize) chunks.append(chunk) except StopIteration: loop = False print("Iteration is stopped.") data = pd.concat(chunks, ignore_index=True) #print(train.head()) return data 以上这篇python分块读取大数据,避免内存不足的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持码农之家。 ……

    Copyright 2018-2019 xz577.com 码农之家

    版权责任说明