标签分类
当前位置:首页 > 程序设计电子书 > Python电子书网盘下载
Python数据挖掘入门与实践 Python数据挖掘入门与实践
zhongbinling

zhongbinling 提供上传

资源
21
粉丝
19
喜欢
172
评论
3

    Python数据挖掘入门与实践 PDF 版

    Python电子书
    • 发布时间:

    给大家带来的一篇关于Python相关的电子书资源,介绍了关于Python数据挖掘、Python实践方面的内容,本书是由人民邮电出版社出版,格式为PDF,资源大小8.8 MB,Robert Layton编写,目前豆瓣、亚马逊、当当、京东等电子书综合评分为:9.7,更多相关的学习资源可以参阅 程序设计电子书Python电子书、等栏目。

  • Python数据挖掘入门与实践 PDF 下载
  • 下载地址:https://pan.baidu.com/s/192ZUrHzHwn1TJKOXl8jx4A
  • 分享码:wez2
  • Python数据挖掘入门与实践 PDF

    在统计数据经营规模极速澎涨的互联网时代,大数据挖掘此项鉴别关键统计数据的关键技术正充分发挥愈来愈关键的功效。它将授予你处理具体难题的“战斗力”:分折体育比赛結果、广告投放、依据著作的设计风格处理创作者所属难题,这些。这书应用简易易懂且有着丰富多彩第三方平台库和优良小区气氛的Python語言,循序渐进,以真實统计数据做为科学研究另一半,真刀实枪地为用户详细介绍Python大数据挖掘的保持方式 。根据这书,用户将迈进大数据挖掘的圣殿,深入了解大数据挖掘基本知识,把握处理大数据挖掘具体难题的优秀实践活动! 

    这书做为大数据挖掘新手入门读本,详细介绍了大数据挖掘的基本知识、基础小工具和实践活动方式 ,根据由浅入深地解读计算方法,陪你轻轻松松踏入大数据挖掘之行。这书选用理论研究紧密结合的方法,展现了怎么使用决策树和*山林计算方法分折美国岗位篮球联赛赛果,怎么使用亲和性统计分析方法推荐电影,怎么使用朴素贝叶斯计算方法开展社会发展新闻媒体发掘,这些。这书也涉及到神经网络、深度神经网络、大数据处理等內容。这书朝向想要学习培训和试着大数据挖掘的程序猿。

    目录

    • 第1章  开始数据挖掘之旅  1
    • 1.1  数据挖掘简介  1
    • 1.2  使用Python和IPython Notebook  2
    • 1.2.1  安装Python  2
    • 1.2.2  安装IPython  4
    • 1.2.3  安装scikit-learn库  5
    • 1.3  亲和性分析示例  5
    • 1.3.1  什么是亲和性分析  5
    • 1.3.2  商品推荐  6
    • 1.3.3  在NumPy中加载数据集  6
    • 1.3.4  实现简单的排序规则  8
    • 1.3.5  排序找出最佳规则  10
    • 1.4  分类问题的简单示例  12
    • 1.5  什么是分类  12
    • 1.5.1  准备数据集  13
    • 1.5.2  实现OneR算法  14
    • 1.5.3  测试算法  16
    • 1.6  小结  18
    • 第2章  用scikit-learn估计器分类  19
    • 2.1  scikit-learn估计器  19
    • 2.1.1  近邻算法  20
    • 2.1.2  距离度量  20
    • 2.1.3  加载数据集  22
    • 2.1.4  努力实现流程标准化  24
    • 2.1.5  运行算法  24
    • 2.1.6  设置参数  25
    • 2.2  流水线在预处理中的应用  27
    • 2.2.1  预处理示例  28
    • 2.2.2  标准预处理  28
    • 2.2.3  组装起来  29
    • 2.3  流水线  29
    • 2.4  小结  30
    • 第3章  用决策树预测获胜球队  31
    • 3.1  加载数据集  31
    • 3.1.1  采集数据  31
    • 3.1.2  用pandas加载数据集  32
    • 3.1.3  数据集清洗  33
    • 3.1.4  提取新特征  34
    • 3.2  决策树  35
    • 3.2.1  决策树中的参数  36
    • 3.2.2  使用决策树  37
    • 3.3  NBA比赛结果预测  37
    • 3.4  随机森林  41
    • 3.4.1  决策树的集成效果如何  42
    • 3.4.2  随机森林算法的参数  42
    • 3.4.3  使用随机森林算法  43
    • 3.4.4  创建新特征  44
    • 3.5  小结  45
    • 第4章  用亲和性分析方法推荐电影  46
    • 4.1  亲和性分析  46
    • 4.1.1  亲和性分析算法  47
    • 4.1.2  选择参数  47
    • 4.2  电影推荐问题  48
    • 4.2.1  获取数据集  48
    • 4.2.2  用pandas加载数据  49
    • 4.2.3  稀疏数据格式  49
    • 4.3  Apriori算法的实现  50
    • 4.3.1  Apriori算法  51
    • 4.3.2  实现  52
    • 4.4  抽取关联规则  54
    • 4.5  小结  60
    • 第5章  用转换器抽取特征  62
    • 5.1  特征抽取  62
    • 5.1.1  在模型中表示事实  62
    • 5.1.2  通用的特征创建模式  64
    • 5.1.3  创建好的特征  66
    • 5.2  特征选择  67
    • 5.3  创建特征  71
    • 5.4  创建自己的转换器  75
    • 5.4.1  转换器API  76
    • 5.4.2  实现细节  76
    • 5.4.3  单元测试  77
    • 5.4.4  组装起来  79
    • 5.5  小结  79
    • 第6章  使用朴素贝叶斯进行社会媒体挖掘  80
    • 6.1  消歧  80
    • 6.1.1  从社交网站下载数据  81
    • 6.1.2  加载数据集并对其分类  83
    • 6.1.3  Twitter数据集重建  87
    • 6.2  文本转换器  90
    • 6.2.1  词袋  91
    • 6.2.2  N元语法  92
    • 6.2.3  其他特征  93
    • 6.3  朴素贝叶斯  93
    • 6.3.1  贝叶斯定理  93
    • 6.3.2  朴素贝叶斯算法  94
    • 6.3.3  算法应用示例  95
    • 6.4  应用  96
    • 6.4.1  抽取特征  97
    • 6.4.2  将字典转换为矩阵  98
    • 6.4.3  训练朴素贝叶斯分类器  98
    • 6.4.4  组装起来  98
    • 6.4.5  用F1值评估  99
    • 6.4.6  从模型中获取更多有用的特征  100
    • 6.5  小结  102
    • 第7章  用图挖掘找到感兴趣的人  104
    • 7.1  加载数据集  104
    • 7.1.1  用现有模型进行分类  106
    • 7.1.2  获取Twitter好友信息  107
    • 7.1.3  构建网络  110
    • 7.1.4  创建图  112
    • 7.1.5  创建用户相似度图  114
    • 7.2  寻找子图  117
    • 7.2.1  连通分支  117
    • 7.2.2  优化参数选取准则  119
    • 7.3  小结  123
    • 第8章  用神经网络破解验证码  124
    • 8.1  人工神经网络  124
    • 8.2  创建数据集  127
    • 8.2.1  绘制验证码  127
    • 8.2.2  将图像切分为单个的字母  129
    • 8.2.3  创建训练集  130
    • 8.2.4  根据抽取方法调整训练数据集  131
    • 8.3  训练和分类  132
    • 8.3.1  反向传播算法  134
    • 8.3.2  预测单词  135
    • 8.4  用词典提升正确率  138
    • 8.4.1  寻找最相似的单词  138
    • 8.4.2  组装起来  139
    • 8.5  小结  140
    • 第9章  作者归属问题  142
    • 9.1  为作品找作者  142
    • 9.1.1  相关应用和使用场景  143
    • 9.1.2  作者归属  143
    • 9.1.3  获取数据  144
    • 9.2  功能词  147
    • 9.2.1  统计功能词  148
    • 9.2.2  用功能词进行分类  149
    • 9.3  支持向量机  150
    • 9.3.1  用SVM分类  151
    • 9.3.2  内核  151
    • 9.4  字符N元语法  152
    • 9.5  使用安然公司数据集  153
    • 9.5.1  获取安然数据集  153
    • 9.5.2  创建数据集加载工具  154
    • 9.5.3  组装起来  158
    • 9.5.4  评估  158
    • 9.6  小结  160
    • 第10章  新闻语料分类  161
    • 10.1  获取新闻文章  161
    • 10.1.1  使用Web API获取数据  162
    • 10.1.2  数据资源宝库reddit  164
    • 10.1.3  获取数据  165
    • 10.2  从任意网站抽取文本  167
    • 10.2.1  寻找任意网站网页中的主要内容  167
    • 10.2.2  组装起来  168
    • 10.3  新闻语料聚类  170
    • 10.3.1  k-means算法  171
    • 10.3.2  评估结果  173
    • 10.3.3  从簇中抽取主题信息  175
    • 10.3.4  用聚类算法做转换器  175
    • 10.4  聚类融合  176
    • 10.4.1  证据累积  176
    • 10.4.2  工作原理  179
    • 10.4.3  实现  180
    • 10.5  线上学习  181
    • 10.5.1  线上学习简介  181
    • 10.5.2  实现  182
    • 10.6  小结  184
    • 第11章  用深度学习方法为图像中的物体进行分类  185
    • 11.1  物体分类  185
    • 11.2  应用场景和目标  185
    • 11.3  深度神经网络  189
    • 11.3.1  直观感受  189
    • 11.3.2  实现  189
    • 11.3.3  Theano简介  190
    • 11.3.4  Lasagne简介  191
    • 11.3.5  用nolearn实现神经网络  194
    • 11.4  GPU优化  197
    • 11.4.1  什么时候使用GPU进行
    • 计算  198
    • 11.4.2  用GPU运行代码  198
    • 11.5  环境搭建  199
    • 11.6  应用  201
    • 11.6.1  获取数据  201
    • 11.6.2  创建神经网络  202
    • 11.6.3  组装起来  204
    • 11.7  小结  205
    • 第12章  大数据处理  206
    • 12.1  大数据  206
    • 12.2  大数据应用场景和目标  207
    • 12.3  MapReduce  208
    • 12.3.1  直观理解  209
    • 12.3.2  单词统计示例  210
    • 12.3.3  Hadoop MapReduce  212
    • 12.4  应用  212
    • 12.4.1  获取数据  213
    • 12.4.2  朴素贝叶斯预测  215
    • 12.5  小结  226
    • 附录  接下来的方向  227 

    上一篇:可爱的Python  下一篇:人工智能:改变世界,重建未来

    展开 +

    收起 -

    Python相关电子书
    学习笔记
    网友NO.504763

    python数据挖掘需要学什么

    只要能解决实际问题,用什么工具来学习数据挖掘都是无所谓,这里首推Python。 需要掌握Python中的哪些知识? (推荐学习:Python视频教程) 1、Pandas库的操作 Panda是数据分析特别重要的一个库,我们要掌握以下三点: · pandas 分组计算; · pandas 索引与多重索引; 索引比较难,但是却是非常重要的 · pandas 多表操作与数据透视表 2、numpy数值计算 numpy数据计算主要应用是在数据挖掘,对于以后的机器学习,深度学习,这也是一个必须掌握的库,我们要掌握以下内容: · Numpy array理解; · 数组索引操作; · 数组计算; · Broadcasting(线性代数里面的知识) 3、数据可视化-matplotlib与seaborn · Matplotib语法 python最基本的可视化工具就是matplotlib。咋一看Matplotlib与matlib有点像,要搞清楚二者的关系是什么,这样学习起来才会比较轻松。 · seaborn的使用 seaborn是一个非常漂亮的可视化工具。 · pandas绘图功能 前面说过pandas是做数据分析的,但它也提供了一些绘图的API。 4、数据挖掘入门 这部分是最难也是最有意思的一部分,要掌握以下几个部分: · 机器学习的定义 在这里跟数据挖掘先不做区别 · 代价函数的定义 · Train/Test/Validate · Overfitting的定义与避免方法 5、数据挖掘算法 数据挖掘发展到现在,算法已经非常多,下面只需掌握最简单的,最核……

    网友NO.715344

    深入分析python数据挖掘 Json结构分析

    这篇文章通过实例给大家分析总结了python数据挖掘以及Json结构分析的相关知识点,对此有兴趣的朋友参考下。 json是一种轻量级的数据交换格式,也可以说是一种配置文件的格式 这种格式的文件是我们在数据处理经常会遇到的 python提供内置的模块json,只需要在使用前导入即可 你可以通过帮助函数查看json的帮助文档 json常用的方法有load、loads、dump以及dumps,这个都属于python初级,我不做过多解释 json可以结合数据库一起使用,在这以后要处理大量数据时非常有用 下面我们正式来利用数据挖掘对json文件进行处理 现在很多网站都运用了Ajax,所以一般很多都是XHR文件 通过这里我想利用一个地图网站来演示 我们通过浏览器的调试获取了相关url https://ditu.amap.com/service/poiInfo?id=B001B0IZY1query_type=IDQ 下面我们通过requests模块中的get方法,模拟浏览器发出的http请求,并返回的到的结果对象 代码如下 # coding=utf-8__Author__ = susmoteimport requestsurl = https://ditu.amap.com/service/poiInfo?id=B001B0IZY1query_type=IDQresp = requests.get(url)print(resp.text[0:200]) 在终端中运行结果如下 数据已经获取到了,但是为了接下来能使用这些数据,我们需要利用json模块对这些数据进行分析 代码如下 import requestsimport jsonurl = https://ditu.amap.com/service/poiInfo?id=B001B0IZY1query_type=IDQresp = request……

    网友NO.311514

    python数据挖掘需要学的内容

    1、Pandas库的操作 Panda是数据分析特别重要的一个库,我们要掌握以下三点: · pandas 分组计算; · pandas 索引与多重索引; 索引比较难,但是却是非常重要的 · pandas 多表操作与数据透视表 2、numpy数值计算 numpy数据计算主要应用是在数据挖掘,对于以后的机器学习,深度学习,这也是一个必须掌握的库,我们要掌握以下内容: · Numpy array理解; · 数组索引操作; · 数组计算; · Broadcasting(线性代数里面的知识) 3、数据可视化-matplotlib与seaborn · Matplotib语法 python最基本的可视化工具就是matplotlib。咋一看Matplotlib与matlib有点像,要搞清楚二者的关系是什么,这样学习起来才会比较轻松。 · seaborn的使用 seaborn是一个非常漂亮的可视化工具。 · pandas绘图功能 前面说过pandas是做数据分析的,但它也提供了一些绘图的API。 4、数据挖掘入门 这部分是最难也是最有意思的一部分,要掌握以下几个部分: · 机器学习的定义 在这里跟数据挖掘先不做区别 · 代价函数的定义 · Train/Test/Validate · Overfitting的定义与避免方法 5、数据挖掘算法 数据挖掘发展到现在,算法已经非常多,下面只需掌握最简单的,最核心的,最常用的算法: · 最小二乘算法; · 梯度下降; · 向量化; · 极大似然估计; · Logistic Regression; · Decision Tree; · RandomForesr;……

    Copyright 2018-2019 xz577.com 码农之家

    版权责任说明