当前位置：主页 > 计算机电子书 > 程序设计 > Python下载

Python数据挖掘入门与实践

Python数据挖掘入门与实践 PDF

更新：2019-08-13
大小：8.8 MB
类别：Python
作者：Robert、Layton
出版：人民邮电出版社
格式：PDF

资源介绍
相关推荐

Python数据挖掘入门与实践 PDF

在统计数据经营规模极速澎涨的互联网时代，大数据挖掘此项鉴别关键统计数据的关键技术正充分发挥愈来愈关键的功效。它将授予你处理具体难题的“战斗力”：分折体育比赛結果、广告投放、依据著作的设计风格处理创作者所属难题，这些。这书应用简易易懂且有着丰富多彩第三方平台库和优良小区气氛的Python語言，循序渐进，以真實统计数据做为科学研究另一半，真刀实枪地为用户详细介绍Python大数据挖掘的保持方式。根据这书，用户将迈进大数据挖掘的圣殿，深入了解大数据挖掘基本知识，把握处理大数据挖掘具体难题的优秀实践活动！

这书做为大数据挖掘新手入门读本，详细介绍了大数据挖掘的基本知识、基础小工具和实践活动方式，根据由浅入深地解读计算方法，陪你轻轻松松踏入大数据挖掘之行。这书选用理论研究紧密结合的方法，展现了怎么使用决策树和*山林计算方法分折美国岗位篮球联赛赛果，怎么使用亲和性统计分析方法推荐电影，怎么使用朴素贝叶斯计算方法开展社会发展新闻媒体发掘，这些。这书也涉及到神经网络、深度神经网络、大数据处理等內容。这书朝向想要学习培训和试着大数据挖掘的程序猿。

目录

第1章　开始数据挖掘之旅　　1
1.1 　数据挖掘简介　　1
1.2 　使用Python和IPython Notebook　　2
1.2.1 　安装Python　　2
1.2.2 　安装IPython　　4
1.2.3 　安装scikit-learn库　　5
1.3 　亲和性分析示例　　5
1.3.1 　什么是亲和性分析　　5
1.3.2 　商品推荐　　6
1.3.3 　在NumPy中加载数据集　　6
1.3.4 　实现简单的排序规则　　8
1.3.5 　排序找出最佳规则　　10
1.4 　分类问题的简单示例　　12
1.5 　什么是分类　　12
1.5.1 　准备数据集　　13
1.5.2 　实现OneR算法　　14
1.5.3 　测试算法　　16
1.6 　小结　　18
第2章　用scikit-learn估计器分类　　19
2.1 　scikit-learn估计器　　19
2.1.1 　近邻算法　　20
2.1.2 　距离度量　　20
2.1.3 　加载数据集　　22
2.1.4 　努力实现流程标准化　　24
2.1.5 　运行算法　　24
2.1.6 　设置参数　　25
2.2 　流水线在预处理中的应用　　27
2.2.1 　预处理示例　　28
2.2.2 　标准预处理　　28
2.2.3 　组装起来　　29
2.3 　流水线　　29
2.4 　小结　　30
第3章　用决策树预测获胜球队　　31
3.1 　加载数据集　　31
3.1.1 　采集数据　　31
3.1.2 　用pandas加载数据集　　32
3.1.3 　数据集清洗　　33
3.1.4 　提取新特征　　34
3.2 　决策树　　35
3.2.1 　决策树中的参数　　36
3.2.2 　使用决策树　　37
3.3 　NBA比赛结果预测　　37
3.4 　随机森林　　41
3.4.1 　决策树的集成效果如何　　42
3.4.2 　随机森林算法的参数　　42
3.4.3 　使用随机森林算法　　43
3.4.4 　创建新特征　　44
3.5 　小结　　45
第4章　用亲和性分析方法推荐电影　　46
4.1 　亲和性分析　　46
4.1.1 　亲和性分析算法　　47
4.1.2 　选择参数　　47
4.2 　电影推荐问题　　48
4.2.1 　获取数据集　　48
4.2.2 　用pandas加载数据　　49
4.2.3 　稀疏数据格式　　49
4.3 　Apriori算法的实现　　50
4.3.1 　Apriori算法　　51
4.3.2 　实现　　52
4.4 　抽取关联规则　　54
4.5 　小结　　60
第5章　用转换器抽取特征　　62
5.1 　特征抽取　　62
5.1.1 　在模型中表示事实　　62
5.1.2 　通用的特征创建模式　　64
5.1.3 　创建好的特征　　66
5.2 　特征选择　　67
5.3 　创建特征　　71
5.4 　创建自己的转换器　　75
5.4.1 　转换器API　　76
5.4.2 　实现细节　　76
5.4.3 　单元测试　　77
5.4.4 　组装起来　　79
5.5 　小结　　79
第6章　使用朴素贝叶斯进行社会媒体挖掘　　80
6.1 　消歧　　80
6.1.1 　从社交网站下载数据　　81
6.1.2 　加载数据集并对其分类　　83
6.1.3 　Twitter数据集重建　　87
6.2 　文本转换器　　90
6.2.1 　词袋　　91
6.2.2 　N元语法　　92
6.2.3 　其他特征　　93
6.3 　朴素贝叶斯　　93
6.3.1 　贝叶斯定理　　93
6.3.2 　朴素贝叶斯算法　　94
6.3.3 　算法应用示例　　95
6.4 　应用　　96
6.4.1 　抽取特征　　97
6.4.2 　将字典转换为矩阵　　98
6.4.3 　训练朴素贝叶斯分类器　　98
6.4.4 　组装起来　　98
6.4.5 　用F1值评估　　99
6.4.6 　从模型中获取更多有用的特征　　100
6.5 　小结　　102
第7章　用图挖掘找到感兴趣的人　　104
7.1 　加载数据集　　104
7.1.1 　用现有模型进行分类　　106
7.1.2 　获取Twitter好友信息　　107
7.1.3 　构建网络　　110
7.1.4 　创建图　　112
7.1.5 　创建用户相似度图　　114
7.2 　寻找子图　　117
7.2.1 　连通分支　　117
7.2.2 　优化参数选取准则　　119
7.3 　小结　　123
第8章　用神经网络破解验证码　　124
8.1 　人工神经网络　　124
8.2 　创建数据集　　127
8.2.1 　绘制验证码　　127
8.2.2 　将图像切分为单个的字母　　129
8.2.3 　创建训练集　　130
8.2.4 　根据抽取方法调整训练数据集　　131
8.3 　训练和分类　　132
8.3.1 　反向传播算法　　134
8.3.2 　预测单词　　135
8.4 　用词典提升正确率　　138
8.4.1 　寻找最相似的单词　　138
8.4.2 　组装起来　　139
8.5 　小结　　140
第9章　作者归属问题　　142
9.1 　为作品找作者　　142
9.1.1 　相关应用和使用场景　　143
9.1.2 　作者归属　　143
9.1.3 　获取数据　　144
9.2 　功能词　　147
9.2.1 　统计功能词　　148
9.2.2 　用功能词进行分类　　149
9.3 　支持向量机　　150
9.3.1 　用SVM分类　　151
9.3.2 　内核　　151
9.4 　字符N元语法　　152
9.5 　使用安然公司数据集　　153
9.5.1 　获取安然数据集　　153
9.5.2 　创建数据集加载工具　　154
9.5.3 　组装起来　　158
9.5.4 　评估　　158
9.6 　小结　　160
第10章　新闻语料分类　　161
10.1 　获取新闻文章　　161
10.1.1 　使用Web API获取数据　　162
10.1.2 　数据资源宝库reddit　　164
10.1.3 　获取数据　　165
10.2 　从任意网站抽取文本　　167
10.2.1 　寻找任意网站网页中的主要内容　　167
10.2.2 　组装起来　　168
10.3 　新闻语料聚类　　170
10.3.1 　k-means算法　　171
10.3.2 　评估结果　　173
10.3.3 　从簇中抽取主题信息　　175
10.3.4 　用聚类算法做转换器　　175
10.4 　聚类融合　　176
10.4.1 　证据累积　　176
10.4.2 　工作原理　　179
10.4.3 　实现　　180
10.5 　线上学习　　181
10.5.1 　线上学习简介　　181
10.5.2 　实现　　182
10.6 　小结　　184
第11章　用深度学习方法为图像中的物体进行分类　　185
11.1 　物体分类　　185
11.2 　应用场景和目标　　185
11.3 　深度神经网络　　189
11.3.1 　直观感受　　189
11.3.2 　实现　　189
11.3.3 　Theano简介　　190
11.3.4 　Lasagne简介　　191
11.3.5 　用nolearn实现神经网络　　194
11.4 　GPU优化　　197
11.4.1 　什么时候使用GPU进行
计算　　198
11.4.2 　用GPU运行代码　　198
11.5 　环境搭建　　199
11.6 　应用　　201
11.6.1 　获取数据　　201
11.6.2 　创建神经网络　　202
11.6.3 　组装起来　　204
11.7 　小结　　205
第12章　大数据处理　　206
12.1 　大数据　　206
12.2 　大数据应用场景和目标　　207
12.3 　MapReduce　　208
12.3.1 　直观理解　　209
12.3.2 　单词统计示例　　210
12.3.3 　Hadoop MapReduce　　212
12.4 　应用　　212
12.4.1 　获取数据　　213
12.4.2 　朴素贝叶斯预测　　215
12.5 　小结　　226
附录　接下来的方向　　227

资源下载

资源下载地址1：https://pan.baidu.com/s/192ZUrHzHwn1TJKOXl8jx4A

相关资源

网友留言

最近更新

热门资源