当前位置:主页 > 计算机电子书 > 人工智能 > 大数据 pdf电子书
白话大数据与机器学习

白话大数据与机器学习 PDF 扫描超清版

  • 更新:2019-12-30
  • 大小:137.7 MB
  • 类别:大数据
  • 作者:高扬
  • 出版:机械工业出版社
  • 格式:PDF

  • 资源介绍
  • 学习心得
  • 相关内容

白话大数据与机器学习》是由机械工业出版社出版的一本关于大数据方面的书籍,作者是高扬,主要介绍了关于大数据、机器学习方面的知识内容,目前在大数据类书籍综合评分为:7.1分。

书籍介绍

资深大数据专家多年实战经验总结,拒绝晦涩,开启大数据与机器学习妙趣之旅。以降低学习曲线和阅读难度为宗旨,系统讲解统计学、数据挖掘算法、实际应用案例、数据价值与变现,以及高级拓展技能,并清晰勾勒出大数据技术路线与产业蓝图。

本书共分18章。用通俗易懂的语言,结合大量案例与漫画,不枯燥,实用、接地气。

第1~5章,这部分是大数据入门所需的系统性知识,剖析大数据产业、数据与信息算法等的关系,妙解数学基础(排列组合、概率、统计与分布),以及指标化运营及体系构建。这部分补足读者的产业与相关概念认知,以及所需的数学知识。为下面的数据挖掘算法的理解与应用夯实基础。

第6~8章,这部分介绍数据挖掘基础知识与算法,讲解了与数据息息相关的信息论,重点讲解了:多维向量空间(向量和维度、矩阵及其计算、上卷和下钻);
回归(线性回归、残差分析、拟合相关问题);

聚类(K-Means算法、有趣模式、孤立点、层次与密度聚类,聚类的评估等);

分类(朴素贝叶斯、决策树归纳、*森林、隐马尔科夫模型、SVM、遗传算法)。

第11~18章,这部分介绍生产应用与高级扩展。其中第11~15章介绍生产应用实践,涵盖关联分析、用户画像、推荐算法、文本挖掘、人工神经网络。这些也是工业界和学术界研究的热点。第16章讲解了著名的大数据框架及其安装与配置,如Hadoop、Spark、Cassandra、PrestoDB。第17章从速度与稳定性维度介绍了大数据系统的架构与调优。第18章则从数据运营、评估、展现与变现场景层面进行了解读。
附录部分给出了大数据平台运行可能需要的软件和库,以及群众如何看待炙手可热的大数据。

目录

  • 第1章大数据产业1
  • 1.1大数据产业现状1
  • 1.2对大数据产业的理解2
  • 1.3大数据人才3
  • 1.3.1供需失衡3
  • 1.3.2人才方向3
  • 1.3.3环节和工具5
  • 1.3.4门槛障碍6
  • 1.4小结8
  • 第2章步入数据之门9
  • 2.1什么是数据9
  • 2.2什么是信息10
  • 2.3什么是算法12
  • 2.4统计、概率和数据挖掘13
  • 2.5什么是商业智能13
  • 2.6小结14
  • 第3章排列组合与古典概型15
  • 3.1排列组合的概念16
  • 3.1.1公平的决断——扔硬币16
  • 3.1.2非古典概型17
  • 3.2排列组合的应用示例18
  • 3.2.1双色球彩票18
  • 3.2.2购车摇号20
  • 3.2.3德州扑克21
  • 3.3小结25
  • 第4章统计与分布27
  • 4.1加和值、平均值和标准差27
  • 4.1.1加和值28
  • 4.1.2平均值29
  • 4.1.3标准差30
  • 4.2加权均值32
  • 4.2.1混合物定价32
  • 4.2.2决策权衡34
  • 4.3众数、中位数35
  • 4.3.1众数36
  • 4.3.2中位数37
  • 4.4欧氏距离37
  • 4.5曼哈顿距离39
  • 4.6同比和环比41
  • 4.7抽样43
  • 4.8高斯分布45
  • 4.9泊松分布49
  • 4.10伯努利分布52
  • 4.11小结54
  • 第5章指标55
  • 5.1什么是指标55
  • 5.2指标化运营58
  • 5.2.1指标的选择58
  • 5.2.2指标体系的构建62
  • 5.3小结63
  • 第6章信息论64
  • 6.1信息的定义64
  • 6.2信息量65
  • 6.2.1信息量的计算65
  • 6.2.2信息量的理解66
  • 6.3香农公式68
  • 6.4熵70
  • 6.4.1热力熵70
  • 6.4.2信息熵72
  • 6.5小结75
  • 第7章多维向量空间76
  • 7.1向量和维度76
  • 7.1.1信息冗余77
  • 7.1.2维度79
  • 7.2矩阵和矩阵计算80
  • 7.3数据立方体83
  • 7.4上卷和下钻85
  • 7.5小结86
  • 第8章回归87
  • 8.1线性回归87
  • 8.2拟合88
  • 8.3残差分析94
  • 8.4过拟合99
  • 8.5欠拟合100
  • 8.6曲线拟合转化为线性拟合101
  • 8.7小结104
  • 第9章聚类105
  • 9.1K-Means算法106
  • 9.2有趣模式109
  • 9.3孤立点110
  • 9.4层次聚类110
  • 9.5密度聚类113
  • 9.6聚类评估116
  • 9.6.1聚类趋势117
  • 9.6.2簇数确定119
  • 9.6.3测定聚类质量121
  • 9.7小结124
  • 第10章分类125
  • 10.1朴素贝叶斯126
  • 10.1.1天气的预测128
  • 10.1.2疾病的预测130
  • 10.1.3小结132
  • 10.2决策树归纳133
  • 10.2.1样本收集135
  • 10.2.2信息增益136
  • 10.2.3连续型变量137
  • 10.3随机森林140
  • 10.4隐马尔可夫模型141
  • 10.4.1维特比算法144
  • 10.4.2前向算法151
  • 10.5支持向量机SVM154
  • 10.5.1年龄和好坏154
  • 10.5.2“下刀”不容易157
  • 10.5.3距离有多远158
  • 10.5.4N维度空间中的距离159
  • 10.5.5超平面怎么画160
  • 10.5.6分不开怎么办160
  • 10.5.7示例163
  • 10.5.8小结164
  • 10.6遗传算法164
  • 10.6.1进化过程164
  • 10.6.2算法过程165
  • 10.6.3背包问题165
  • 10.6.4极大值问题173
  • 10.7小结181
  • 第11章关联分析183
  • 11.1频繁模式和Apriori算法184
  • 11.1.1频繁模式184
  • 11.1.2支持度和置信度185
  • 11.1.3经典的Apriori算法187
  • 11.1.4求出所有频繁模式190
  • 11.2关联分析与相关性分析192
  • 11.3稀有模式和负模式193
  • 11.4小结194
  • 第12章用户画像195
  • 12.1标签195
  • 12.2画像的方法196
  • 12.2.1结构化标签196
  • 12.2.2非结构化标签198
  • 12.3利用用户画像203
  • 12.3.1割裂型用户画像203
  • 12.3.2紧密型用户画像204
  • 12.3.3到底“像不像”204
  • 12.4小结205
  • 第13章推荐算法206
  • 13.1推荐思路206
  • 13.1.1贝叶斯分类206
  • 13.1.2利用搜索记录207
  • 13.2User-basedCF209
  • 13.3Item-basedCF211
  • 13.4优化问题215
  • 13.5小结217
  • 第14章文本挖掘218
  • 14.1文本挖掘的领域218
  • 14.2文本分类219
  • 14.2.1Rocchio算法220
  • 14.2.2朴素贝叶斯算法223
  • 14.2.3K-近邻算法225
  • 14.2.4支持向量机SVM算法226
  • 14.3小结227
  • 第15章人工神经网络228
  • 15.1人的神经网络228
  • 15.1.1神经网络结构229
  • 15.1.2结构模拟230
  • 15.1.3训练与工作231
  • 15.2FANN库简介233
  • 15.3常见的神经网络235
  • 15.4BP神经网络235
  • 15.4.1结构和原理236
  • 15.4.2训练过程237
  • 15.4.3过程解释240
  • 15.4.4示例240
  • 15.5玻尔兹曼机244
  • 15.5.1退火模型244
  • 15.5.2玻尔兹曼机245
  • 15.6卷积神经网络247
  • 15.6.1卷积248
  • 15.6.2图像识别249
  • 15.7深度学习255
  • 15.8小结256
  • 第16章大数据框架简介257
  • 16.1著名的大数据框架257
  • 16.2Hadoop框架258
  • 16.2.1MapReduce原理259
  • 16.2.2安装Hadoop261
  • 16.2.3经典的WordCount264
  • 16.3Spark框架269
  • 16.3.1安装Spark270
  • 16.3.2使用Scala计算WordCount271
  • 16.4分布式列存储框架272
  • 16.5PrestoDB——神奇的CLI273
  • 16.5.1Presto为什么那么快273
  • 16.5.2安装Presto274
  • 16.6小结277
  • 第17章系统架构和调优278
  • 17.1速度——资源的配置278
  • 17.1.1思路一:逻辑层面的优化279
  • 17.1.2思路二:容器层面的优化279
  • 17.1.3思路三:存储结构层面的优化280
  • 17.1.4思路四:环节层面的优化280
  • 17.1.5资源不足281
  • 17.2稳定——资源的可用282
  • 17.2.1借助云服务282
  • 17.2.2锁分散282
  • 17.2.3排队283
  • 17.2.4谨防“雪崩”283
  • 17.3小结285
  • 第18章数据解读与数据的价值286
  • 18.1运营指标286
  • 18.1.1互联网类型公司常用指标287
  • 18.1.2注意事项288
  • 18.2AB测试289
  • 18.2.1网页测试290
  • 18.2.2方案测试290
  • 18.2.3灰度发布292
  • 18.2.4注意事项293
  • 18.3数据可视化295
  • 18.3.1图表295
  • 18.3.2表格299
  • 18.4多维度——大数据的灵魂299
  • 18.4.1多大算大299
  • 18.4.2大数据网络300
  • 18.4.3去中心化才能活跃301
  • 18.4.4数据会过剩吗302
  • 18.5数据变现的场景303
  • 18.5.1数据价值的衡量的讨论303
  • 18.5.2场景1:征信数据307
  • 18.5.3场景2:宏观数据308
  • 18.5.4场景3:画像数据309
  • 18.6小结310
  • 附录AVMwareWorkstation的安装311
  • 附录BCentOS虚拟机的安装方法314
  • 附录CPython语言简介318
  • 附录DScikit-learn库简介323
  • 附录EFANNforPython安装324
  • 附录F群众眼中的大数据325
  • 写作花絮327
  • 参考文献329

资源获取

资源地址1:https://pan.baidu.com/s/1H022NZimdeQBkJdBx9WDVA(密码:tjm4)

相关资源

网友留言