深度实践Spark机器学习

更新：2023-07-25
大小：102 MB
类别：Spark
作者：吴茂贵
出版：机械工业出版社
版本：PDF 超清版

资源介绍
相关推荐

《深度实践Spark机器学习》是一本涵盖了Spark、机器学习和深度学习领域知识的重要参考书。本书系统讲解了Spark机器学习技术、原理、算法和组件，并详细介绍了构建Spark机器学习系统的方法、流程、标准和规范。对于想要深入了解Spark机器学习的读者来说，本书无疑是一个宝贵的资源。本书还特别介绍了Spark的深度学习框架TensorFlowOnSpark，以及如何借助它实现卷积神经网络和循环神经网络。通过本书的学习，读者不仅可以掌握Spark机器学习的理论知识，还能够实际运用Spark进行深度学习。这本书具有很高的实用性和指导性，是学习Spark机器学习的一本不可或缺的参考书。

深度实践Spark机器学习

深度实践Spark机器学习电子书封面

读者评价

本课程主要讲解基于Spark 2.x的机器学习库，MLlib实现了常用的机器学习，如：聚类、分类、回归等6大算法，使用Kaggle竞赛数据集模型构建。本课拒绝枯燥的讲述，将循序渐进从Spark2.x的基础知识开始，然后再透彻讲解各个算法的理论、详细展示Spark实现，最后均会通过实例进行解析实战，帮助大家真正从理论到实践全面掌握Spark MLlib分布式机器学习。通过该课程的学习同学们可以全面掌握Spark MLlib机器学习，进而能够在实际工作中进行ML的应用开发和定制开发。

内容介绍

本书系统讲解了Spark机器学习的技术、原理、组件、算法，以及构建Spark机器学习系统的方法、流程、标准和规范。此外，还介绍了Spark的深度学习框架TensorFlowOnSpark，以及如何借助它实现卷积神经网络和循环神经网络。

全书共14章，分为四个部分：

*部分（1~7章）

主要讲解了Spark机器学习的技术、原理和核心组件，包括Spark ML、Spark ML Pipeline、Spark MLlib，以及如何构建一个Spark机器学习系统。

第二部分（8~12章）

主要以实例为主，讲解了Spark ML的各种机器学习算法，包括推荐模型、分类模型、聚类模型、回归模型，以及PySpark决策树模型和Spark R朴素贝叶斯模型。

第三部（第13章）

与之前的批量处理不同，本章以在线数据或流式数据为主，讲解了Spark的流式计算框架Spark Streaming。

第四部分（第14章）

介绍了Spark深度学习，主要包括TensorFlow的基础知识及它与Spark的整合框架TensorFlowOnSpark。

前言
第1章了解机器学习1
第2章构建Spark机器学习系统6
第3章MLPipeline原理与实战34
第4章特征提取、转换和选择42
频率（TF-IDF）42
第5章模型选择和优化72
第6章SparkMLlib基础79
第7章构建SparkML推荐模型90
第8章构建SparkML分类模型99
第9章构建SparkML回归模型114
第10章构建SparkML聚类模型127
第11章PySpark决策树模型137
第12章SparkR朴素贝叶斯模型155
说明157
第13章使用SparkStreaming构建在线学习模型168

资源获取

高速下载(提取码：nwsa)

网友留言

雍昊英 2019-04-10 14:03:33

首先再次感谢大数据公众平台给我一次学习的机会，让我有幸能够读到《Scala机器学习》这本IT名著。在此我要预祝大数据公众号越办越好。本人研究生智能计算及其应用方向，主修机器学习和人工智能，虽然自知智力有限，但仍不放弃对该领域的热爱。言归正传，浅谈我对这本书的感受和收获。当时之所以要申请试读这本书，是因为我个人非常看好机器学习方面和分布式平台方面的技术，而众所周知Spark源码是由Scala写的，当然其也提供了JAVA API和Python API，所以我希望多了解一些分布式平台上的机器学习算法的实现问题，作为一个科班出身的学生不能只懂得调用MLlib，而更要理解其基本实现原理和实现方式，也是对自己思维和能力上的进一步提升，说道这再一次感谢平台给我的这次机会(#^.^#)。目前，无论是百度、阿里或是谷歌的科技巨头，还是其他科技公司，都在进军人工智能市场，而机器学习作为人工智能的一部分也（这里解释一下，机器学习是人工智能的一个邻域，而网络模型是机器学习中的某一技术，所以称网络模型为人工智能是不太准确的）日渐发挥重大作用。由于本活动规定要在2周之内看完全书，时间较为仓促，我看完一遍后对整本书有了大致的了解。第1章是数据探索分析。第2章介绍数据管道和建模。这两章讲的基础概念比较多，对这些概念要理解清晰，尤其是对那些相近的定义，一定要界定清楚。第3章讲了Spark与MLlib的安装与使用，过程很详细，可以根据步骤逐一实现其中的几个小例子。第四章主要针对Iirs数据集分别应用SVM、logistic回归、决策树和集成学习进行分类。第五章精准的讲解了回归与分类的定义和两者的区别和联系，针对模型过拟合问题引入的正则化项等。第六章讲述对非结构化数据的处理方式和用途。第七章借助spark平台实现图算法的计算，包括经典的PageRank的实现、奇异值分解等。第八章主要讲解如何将scale和python进行集成。第九章为scala借助MLlib进行自然语言处理，其中包括计算文档的TF-IDF、LDA等。第十章为高级模型监控，偏系统模型，可以作为理解的内容。通过参加这次试读活动，我应用scala完成机器学习有了更深的了解。非常感谢本次活动的主办方，希望以后有更多这样有意义的活动！