当前位置:主页 > 计算机电子书 > 人工智能 > Spark下载
深度实践Spark机器学习

深度实践Spark机器学习 PDF 超清版

  • 更新:2023-07-25
  • 大小:102 MB
  • 类别:Spark
  • 作者:吴茂贵
  • 出版:机械工业出版社
  • 格式:PDF

  • 资源介绍
  • 学习心得
  • 相关内容

《深度实践Spark机器学习》是一本涵盖了Spark、机器学习和深度学习领域知识的重要参考书。本书系统讲解了Spark机器学习技术、原理、算法和组件,并详细介绍了构建Spark机器学习系统的方法、流程、标准和规范。对于想要深入了解Spark机器学习的读者来说,本书无疑是一个宝贵的资源。本书还特别介绍了Spark的深度学习框架TensorFlowOnSpark,以及如何借助它实现卷积神经网络和循环神经网络。通过本书的学习,读者不仅可以掌握Spark机器学习的理论知识,还能够实际运用Spark进行深度学习。这本书具有很高的实用性和指导性,是学习Spark机器学习的一本不可或缺的参考书。

深度实践Spark机器学习

深度实践Spark机器学习电子书封面

读者评价

本课程主要讲解基于Spark 2.x的机器学习库,MLlib实现了常用的机器学习,如:聚类、分类、回归等6大算法,使用Kaggle竞赛数据集模型构建。本课拒绝枯燥的讲述,将循序渐进从Spark2.x的基础知识开始,然后再透彻讲解各个算法的理论、详细展示Spark实现,最后均会通过实例进行解析实战,帮助大家真正从理论到实践全面掌握Spark MLlib分布式机器学习。通过该课程的学习同学们可以全面掌握Spark MLlib机器学习,进而能够在实际工作中进行ML的应用开发和定制开发。

内容介绍

本书系统讲解了Spark机器学习的技术、原理、组件、算法,以及构建Spark机器学习系统的方法、流程、标准和规范。此外,还介绍了Spark的深度学习框架TensorFlowOnSpark,以及如何借助它实现卷积神经网络和循环神经网络。

全书共14章,分为四个部分:

*部分(1~7章)

主要讲解了Spark机器学习的技术、原理和核心组件,包括Spark ML、Spark ML Pipeline、Spark MLlib,以及如何构建一个Spark机器学习系统。

第二部分(8~12章)

主要以实例为主,讲解了Spark ML的各种机器学习算法,包括推荐模型、分类模型、聚类模型、回归模型,以及PySpark决策树模型和Spark R朴素贝叶斯模型。

第三部(第13章)

与之前的批量处理不同,本章以在线数据或流式数据为主,讲解了Spark的流式计算框架Spark Streaming。

第四部分(第14章)

介绍了Spark深度学习,主要包括TensorFlow的基础知识及它与Spark的整合框架TensorFlowOnSpark。

目录

  • 前言
  • 第1章了解机器学习1
  • 第2章构建Spark机器学习系统6
  • 第3章MLPipeline原理与实战34
  • 第4章特征提取、转换和选择42
  • 频率(TF-IDF)42
  • 第5章模型选择和优化72
  • 第6章SparkMLlib基础79
  • 第7章构建SparkML推荐模型90
  • 第8章构建SparkML分类模型99
  • 第9章构建SparkML回归模型114
  • 第10章构建SparkML聚类模型127
  • 第11章PySpark决策树模型137
  • 第12章SparkR朴素贝叶斯模型155
  • 说明157
  • 第13章使用SparkStreaming构建在线学习模型168

资源获取

资源地址1:https://pan.baidu.com/s/1cNCko-xEZ0fFibQDyAlUWg

相关资源

网友留言

网友NO.32912
赖飞舟

首先再次感谢大数据公众平台给我一次学习的机会,让我有幸能够读到《Scala机器学习》这本IT名著。在此我要预祝大数据公众号越办越好。 本人研究生智能计算及其应用方向,主修机器学习和人工智能,虽然自知智力有限,但仍不放弃对该领域的热爱。言归正传,浅谈我对这本书的感受和收获。当时之所以要申请试读这本书,是因为我个人非常看好机器学习方面和分布式平台方面的技术,而众所周知Spark源码是由Scala写的,当然其也提供了JAVA API和Python API,所以我希望多了解一些分布式平台上的机器学习算法的实现问题,作为一个科班出身的学生不能只懂得调用MLlib,而更要理解其基本实现原理和实现方式,也是对自己思维和能力上的进一步提升,说道这再一次感谢平台给我的这次机会(#^.^#)。 目前,无论是百度、阿里或是谷歌的科技巨头,还是其他科技公司,都在进军人工智能市场,而机器学习作为人工智能的一部分也(这里解释一下,机器学习是人工智能的一个邻域,而网络模型是机器学习中的某一技术,所以称网络模型为人工智能是不太准确的)日渐发挥重大作用。 由于本活动规定要在2周之内看完全书,时间较为仓促,我看完一遍后对整本书有了大致的了解。第1章是数据探索分析。第2章介绍数据管道和建模。这两章讲的基础概念比较多,对这些概念要理解清晰,尤其是对那些相近的定义,一定要界定清楚。第3章讲了Spark与MLlib的安装与使用,过程很详细,可以根据步骤逐一实现其中的几个小例子。第四章主要针对Iirs数据集分别应用SVM、logistic回归、决策树和集成学习进行分类。第五章精准的讲解了回归与分类的定义和两者的区别和联系,针对模型过拟合问题引入的正则化项等。第六章讲述对非结构化数据的处理方式和用途。第七章借助spark平台实现图算法的计算,包括经典的PageRank的实现、奇异值分解等。第八章主要讲解如何将scale和python进行集成。第九章为scala借助MLlib进行自然语言处理,其中包括计算文档的TF-IDF、LDA等。第十章为高级模型监控,偏系统模型,可以作为理解的内容。 通过参加这次试读活动,我应用scala完成机器学习有了更深的了解。非常感谢本次活动的主办方,希望以后有更多这样有意义的活动!