当前位置:主页 > 计算机电子书 > 程序设计 > Spark pdf电子书
循序渐进学Spark

循序渐进学Spark PDF 超清版

  • 更新:2023-07-25
  • 大小:49.8 MB
  • 类别:Spark
  • 作者:小象学院
  • 出版:机械工业出版社
  • 格式:PDF

  • 资源介绍
  • 学习心得
  • 相关内容

循序渐进学Spark》是由机械工业出版社出版的一本关于Spark方面的书籍,作者是小象学院,主要介绍了关于spark、spark教程方面的知识内容,目前在Spark类书籍综合评分为:7.6分。

码农点评

《循序渐进学Spark》是一本精彩的技术指南,旨在帮助读者深入学习和掌握Spark。本书采用合理的结构和精炼的内容,使读者能够在短时间内掌握Spark技术的核心要点。无论是对于初学者还是有一定经验的开发者,这本书都是一本不可多得的教程。通过逐步引导,读者可以系统地了解Spark的各个组件和功能,掌握常用的操作和技巧。书籍还提供了大量的实例和示例代码,帮助读者更好地理解和应用Spark技术。如果你想快速入门和深度学习Spark,我强烈推荐下载并阅读《循序渐进学Spark》。

书籍介绍

循序渐进学Spark

循序渐进学Spark 电子书封面

读者评价

总得来说是一本不错的入门书籍,书如其名,大到Spark的组成构架,小到Spark各种运行机制的分析,从原理和算法出发,到工业实践中的问题解决,作者都将手动的实践和理论联系在了一起,对于初学者来说,这样手把手的带入门,稳提高和再进阶,对一本一共242页的书,张弛有度,简明扼要,句句干货,实为不易。
说一点不足吧,书中同一章节的编写者,应该不太是同一个人,对Hadoop和Spark的配置,前后对应有点不太好,特别是在配置端口和用户权限上,按照书中的描述并没有搭建成一个可用的集群,作为一个小白还是费了相当长的时间才自行Google到解决方案,最终完成搭建。书中一部分概念和内容,个人觉得重要的,作者只是点到为止,具体的内容还是需要自己Google。
但,并不妨碍这是一本初学者值得一读的好书,所谓师父领进门修行在个人,如是而已,以上。

内容介绍

循序渐进学Spark 是一本引导读者深度学习Spark的技术指南。它由国内具实力的大数据在线教育机构小象学院组织撰写,旨在用合理的结构和精炼的内容让读者用短的时间掌握Spark技术的核心内容。第1章和第2章分别讲解了Spark的开发环境和编程模型;第3章分析了Spark的工作机制和原理;第4章则结合源代码分析了Spark的内核架构和实现原理;第5章讲解了Spark与YARN的结合应用;第6章介绍了Spark生态中其他模块的功能和使用;第7章总结了Spark性能调优方面的技巧和方法;第8章描述了Spark2.0发布后,其模块API的变化以及新增的功能特性。

目录

  • 第1章 Spark架构与集群环境 1
  • 第2章 Spark 编程模型 21
  • 第3章 Spark机制原理 38
  • 第4章 深入Spark内核 79
  • 第5章 Spark on YARN 118
  • 第6章 BDAS 生态主要模块 129
  • 第7章 Spark调优 221
  • 第8章 Spark 2.0.0 232

资源获取

资源地址1:https://pan.baidu.com/s/1rSw9qFKU39ujKP161CBxyA(密码:k784)

相关资源

网友留言

网友NO.27514
网友NO.27514

Storm 优点 || 缺点 Storm 流式计算(扶梯) 优点:数据延迟度很低,Storm的事务机制要比SparkStreaming的事务机制要完善(什么是事务机制?对于一条数据,不多处理也不少处理,对于一条数据恰好处理一次,比如金融,股票等要求实时性比较高,那么就需要选Storm) 缺点:一直持有着资源,每一条数据都要在集群中某一台节点处理,要计算的数据会进行网络传输,吞吐量小,另外Storm不适合做复杂的业务逻辑(适合汇总) SparkStreaming 优点 || 缺点 SparkStreaming 微批处理(类似于电梯),它并不是纯的批处理 优点:吞吐量大,可以做复杂的业务逻辑(保证每个job的处理小于batch interval) 缺点:数据延迟度较高 公司中为什么选用SparkStreaming要多一些? 1.秒级别延迟,通常应用程序是可以接受的, 2.可以应用机器学习,SparkSQL...可扩展性比较好,数据吞吐量较高 SparkStreaming 什么是SparkStreaming? SparkStreaming是一个流式处理框架,处理的模式是微批处理(微批有多大?通过时间来设置这个批有多大[For example:Batch Interval 5s]) SparkStreaming基于DStream(Discretized Streams:离散的数据流)来进行编程,处理的是一个流,这个流什么时候切成一个rdd-->根据batchinterval来决定何时切割成一个RDD。