循序渐进学Spark

更新：2023-07-25
大小：49.8 MB
类别：Spark
作者：小象学院
出版：机械工业出版社
版本：PDF 超清版

资源介绍
相关推荐

《循序渐进学Spark》是一本精彩的技术指南，旨在帮助读者深入学习和掌握Spark。本书采用合理的结构和精炼的内容，使读者能够在短时间内掌握Spark技术的核心要点。无论是对于初学者还是有一定经验的开发者，这本书都是一本不可多得的教程。通过逐步引导，读者可以系统地了解Spark的各个组件和功能，掌握常用的操作和技巧。书籍还提供了大量的实例和示例代码，帮助读者更好地理解和应用Spark技术。如果你想快速入门和深度学习Spark，我强烈推荐下载并阅读《循序渐进学Spark》。

循序渐进学Spark

循序渐进学Spark 电子书封面

读者评价

总得来说是一本不错的入门书籍，书如其名，大到Spark的组成构架，小到Spark各种运行机制的分析，从原理和算法出发，到工业实践中的问题解决，作者都将手动的实践和理论联系在了一起，对于初学者来说，这样手把手的带入门，稳提高和再进阶，对一本一共242页的书，张弛有度，简明扼要，句句干货，实为不易。
说一点不足吧，书中同一章节的编写者，应该不太是同一个人，对Hadoop和Spark的配置，前后对应有点不太好，特别是在配置端口和用户权限上，按照书中的描述并没有搭建成一个可用的集群，作为一个小白还是费了相当长的时间才自行Google到解决方案，最终完成搭建。书中一部分概念和内容，个人觉得重要的，作者只是点到为止，具体的内容还是需要自己Google。
但，并不妨碍这是一本初学者值得一读的好书，所谓师父领进门修行在个人，如是而已，以上。

内容介绍

循序渐进学Spark 是一本引导读者深度学习Spark的技术指南。它由国内具实力的大数据在线教育机构小象学院组织撰写，旨在用合理的结构和精炼的内容让读者用短的时间掌握Spark技术的核心内容。第1章和第2章分别讲解了Spark的开发环境和编程模型；第3章分析了Spark的工作机制和原理；第4章则结合源代码分析了Spark的内核架构和实现原理；第5章讲解了Spark与YARN的结合应用；第6章介绍了Spark生态中其他模块的功能和使用；第7章总结了Spark性能调优方面的技巧和方法；第8章描述了Spark2.0发布后，其模块API的变化以及新增的功能特性。

资源获取

高速下载(提取码：k784)

网友留言

钟俊哲 2019-04-17 09:08:22

Storm 优点 || 缺点 Storm 流式计算（扶梯）优点：数据延迟度很低，Storm的事务机制要比SparkStreaming的事务机制要完善（什么是事务机制？对于一条数据，不多处理也不少处理，对于一条数据恰好处理一次，比如金融，股票等要求实时性比较高，那么就需要选Storm）缺点：一直持有着资源，每一条数据都要在集群中某一台节点处理，要计算的数据会进行网络传输，吞吐量小，另外Storm不适合做复杂的业务逻辑（适合汇总） SparkStreaming 优点 || 缺点 SparkStreaming 微批处理（类似于电梯），它并不是纯的批处理优点：吞吐量大，可以做复杂的业务逻辑(保证每个job的处理小于batch interval) 缺点：数据延迟度较高公司中为什么选用SparkStreaming要多一些？ 1.秒级别延迟，通常应用程序是可以接受的， 2.可以应用机器学习，SparkSQL...可扩展性比较好，数据吞吐量较高 SparkStreaming 什么是SparkStreaming? SparkStreaming是一个流式处理框架，处理的模式是微批处理（微批有多大？通过时间来设置这个批有多大[For example：Batch Interval 5s]） SparkStreaming基于DStream(Discretized Streams:离散的数据流)来进行编程，处理的是一个流，这个流什么时候切成一个rdd-->根据batchinterval来决定何时切割成一个RDD。