离线和实时大数据开发实战

更新：2023-08-13
大小：76.8 MB
类别：大数据
作者：朱松岭
出版：机械工业出版社
版本：PDF 超清版

资源介绍
相关推荐

【离线和实时大数据开发实战】是一本非常实用的指导书籍，特别适合对大数据、数据结构以及超清数据处理技术感兴趣的读者。本书全面介绍了大数据的相关概念，以及如何构建数据结构和处理超清数据的技术。通过学习本书，读者将深入了解大数据开发的实际操作，并掌握离线和实时数据处理的关键技术。这将为读者在大数据领域取得更加优秀的成果提供有力的帮助。本书内容丰富全面，对于希望在大数据开发领域取得突破的读者来说，是一本不可多得的实战良书。

离线和实时大数据开发实战

离线和实时大数据开发实战电子书封面

读者评价

入门读物，了解大数据开发的相关生态和一些基本概念，没有深入实战与细节，不过对我来说够了。只看了工作中相关的一些章节
粗略扫了一遍。作者的技术真的非常牛，但是这本书写得很一般。只讲实用有效的“招式”，作者如是说。。。读起来很无味。技术的宽度也不够，比如第三章的mapreduce，描述还是第一代的架构，本身的几个步骤也没讲对。书名为“实战”，但是每个技术适合的应用场景是什么？一堆技术堆成一本书，然后拿着这些锤子去找钉子吗？
不够细致，实战案例太少，方法理论倒是很多

内容介绍

本书分为三篇。第壹篇：从整体上给出数据大图和数据平台大图，主要介绍数据的主要流程、各个流程的关键技术、数据的主要从业者及他们的职责等；数据平台大图分离线和实时分别给出数据平台架构、关键数据概念和技术等；第二篇：介绍离线数据开发的主要技术，包含Hadoop、Hive、维度建模等，另外此部分还将综合上述各种离线技术给出离线数据处理实战；第三篇：集中介绍实时数据处理的各项技术，包含Storm、SparkSteaming、Flink、Beam等。

前言
第一篇　数据大图和数据平台大图
第1章　数据大图 2
第2章　数据平台大图 18
第二篇　离线数据开发：大数据开发的主战场
第3章　Hadoop原理实践 38
第4章　Hive原理实践 53
第5章　Hive优化实践 77
第6章　维度建模技术实践 90
第7章　Hadoop数据仓库开发实战 111
第三篇　实时数据开发：大数据开发的未来
第8章　Storm流计算开发 127
第9章　Spark Streaming流计算开发 151
第10章　Flink流计算开发 167
第11章　Beam技术 189
第12章　Stream SQL实时开发实战 206
参考文献 224

资源获取

高速下载(提取码：2ngb)

网友留言

贾绍元 2019-06-07 22:54:23

Spark有哪两种算子？我：Transformation（转化）算子和Action（执行）算子。 Spark提交你的jar包时所用的命令是什么？我：submit。面试官：spark-submit？我：嗯，spark-submit。 Spark有哪些聚合类的算子,我们应该尽量避免什么类型的算子？我：aggeragate 面试官：还有呢？我：记不清了。。。面试官：还有你刚刚写的那个groupByKey哈

司佳莉 2019-06-07 22:53:54

MapReduce采用"分而治之"的思想，把对大规模数据集的操作，分发给一个主节点管理下的各个分节点共同完成，然后通过整合各个节点的中间结果，得到最终结果。简单地说，MapReduce就是"任务的分解与结果的汇总"。在Hadoop中，用于执行MapReduce任务的机器角色有两个：一个是JobTracker；另一个是TaskTracker，JobTracker是用于调度工作的，TaskTracker是用于执行工作的。一个Hadoop集群中只有一台JobTracker。在分布式计算中，MapReduce框架负责处理了并行编程中分布式存储、工作调度、负载均衡、容错均衡、容错处理以及网络通信等复杂问题，把处理过程高度抽象为两个函数：map和reduce，map负责把任务分解成多个任务，reduce负责把分解后多任务处理的结果汇总起来。需要注意的是，用MapReduce来处理的数据集（或任务）必须具备这样的特点：待处理的数据集可以分解成许多小的数据集，而且每一个小数据集都可以完全并行地进行处理。