反馈 / 投诉
-
离线和实时大数据开发实战 PDF 超清版
2023-08-13 16:05:37 类别:大数据
-
扫二维码手机浏览
资源介绍
给大家整理一篇大数据相关的 PDF电子书资料,由机械工业出版社出版,作者是朱松岭,介绍了关于大数据、数据结构方面,格式为PDF,资源大小76.8 MB,目前在大数据类资源综合评分为:8.1分。
离线和实时大数据开发实战 电子书封面
读者评价
入门读物,了解大数据开发的相关生态和一些基本概念,没有深入实战与细节,不过对我来说够了。只看了工作中相关的一些章节
粗略扫了一遍。作者的技术真的非常牛,但是这本书写得很一般。 只讲实用有效的“招式”,作者如是说。。。读起来很无味。技术的宽度也不够,比如第三章的mapreduce,描述还是第一代的架构,本身的几个步骤也没讲对。书名为“实战”,但是每个技术适合的应用场景是什么?一堆技术堆成一本书,然后拿着这些锤子去找钉子吗?
不够细致,实战案例太少,方法理论倒是很多
内容介绍
本书分为三篇。第壹篇:从整体上给出数据大图和数据平台大图,主要介绍数据的主要流程、各个流程的关键技术、数据的主要从业者及他们的职责等;数据平台大图分离线和实时分别给出数据平台架构、关键数据概念和技术等;第二篇:介绍离线数据开发的主要技术,包含Hadoop、Hive、维度建模等,另外此部分还将综合上述各种离线技术给出离线数据处理实战;第三篇:集中介绍实时数据处理的各项技术,包含Storm、SparkSteaming、Flink、Beam等。
目录
- 前言
- 第一篇 数据大图和数据平台大图
- 第1章 数据大图 2
- 第2章 数据平台大图 18
- 第二篇 离线数据开发:大数据开发的主战场
- 第3章 Hadoop原理实践 38
- 第4章 Hive原理实践 53
- 第5章 Hive优化实践 77
- 第6章 维度建模技术实践 90
- 第7章 Hadoop数据仓库开发实战 111
- 第三篇 实时数据开发:大数据开发的未来
- 第8章 Storm流计算开发 127
- 第9章 Spark Streaming流计算开发 151
- 第10章 Flink流计算开发 167
- 第11章 Beam技术 189
- 第12章 Stream SQL实时开发实战 206
- 参考文献 224
以上就是本次关于书籍资源的介绍和部分内容,我们还整理了以往更新的其它相关电子书资源内容,可以在下方直接下载,关于相关的资源我们在下方做了关联展示,需要的朋友们也可以参考下。
- 上一篇:高效算法:竞赛、应试与提高必修128例
- 下一篇:码农翻身
下载地址
下载地址:网盘下载
大数据相关资源
学习心得
欢迎发表评论:
- 最新更新
-
1
高效算法:竞赛、应试与提高必修128例 PDF电子书
类别:Python算法
-
2
RocketMQ实战与原理解析 PDF电子书
类别:RocketMQ
-
3
最强Android书:架构大剖析 PDF电子书
类别:Android
-
4
iOS程序员面试笔试宝典 PDF电子书
类别:iOS面试
-
5
Kotlin从入门到进阶实战 PDF电子书
类别:Kotlin
-
6
Vue.js实战 PDF电子书
类别:Vue
-
7
Kubernetes in Action PDF电子书
类别:Kubernetes
-
8
Spring MVC+MyBatis快速开发与项目实战 PDF电子书
类别:spring
-
9
计算机科学精粹 PDF电子书
类别:计算机理论
- 资料推荐
-
- 07-17Visual C++黑客编程揭秘与防范 PDF电子书
- 03-26C语言程序设计 课后答案
- 07-10TortoiseSVN中文文档 编程资源
- 12-24《Visual Basic.NET程序设计基础》教案,源代码
- 09-19Rust实战 计算机书籍
- 07-30C语言深度解剖:解开程序员面试笔试的秘密 PDF电子书
- 02-05Excel 2003中文电子表格(第2版) 计算机书籍
- 08-20Web接口开发与自动化测试:基于Python语言 PDF电子书
- 06-13深入理解OSGi:Equinox原理、应用与最佳实践 PDF电子书
- 05-21c++语言基础教程 课后答案
Spark有哪两种算子? 我:Transformation(转化)算子和Action(执行)算子。 Spark提交你的jar包时所用的命令是什么? 我:submit。 面试官:spark-submit? 我:嗯,spark-submit。 Spark有哪些聚合类的算子,我们应该尽量避免什么类型的算子? 我:aggeragate 面试官:还有呢? 我:记不清了。。。 面试官:还有你刚刚写的那个groupByKey哈
MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是"任务的分解与结果的汇总"。 在Hadoop中,用于执行MapReduce任务的机器角色有两个:一个是JobTracker;另一个是TaskTracker,JobTracker是用于调度工作的,TaskTracker是用于执行工作的。一个Hadoop集群中只有一台JobTracker。 在分布式计算中,MapReduce框架负责处理了并行编程中分布式存储、工作调度、负载均衡、容错均衡、容错处理以及网络通信等复杂问题,把处理过程高度抽象为两个函数:map和reduce,map负责把任务分解成多个任务,reduce负责把分解后多任务处理的结果汇总起来。 需要注意的是,用MapReduce来处理的数据集(或任务)必须具备这样的特点:待处理的数据集可以分解成许多小的数据集,而且每一个小数据集都可以完全并行地进行处理。