
云数据平台:设计、实现与管理
- 大小:16.3 MB
- 类型:云数据
- 格式:PDF
- 出版:机械工业出版社
- 作者:丹尼尔·兹布里夫斯基
- 更新:2022-09-14 08:43:53

编辑推荐 本书介绍如何设计既可伸缩又足够灵活的云数据平台,以应对不可避免的技术变化。你将了解云数据平台设计的核心组件,以及Spark和Kafka流等关键技术。你还将探索如何设置流程来管理基于云的数据、确保数据的安全,并使用高级分析和BI工具对数据进行分析。本书旨在帮助企业通过现代云数据平台使用所有数据的业务集成视图,并利用先进的分析实践来驱动预测和数据服务。本书总结了不同的数据消费者如何使用平台中的数据,并讨论了影响云数据平台项目成功的常见业务问题。 内容简介 本书是一本针对设计充分利用云灵活性的现代可伸缩数据平台的实践指南。你将了解云数据平台设计的核心组件,以及Spark和Kafka流等关键技术的作用。你还将探索如何设置流程来管理基于云的数据,确保数据的安全,并使用高级分析和BI工具对数据进行分析。本书旨在帮助企业通过现代云数据平台使用所有数据的业务集成视图,并利用先进的分析实践来驱动预测和迄今无法想象的数据服务。 目录 前言 致谢 引言 第1章 数据平台介绍1 1.1 从数据仓库向数据平台转变背后的趋势2 1.2 数据仓库与数据的多样性、规模和速度3 1.2.1 多样性3 1.2.2 规模4 1.2.3 速度5 1.2.4 所有的V同时出现5 1.3 数据湖6 1.4 云来了7 1.5 云、数据湖、数据仓库:云数据平台的出现9 1.6 云数据平台的构建块9 1.6.1 摄取层10 1.6.2 存储层10 1.6.3 处理层11 1.6.4 服务层13 1.7 云数据平台如何处理这三个V14 1.7.1 多样性14 1.7.2 规模14 1.7.3 速度15 1.7.4 另外两个V15 1.8 常见用例16 第2章 为什么是数据平台而不仅仅是数据仓库18 2.1 云数据平台和云数据仓库的实践19 2.1.1 近距离观察数据源20 2.1.2 云数据仓库纯架构示例21 2.1.3 云数据平台架构示例22 2.2 摄取数据24 2.2.1 将数据直接摄取到Azure Synapse24 2.2.2 将数据摄取到Azure数据平台25 2.2.3 管理上游数据源的变化26 2.3 处理数据28 2.3.1 处理数据仓库中的数据29 2.3.2 处理数据平台上的数据31 2.4 访问数据32 2.5 云成本方面的考虑34 2.6 练习答案36 第3章 不断壮大并利用三巨头:Amazon、Microsoft Azure和Google37 3.1 云数据平台分层架构38 3.1.1 数据摄取层40 3.1.2 快存储和慢存储43 3.1.3 处理层45 3.1.4 技术元数据层47 3.1.5 服务层和数据消费者48 3.1.6 编排层和ETL覆盖层52 3.2 数据平台架构中层的重要性57 3.3 将云数据平台层映射到特定工具59 3.3.1 AWS61 3.3.2 Google Cloud65 3.3.3 Azure70 3.4 开源和商业替代方案73 3.4.1 批量数据摄取74 3.4.2 流数据摄取和实时分析74 3.4.3 编排层75 3.5 练习答案77 第4章 将数据导入平台78 4.1 数据库、文件、API和流79 4.1.1 关系型数据库80 4.1.2 文件81 4.1.3 通过API的SaaS数据81 4.1.4 流82 4.2 从关系型数据库中摄取数据83 4.2.1 使用SQL接口从RDBMS摄取数据83 4.2.2 全表摄取85 4.2.3 增量表摄取90 4.2.4 变更数据捕获94 4.2.5 CDC供应商概述98 4.2.6 数据类型转换100 4.2.7 从NoSQL数据库摄取数据102 4.2.8 为RDBMS或NoSQL摄取管道捕获重要的元数据104 4.3 从文件中摄取数据107 4.3.1 跟踪已摄取的文件109 4.3.2 捕获文件摄取元数据112 4.4 从流中摄取数据113 4.4.1 批量摄取和流摄取的区别117 4.4.2 捕获流管道元数据118 4.5 从SaaS应用程序摄取数据119 4.5.1 没有标准的API设计方法121 4.5.2 没有标准的方法来处理全数据导出和增量数据导出121 4.5.3 结果数据通常是高度嵌套的JSON122 4.6 将数据摄取到云中需要考虑的网络和安全问题122 4.7 练习答案125 第5章 组织和处理数据126 5.1 在数据平台中作为单独的层进行处理127 5.2 数据处理阶段129 5.3 组织你的云存储130 5.4 通用数据处理步骤137 5.4.1 文件格式转换137 5.4.2 重复数据清除142 5.4.3 数据质量检查147 5.5 可配置的管道149 5.6 练习答案152 第6章 实时数据处理和分析153 6.1 实时摄取与实时处理154 6.2 实时数据处理用例156 6.2.1 零售用例:实时摄取156 6.2.2 线上游戏用例:实时摄取和实时处理158 6.2.3 实时摄取与实时处理的总结160 6.3 什么时候应该使用实时摄取或实时处理161 6.4 为实时使用组织数据163 6.4.1 对快存储的解剖163 6.4.2 快存储是如何扩展的166 6.4.3 在实时存储中组织数据168 6.5 通用的实时数据转换173 6.5.1 实时系统中数据重复的原因173 6.5.2 实时系统中的数据重复清除176 6.5.3 在实时管道中转换消息格式181 6.5.4 实时数据质量检查182 6.5.5 将批量数据与实时数据相结合183 6.6 用于实时数据处理的云服务184 6.6.1 AWS实时处理服务185 6.6.2 Google Cloud实时处理服务186 6.6.3 Azure实时处理服务188 6.7 练习答案1
相关资源
-
《从0到1:HTML5 Canvas动画开发》PPT,动态图,总结
作者根据自己多年的前后端开发经验,详尽介绍了HTML5 Canvas 动画开发技术。 《从0到1 HTML5 Canvas动画开发》分为两大部分:第一部分介绍Canvas 基础知识,主要包括Canvas 概述、直线图形、曲线图形、线条操作、文本操作、图片操作、变形操作、像素操作、渐变与阴影、Canvas 路径、Canvas 状态及其他应用; 第二部分介绍Canvas 进阶知识,主要包括事件操作、物理动画、边界检测、碰撞检测、用户交互、高级动画、Canvas 游戏开发、Canvas 图表库。 此外,本书还
大小:11 MBHTML5配套资源
-
图论 课后答案
《21世纪高等院校教材:图论》系统阐述图论与算法图论的基本概念、理论、算法及其应用,建立图的重要矩阵与线性空间,论述计算复杂度理论中的NP完全性理论和的一些NPC问题等。《21世纪高等院校教材:图论》概念明确、立论严谨,语言流畅生动,注重算法分析及其有效性;内容全面深入,可读与可教性强,是一部理想的图论基础性著作。 目录 章 图 1.1 从哥尼斯堡七桥问题谈起 1.2 图的基本概念 1.3 轨道和圈 1.4 Brouwer不动点定理 1.5 求短轨长度的算
大小:723 KB图论课后答案
-
《Photoshop CS3基础教程(第2版)》素材
内容简介 《PhotoshopCS3基础教程(第2版)》以基本命令和功能为主线,全面系统地介绍利用PhotoshopCS3中文版进行图像处理以及平面设计的基本方法,具有较强的实用性和参考价值。全书共分9个项目,内容包括Photoshop基础知识和基本操作、绘制基本图形、图像编辑处理、图层和蒙版应用、路径应用、滤镜应用、图像色彩处理、通道应用、网站主页设计等。 《PhotoshopCS3基础教程(第2版)》适合作为计算机技能型紧缺人才培养规划以及中职学校相关课程的教
大小:408.05 MBPhotoshop配套资源
-
Sharding-Jdbc在springboot中配置
大小:2.5 MBspringboot
-
Prometheus非官方中文手册
这是一个Prometheus官网的非官方中文手册,旨在为大家提供一个比较容易入手的文档。这是一个简单的入门指南,使用简单的例子,向大家演示怎么样安装、配置和操作使用Prometheus等。需要的朋友可下载试试! Prometheus是一个开源监控系统,它前身是SoundCloud的警告工具包。目前它是一个独立的开源项目,且不依赖与任何公司。 为了强调这点和明确该项目治理结构,Prometheus在2016年继Kurberntes之后,加入了Cloud Native Computing Foundation
大小:1.2 MBPrometheus
-
C语言程序设计(第三版) 课后答案
机实训、习题与解答、考试指南和题库练习系统、附录4个部分。第1部分包括Turbo C 2.0和Visual C++ 6.0环境介绍、与主教材配套的12章实训内容、两个综合实训;第2部分列出主教材所有习题并给出参考答案,并精选一些典型习题且给出分析与解答;第3部分包括对全国高校计算机水平考试、全国计算机等级考试的笔试和上机考试介绍与指导,以及题库练习系统使用方法介绍;第4部分附录包括动态内存分配和链表、变量跟踪法、等级考试和水平考试样卷、实训
大小:1.38 MBC语言课后答案
-
《OpenGL超级宝典(第4版)》配套资源
编辑推荐 本书开篇详细讲解OpenGL图形编程的核心技术,覆盖了从空间中进行绘制到几何变换,从光照到纹理贴图等内容。书中讲解了新的OpenGL功能,包括OpenGL 2.1的强大可编程管线、定点和片段着色和高级缓冲区。书中还包含了对多种平台上的OpenGL实现的*介绍,这些平台包括Windows、Mac OS X、Linux和嵌入式系统。 内容简介 本书是OpenGL及3D图形编程最好的入门指南,涵盖了使用*版本的OpenGL进行编程所需要的主要知识。 全书分3个部分,共22章,另有3个附录。
大小:389.6 KBOpenGL配套资源
-
计算机三级网络技术知识点汇总
三级网络技术是全国计算机等级考试中三级的一种。它要求三级网络技术合格考生应具备计算机网络通信的基础知识,熟悉局域网、广域网的原理以及安全维护方法,掌握因特网(INTERNET)应用的基本技能,具备从事机关、企事业单位组网、管理以及开展信息网络化的能力。 部分内容如下 1 核心交换层的基本功能 2 核心交换层将多个汇聚层连接起来,为汇聚层的网络提供高速转发,为整个城域网提供一个高速、安全与具有QoS 3 保障能力的数据传输环境 4 核
大小:1.3 MB网络技术
参与送书
相关声明: