当前位置:首页 > 数据库 >
《数据架构:大数据、数据仓库以及Data Vault》电子书封面

数据架构:大数据、数据仓库以及Data Vault

  • 发布时间:2019年10月18日 08:51:42
  • 作者:威廉 H 英蒙
  • 大小:52.8 MB
  • 类别:数据架构电子书
  • 格式:PDF
  • 版本:影印中文版
  • 评分:8.7

    数据架构:大数据、数据仓库以及Data Vault PDF 影印中文版

      给大家带来的一篇关于数据架构相关的电子书资源,介绍了关于数据架构、大数据、数据仓库、Data、Vault方面的内容,本书是由人民邮电出版社出版,格式为PDF,资源大小52.8 MB,威廉 H 英蒙编写,目前豆瓣、亚马逊、当当、京东等电子书综合评分为:7.8。

      内容介绍

      数据架构:大数据、数据仓库以及Data Vault pdf

      依靠很多年的社会经验,选用很多实例和便于了解的架构,W.H. Inmon和Daniel Linstedt精确表述了统计数据构架的关键实际意义,科学研究了怎么使用它在现有系统软件中高效率掌控互联网大数据。

      讨论了互联网大数据中常常被忽略的使用价值,科学研究了非反复型统计数据,而且论述了为何它的应用会产生明显的业务流程使用价值

      展现了如何把文字信息内容转化成规范专用工具能够剖析的方式

      表述了怎样使互联网大数据适用现有系统软件自然环境

      详细介绍了互联网大数据的出現所产生的机遇与挑战

      回应了互联网大数据中反复型统计数据和非反复型统计数据的不确立的地方

      这书是数据仓库鼻祖Inmon的大作,讨论统计数据的构架和怎样在目前系统软件中合理地运用统计数据。这书的主题风格包含业务数据、互联网大数据、数据仓库、Data Vault、业务管理系统和构架。主题思想包含:在剖析和互联网大数据中间创建关系,怎样运用目前信息管理系统,怎样导出来反复型统计数据和非反复型统计数据,互联网大数据及其应用互联网大数据的经济收益,这些。

      目录

      • 第1章 企业数据 1
      • 1.1 企业数据 1
      • 1.1.1 企业的全体数据 1
      • 1.1.2 非结构化数据的划分 2
      • 1.1.3 业务相关性 3
      • 1.1.4 大数据 3
      • 1.1.5 分界线 4
      • 1.1.6 大陆分水岭 5
      • 1.1.7 企业数据全貌 6
      • 1.2 数据基础设施 6
      • 1.2.1 重复型数据的两种类型 7
      • 1.2.2 重复型结构化数据 7
      • 1.2.3 重复型大数据 8
      • 1.2.4 两种基础设施 9
      • 1.2.5 优化了什么 10
      • 1.2.6 对比两种基础设施 11
      • 1.3 分界线 12
      • 1.3.1 企业数据分类 12
      • 1.3.2 分界线 12
      • 1.3.3 重复型非结构化数据 13
      • 1.3.4 非重复型非结构化数据 15
      • 1.3.5 不同的领域 17
      • 1.4 企业数据统计图 17
      • 1.5 企业数据分析 22
      • 1.6 数据的生命周期——随时间推移理解数据 27
      • 1.7 数据简史 31
      • 1.7.1 纸带和穿孔卡片 31
      • 1.7.2 磁带 32
      • 1.7.3 磁盘存储器 32
      • 1.7.4 数据库管理系统 32
      • 1.7.5 耦合处理器 33
      • 1.7.6 在线事务处理 33
      • 1.7.7 数据仓库 34
      • 1.7.8 并行数据管理 34
      • 1.7.9 Data Vault 35
      • 1.7.10 大数据 35
      • 1.7.11 分界线 35
      • 第2章 大数据 37
      • 2.1 大数据简史 37
      • 2.1.1 打个比方——占领制高点 37
      • 2.1.2 占领制高点 38
      • 2.1.3 IBM360带来的标准化 38
      • 2.1.4 在线事务处理 39
      • 2.1.5 Teradata的出现和大规模并行处理 39
      • 2.1.6 随后到来的Hadoop和大数据 39
      • 2.1.7 IBM和Hadoop 39
      • 2.1.8 控制制高点 40
      • 2.2 大数据是什么 40
      • 2.2.1 另一种定义 40
      • 2.2.2 大数据量 40
      • 2.2.3 廉价存储器 41
      • 2.2.4 罗马人口统计方法 41
      • 2.2.5 非结构化数据 42
      • 2.2.6 大数据中的数据 42
      • 2.2.7 重复型数据中的语境 43
      • 2.2.8 非重复型数据 44
      • 2.2.9 非重复型数据中的语境 44
      • 2.3 并行处理 45
      • 2.4 非结构化数据 50
      • 2.4.1 随处可见的文本信息 50
      • 2.4.2 基于结构化数据的决策 51
      • 2.4.3 业务价值定位 51
      • 2.4.4 重复型和非重复型的非结构化信息 52
      • 2.4.5 易于分析 53
      • 2.4.6 语境化 54
      • 2.4.7 一些语境化方法 55
      • 2.4.8 MapReduce 56
      • 2.4.9 手工分析 56
      • 2.5 重复型非结构化数据的语境化 57
      • 2.5.1 解析重复型非结构化数据 57
      • 2.5.2 重组输出数据 58
      • 2.6 文本消歧 58
      • 2.6.1 从叙事到分析数据库 58
      • 2.6.2 文本消歧的输入 59
      • 2.6.3 映射 60
      • 2.6.4 输入 输出 61
      • 2.6.5 文档分片 指定值处理 61
      • 2.6.6 文档预处理 62
      • 2.6.7 电子邮件——一个特例 62
      • 2.6.8 电子表格 63
      • 2.6.9 报表反编译 63
      • 2.7 分类法 65
      • 2.7.1 数据模型和分类法 65
      • 2.7.2 分类法的适用性 66
      • 2.7.3 分类法是什么 66
      • 2.7.4 多语言分类法 68
      • 2.7.5 分类法与文本消歧的动态 68
      • 2.7.6 分类法和文本消歧——不同的技术 69
      • 2.7.7 分类法的不同类型 70
      • 2.7.8 分类法——随时间推移不断维护 70
      • 第3章 数据仓库 71
      • 3.1 数据仓库简史 71
      • 3.1.1 早期的应用程序 71
      • 3.1.2 在线应用程序 71
      • 3.1.3 抽取程序 72
      • 3.1.4 4GL技术 73
      • 3.1.5 个人电脑 73
      • 3.1.6 电子表格 74
      • 3.1.7 数据完整性 75
      • 3.1.8 蛛网系统 76
      • 3.1.9 维护积压 77
      • 3.1.10 数据仓库 78
      • 3.1.11 走向架构式环境 78
      • 3.1.12 走向企业信息工厂 78
      • 3.1.13 DW 2.0 79
      • 3.2 集成的企业数据 81
      • 3.2.1 数量众多的应用程序 81
      • 3.2.2 放眼企业 82
      • 3.2.3 多个分析师 83
      • 3.2.4 ETL技术 84
      • 3.2.5 集成的挑战 86
      • 3.2.6 数据仓库的效益 86
      • 3.2.7 粒度的视角 87
      • 3.3 历史数据 89
      • 3.4 数据集市 92
      • 3.4.1 颗粒化的数据 92
      • 3.4.2 关系数据库设计 93
      • 3.4.3 数据集市 93
      • 3.4.4 关键性能指标 94
      • 3.4.5 维度模型 94
      • 3.4.6 数据仓库和数据集市的整合 95
      • 3.5 作业数据存储 96
      • 3.5.1 集成数据的在线事务处理 96
      • 3.5.2 作业数据存储 97
      • 3.5.3 ODS和数据仓库 98
      • 3.5.4 ODS分类 99
      • 3.5.5 将外部数据更新到ODS 99
      • 3.5.6 ODS 数据仓库接口 100
      • 3.6 对数据仓库的误解 101
      • 3.6.1 一种简单的数据仓库架构 101
      • 3.6.2 在数据仓库中进行在线高性能事务处理 101
      • 3.6.3 数据完整性 102
      • 3.6.4 数据仓库工作负载 102
      • 3.6.5 来自数据仓库的统计处理 103
      • 3.6.6 统计处理的频率 104
      • 3.6.7 探查仓库 104
      • 第4章 Data Vault 106
      • 4.1 Data Vault简介 106
      • 4.1.1 Data Vault 2.0建模 107
      • 4.1.2 Data Vault 2.0方法论定义 107
      • 4.1.3 Data Vault 2.0架构 107
      • 4.1.4 Data Vault 2.0实施 108
      • 4.1.5 Data Vault 2.0商业效益 108
      • 4.1.6 Data Vault 1.0 109
      • 4.2 Data Vault建模介绍 110
      • 4.2.1 Data Vault模型概念 110
      • 4.2.2 Data Vault模型定义 110
      • 4.2.3 Data Vault模型组件 111
      • 4.2.4 Data Vault和数据仓库 112
      • 4.2.5 转换到Data Vault建模 112
      • 4.2.6 数据重构 113
      • 4.2.7 Data Vault建模的基本规则 114
      • 4.2.8 为什么需要多对多链接结构 114
      • 4.2.9 散列键代替顺序号 115
      • 4.3 Data Vault架构介绍 116
      • 4.3.1 Data Vault 2.0架构 116
      • 4.3.2 如何将NoSQL适用于本架构 117
      • 4.3.3 Data Vault 2.0架构的目标 117
      • 4.3.4 Data Vault 2.0建模的目标 118
      • 4.3.5 软硬业务规则 118
      • 4.3.6 托管式SSBI与DV2架构 119
      • 4.4 Data Vault方法论介绍 120
      • 4.4.1 Data Vault 2.0方法论概述 120
      • 4.4.2 CMMI和Data Vault 2.0方法论 120
      • 4.4.3 CMMI与敏捷性的对比 122
      • 4.4.4 项目管理实践和SDLC与CMMI和敏捷的对比 123
      • 4.4.5 六西格玛和Data Vault 2.0方法论 123
      • 4.4.6 全质量管理 124
      • 4.5 Data Vault实施介绍 125
      • 4.5.1 实施概述 125
      • 4.5.2 模式的重要性 126
      • 4.5.3 再造工程和大数据 127
      • 4.5.4 虚拟化我们的数据集市 128
      • 4.5.5 托管式自助服务BI 128
      • 第5章 作业环境 130
      • 5.1 作业环境——简史 130
      • 5.1.1 计算机的商业应用 130
      • 5.1.2 最初的应用程序 131
      • 5.1.3 Ed Yourdon和结构化革命 132
      • 5.1.4 系统开发生命周期 132
      • 5.1.5 磁盘技术 132
      • 5.1.6 进入数据库管理系统时代 133
      • 5.1.7 响应时间和可用性 133
      • 5.1.8 现代企业计算 136
      • 5.2 标准工作单元 136
      • 5.2.1 响应时间要素 136
      • 5.2.2 沙漏的比喻 137
      • 5.2.3 车道的比喻 138
      • 5.2.4 你的车跑得跟前面的车一样快 139
      • 5.2.5 标准工作单元 139
      • 5.2.6 服务等级协议 139
      • 5.3 面向结构化环境的数据建模 140
      • 5.3.1 路线图的作用 140
      • 5.3.2 只要粒度化的数据 140
      • 5.3.3 实体关系图 141
      • 5.3.4 数据项集 142
      • 5.3.5 物理数据库设计 143
      • 5.3.6 关联数据模型的不同层次 143
      • 5.3.7 数据联动的示例 144
      • 5.3.8 通用数据模型 146
      • 5.3.9 作业数据模型和数据仓库数据模型 146
      • 5.4 元数据 146
      • 5.4.1 典型元数据 146
      • 5.4.2 存储库 147
      • 5.4.3 使用元数据 148
      • 5.4.4 元数据用于分析 149
      • 5.4.5 查看多个系统 150
      • 5.4.6 数据谱系 150
      • 5.4.7 比较已有系统和待建系统 150
      • 5.5 结构化数据的数据治理 151
      • 5.5.1 企业活动 151
      • 5.5.2 数据治理的动机 152
      • 5.5.3 修复数据 152
      • 5.5.4 粒度化的详细数据 153
      • 5.5.5 编制文档 153
      • 5.5.6 数据主管岗位 154
      • 第6章 数据架构 156
      • 6.1 数据架构简史 156
      • 6.2 大数据 已有系统的接口 166
      • 6.2.1 大数据 已有系统的接口 166
      • 6.2.2 重复型原始大数据 已有系统接口 167
      • 6.2.3 基于异常的数据 168
      • 6.2.4 非重复型原始大数据 已有系统接口 169
      • 6.2.5 进入已有系统环境 170
      • 6.2.6 “语境丰富”的大数据环境 171
      • 6.2.7 将结构化数据 非结构化数据放在一起分析 172
      • 6.3 数据仓库 作业环境接口 172
      • 6.3.1 作业环境 数据仓库接口 172
      • 6.3.2 经典的ETL接口 173
      • 6.3.3 作业数据存储 ETL接口 173
      • 6.3.4 集结区 174
      • 6.3.5 变化数据的捕获 175
      • 6.3.6 内联转换 175
      • 6.3.7 ELT处理 176
      • 6.4 数据架构——一种高层视角 177
      • 6.4.1 一种高层视角 177
      • 6.4.2 冗余 177
      • 6.4.3 记录系统 178
      • 6.4.4 不同的群体 180
      • 第7章 重复型分析 181
      • 7.1 重复型分析——必备基础 181
      • 7.1.1 不同种类的分析 181
      • 7.1.2 寻找模式 182
      • 7.1.3 启发式处理 183
      • 7.1.4 沙箱 186
      • 7.1.5 标准概况 187
      • 7.1.6 提炼、筛选 188
      • 7.1.7 建立数据子集 188
      • 7.1.8 筛选数据 190
      • 7.1.9 重复型数据和语境 192
      • 7.1.10 链接重复型记录 193
      • 7.1.11 日志磁带记录 193
      • 7.1.12 分析数据点 194
      • 7.1.13 按时间的推移研究数据 195
      • 7.2 分析重复型数据 196
      • 7.2.1 日志数据 198
      • 7.2.2 数据的主动 被动式索引 199
      • 7.2.3 汇总 详细数据 200
      • 7.2.4 大数据中的元数据 202
      • 7.2.5 相互关联的数据 203
      • 7.3 重复型分析 204
      • 7.3.1 内部、外部数据 204
      • 7.3.2 通用标识符 205
      • 7.3.3 安全性 205
      • 7.3.4 筛选、提炼 207
      • 7.3.5 归档结果 208
      • 7.3.6 指标 210
      • 第8章 非重复型分析 211
      • 8.1 非重复型数据 211
      • 8.1.1 内联语境化 213
      • 8.1.2 分类法 本体处理 214
      • 8.1.3 自定义变量 215
      • 8.1.4 同形异义消解 216
      • 8.1.5 缩略语消解 217
      • 8.1.6 否定分析 218
      • 8.1.7 数字标注 219
      • 8.1.8 日期标注 220
      • 8.1.9 日期标准化 220
      • 8.1.10 列表的处理 220
      • 8.1.11 联想式词处理 221
      • 8.1.12 停用词处理 222
      • 8.1.13 提取单词词根 222
      • 8.1.14 文档元数据 223
      • 8.1.15 文档分类 223
      • 8.1.16 相近度分析 224
      • 8.1.17 文本ETL中功能的先后顺序 225
      • 8.1.18 内部参照完整性 225
      • 8.1.19 预处理、后处理 226
      • 8.2 映射 227
      • 8.3 分析非重复型数据 229
      • 8.3.1 呼叫中心信息 229
      • 8.3.2 医疗记录 237
      • 第9章 作业分析1 242
      • 第10章 作业分析2 249
      • 第11章 个人分析 259
      • 第12章 复合式的数据架构 264
      • 词汇表 268

      学习笔记

      基于MySQL数据库复制Master-Slave架构的分析

      为了应用系统的可伸缩性,往往需要对数据库进行scale out设计,scale out设计也就是通过增加数据库处理节点来提高系统整体的处理能力,即增加数据库服务器的数量来分担压力。通过这种方式系统的伸缩性增强了,成本也降低了,但是系统的架构复杂了,维护困难了。难免出现系统的宕机或故障。因此,理论上来说,系统的安全性(可能数据丢失)降低了,可用性也降低了。那么要提高数据安全性,以及系统的高可用性,很简单的办法就是所有软硬件都避免单点隐患,所有数据都保存多份。从技术上来说,就可以通过数据库复制技术实现。MySQL的Replication技术就是数据库复制的实现手段之一。 关于MyS……

      美团DB数据同步到数据仓库的架构与实践

      背景 在数据仓库建模中,未经任何加工处理的原始业务层数据,我们称之为ODS(Operational Data Store)数据。在互联网企业中,常见的ODS数据有业务日志数据(Log)和业务DB数据(DB)两类。对于业务DB数据来说,从MySQL等关系型数据库的业务数据进行采集,然后导入到Hive中,是进行数据仓库生产的重要环节。 如何准确、高效地把MySQL数据同步到Hive中?一般常用的解决方案是批量取数并Load:直连MySQL去Select表中的数据,然后存到本地文件作为中间存储,最后把文件Load到Hive表中。这种方案的优点是实现简单,但是随着业务的发展,缺点也逐渐暴露出来: 性能瓶颈:随着业务规模的增长,Select From MySQL - Save to……

      mysql数据库应付大流量网站的的3种架构扩展方式介绍

      数据库扩展大概分为以下几个步骤: 1、读写分离: 当数据库访问量还不是很大的时候,我们可以适当增加服务器,数据库主从复制的方式将读写分离; 2、垂直分区: 当写入操作一旦增加的时候,那么主从数据库将花更多的时间的放在数据同步上,这个时候服务器也是不堪重负的;那么就有了数据的垂直分区,数据的垂直分区思路是将写入操作比较频繁的数据表,如用户表_user,或者订单表_orders,那么我们就可以把这个两个表分离出来,放在不同的服务器,如果这两个表和其他表存在联表查询,那么就只能把原来的sql语句给拆分了,先查询一个表,在查询另一个,虽然说这个会消耗更过性能,但比起那……

      以上就是本次介绍的数据架构电子书的全部相关内容,希望我们整理的资源能够帮助到大家,感谢大家对码农之家的支持。

      上一篇:区块链原理、设计与应用

      下一篇:图解算法

      展开 +

      收起 -

      • 《数据架构:大数据、数据仓库以及Data Vault》PDF下载

      数据架构相关电子书
      流式架构:Kafka与MapR Streams数据流处理
      流式架构:Kafka与MapR Streams数据流处理 影印超清版

      所有连续的事件流都可以称为数据流。对连续数据流设计和构建流式数据架构,能够实现实时或近实时应用,提升整个组织的效率。《流式架构:Kafka与MapR Streams数据流处理》以Apache Kafka 和M

      立即下载
      大数据架构师指南
      大数据架构师指南 高清版

      如果你是一名IT工程师,首席技术官(CTO)希望 你在一周内提交一份公司未来IT系统基础架构的初步 建议;如果你是一位IT营销人员,客户需要你在一周 内向他汇报未来大数据系统的大致技术方向

      立即下载
      大数据技术体系详解:原理、架构与实践
      大数据技术体系详解:原理、架构与实践 全书超清版

      本书系统、深度讲解大数据技术栈,包含数据收集、数据存储、资源管理与服务协调、计算引擎、数据分析、数据可视化6个层次讲解了整个大数据技术体系中所有核心技术的原理、架构与实践

      立即下载
      大数据架构详解:从数据获取到深度学习
      大数据架构详解:从数据获取到深度学习 高清版

      《大数据架构详解:从数据获取到深度学习》 从架构、业务、技术三个维度深入浅出地介绍了大数据处理领域端到端的知识。主要内容包括三部分:第一部分从数据的产生、采集、计算、存储

      立即下载
      分布式数据库架构及企业实践:基于Mycat中间件
      分布式数据库架构及企业实践:基于Mycat中间件 高清版

      分布式数据库架构及企业实践基于Mycat中间件 由资深 Mycat 专家及一线架构师、DBA 编写而成。全书总计 8 章,首先简单介绍了分布式系统和分布式数据库的需求,然后讲解了分布式数据库的实现

      立即下载
      企业级大数据平台构建:架构与实现
      企业级大数据平台构建:架构与实现 完整影印版

      完整的介绍了构建一个真实可用、安全可靠的企业级大数据平台所需要运用的知识体系,及构建的具体步骤和方法,手把手教你如何拉通Hadoop体系技术栈,欢迎下载

      立即下载
      读者留言
      dengyisheng

      dengyisheng 提供上传

      资源
      41
      粉丝
      7
      喜欢
      189
      评论
      19

      Copyright 2018-2020 xz577.com 码农之家

      本站所有电子书资源不再提供下载地址,只分享来路

      版权投诉 / 书籍推广 / 赞助:QQ:520161757