数据密集型应用系统设计

更新：2024-03-20
大小：29.2 MB
类别：系统设计
作者：马丁
出版：中国电力出版社
版本：PDF 中文超清版

资源介绍
相关推荐

《数据密集型应用系统设计》是一本经历剑桥大学分布式系统研究院四年创作的重要著作，这本书从数据分析、数据应用和数据挖掘的角度出发，弥补了分布式理论和工程实践之间的鸿沟，它为软件开发者提供了宝贵的指导和启示，是一本必读的书籍，书中深入探讨了现代数据密集型应用系统的设计原则和决策，帮助读者了解如何有效地处理大规模数据的挑战，无论是对于研究者还是从业人员来说，这本书都是不可或缺的指南，我们由衷地将这本书献给那些追求梦想的人们，希望他们能通过阅读这本书，不断提升技术能力，创造出更加优秀的数据密集型应用系统。

数据密集型应用系统设计

数据密集型应用系统设计电子书封面

读者评价

通读了一遍，对这个分布式存储领域有一个完整的认识；会再细读一遍，结合文中的引用和MIT6.824来看。这本书对单机存储、分布式存储系统都做了详细的说明；作者是个搞研究的，会详细的比较多种设计之间的优缺点，方便读者理解，我还挺喜欢这个套路的。前两部分翻译的还不错, 翻译上第三部分略差，不过整体不影响阅读。

内容介绍

全书分为三大部分：
主要讨论有关增强数据密集型应用系统所需的若干基本原则。首先开篇第1章即瞄准目标：可靠性、可扩展性与可维护性，如何认识这些问题以及如何达成目标。第2章我们比较了多种不同的数据模型和查询语言，讨论各自的适用场景。接下来第3章主要针对存储引擎，即数据库是如何安排磁盘结构从而提高检索效率。第4章转向数据编码（序列化）方面，包括常见模式的演化历程。
我们将从单机的数据存储转向跨机器的分布式系统，这是扩展性的重要一步，但随之而来的是各种挑战。所以将依次讨论数据远程复制（第5章）、数据分区（第6章）以及事务（第7章）。接下来的第8章包括分布式系统的更多细节，以及分布式环境如何达成一致性与共识（第9章）。
主要针对产生派生数据的系统，所谓派生数据主要指在异构系统中，如果无法用一个数据源来解决所有问题，那么一种自然的方式就是集成多个不同的数据库、缓存模块以及索引模块等。首先第10章以批处理开始来处理派生数据，紧接着第11章采用流式处理。第12章总结之前介绍的多种技术，并分析讨论未来构建可靠、可扩展和可维护应用系统可能的新方向或方法。

前言
1第一部分数据系统基础
第1章可靠、可扩展与可维护的应用系统
认识数据系统
可靠性
可扩展性
可维护性
小结
第2章数据模型与查询语言
关系模型与文档模型
数据查询语言
图状数据模型
小结
第3章数据存储与检索
数据库核心：数据结构
事务处理与分析处理
列式存储
小结
第4章数据编码与演化
数据编码格式
数据流模式
小结
第二部分分布式数据系统
第5章数据复制
主节点与从节点
复制滞后问题
多主节点复制
无主节点复制
小结
第6章数据分区
189数据分区与数据复制
键-值数据的分区
分区与二级索引
分区再平衡
请求路由
小结
第7章事务
深入理解事务
弱隔离级别
串行化
小结
第8章分布式系统的挑战
故障与部分失效
不可靠的网络
不可靠的时钟
知识，真相与谎言
小结
第9章一致性与共识
一致性保证
可线性化
顺序保证
分布式事务与共识
小结
第三部分派生数据第
10章批处理系统
使用UNIX工具进行批处理
MapReduce与分布式文件系统
超越MapReduce
小结
第11章流处理系统
发送事件流
数据库与流
流处理
小结
第12章数据系统的未来
461数据集成
分拆数据库
端到端的正确性
做正确的事情
小结
术语表

资源获取

高速下载

网友留言

暴成弘 2019-05-01 12:05:44

大概十一放假开始读这本书，中间经历了加班，双十一值班，自己病假，老婆生病请病假，娃生病请病假，断断续续到现在终于算是从头到尾看了一遍，实在是觉得不容易。这本书的作者是少有的从工业界干到学术界的牛人，知识面广得惊人，也善于举一反三，知识之间互相关联，比如有个地方把读路径比作programming language的lazy evaluation而写路径比作eager evaluation，令人拍案。这一本数囊括了几乎所有数据处理相关工作中可能遇到了的内容，而且也有非常棒的实操经验。比如书的一开始，作者反复强调监控中分位数的作用，可以揭示一些被平均数掩盖的事实，我也正好有一个监控从都是监控平均值变成主要监控若干p99分位数的经历，看到这里，不由得掩卷叹息。我做数据处理也就是不到三年，接触过不少相关的工具，可以说Hadoop啊，pig啊，Hive啊，Storm啊，你的确不去了解它们背后的原理理念也可以用，但是真正要整合它们，做一个容错，可扩展，可维护的数据产品，则需要相当的分布式和数据系统的insight。帮助你建立这样的insight的书，应该是比较缺乏的，你可以去刷分布式系统的课程，看paper，但是阅读一本one in all的书，ROI可能是最高的。之前也有人尝试过，比如有国人写的《大数据日知录》，其实写得也算不错，但是不知道是笔力不济还是什么缘故，最后也是沦为技术文档的罗列。这本书循循善诱的写作手法应该是相当高超了，讲解得非常深入浅出，一般照着提出问题 -> 解决方案 -> 这个方案的长处短处 -> 发散到其它方案这个模式讲解，看起来可以说是不知不觉，非常轻松，也没有有些作者的拽文习惯，几乎全部是中学词汇，句子也不复杂，保证非英语母语的人可以流畅阅读，这点可以说是非常良心了。作者在最后一小节还讨论了大数据的伦理问题，尽管现实世界中，金钱利益面前，可能无人理会这些事情，但是这些夫子自道，还是很体现作者情怀。我觉得这是升华整本书的地方。本书references超级多，可能正文内容止于guide，老手可能觉得不过蜻蜓点水，那么看看每章后面的几百个ref，那里可以发现更广阔的世界。