本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正
目录前言1*部分数据系统基础*章可靠、可扩展与可维护的应用系统11认识数据系统12可靠*14可扩展*1*可维护*25小结28第2章数据模型与查询语言33关系模型与文档模型34数据查询语言46图状数据模型52小结65第3章数据存储与检索71数据库核心:数据结构72事务处理与分析处理89列式存储94小结101第4章数据编码与演化109数据编码格式110数据流模式124小结134第二部分分布式数据系统第5章数据复制145主节点与从节点146复制滞后问题154多主节点复制160无主节点复制168小结181第6章数据分区189数据分区与数据复制190键-值数据的分区190分区与二级索引195分区再平衡198请求路由202小结204第7章事务211深入理解事务212弱隔离级别221串行化237小结250第8章分布式系统的挑战259故障与部分失效260不可靠的网络262不可靠的时钟271知识,**与谎言282小结292*9章*致*与共识303一致*保*304可线*化305顺序保*319分布式事务与共识330小结349第三部分派生数据*0章批处理系统367使用UNI*工具*行批处理368MapReduce与分布式文件系统375*MapReduce394小结403*1章流处理系统413发送事件流414数据库与流424流处理435小结449*2章数据系统的未来461数据集成461分拆数据库469端到端的正确*4*4做正确的事情500小结509术语表521
Martin*le*p*ann是英国剑桥大学分布式系统方向的研究员。此前,他曾是LinkedIn和Rapportive等互联网公司的软件***,负责大规模数据基础设施建设。在此过程中他遇到过一些困难,因此他希望这本书能够帮*读者避免重蹈覆辙。Martin还是一位活跃的会议演讲者、博主和开源贡献者。他认为,每个人都应该学习深刻的技术理念,对技术的深入理解能帮*我们开发出更好的软件。译者简介赵军平,大数据存储与分析*开发者与推广者(EMC10余年),GPU异构计算的亲历者。中国计算机协会专家委员,DELLEMC*架构师。12年系统研发、创新与团队管理经验,擅长数据存储与保护,云计算与大数据实时分析,GPU异构加速优化等。相关领域已申请中、美技术100余项,并多次在SNIA,LinuxConf,HadoopSummit,NvidiaGPUTechConf等做技术分享,持续关注数据密集和计算密集相关技术的演进、融合与赋能推广。吕云松,北京大学计算机硕士,硕士及DELLEMC中国研究院实习期间专注于大数据实时流式处理相关的研究。现就职于华为2012中软院黎曼实验室,主要从事深度学习的研发。耿煜,DELLEMC架构师兼GTM负责人,致力于推广企业级数字化转型方案。深耕分布式架构以及云计算12年,先后任职于ChinaCache,SunMicrosystems以及EMC等公司。李三平,美国麻省大学计算机工程专业博士,DELLEMC中国研究院*席科学*,研究方向为机器学习、深度学习、智能运维、遥感影像等。已在IEEETransactions期刊和会议上发表**数十篇,申请美国20余项。推崇简约,热衷机器学习。
全书分为三大部分:靠前部分,主要讨论有关增强数据密集型应用系统所需的若干基本原则。首先开篇章即瞄准目标:可靠*、可扩展*与可维护*,如何认识这些问题以及如何达成目标。第2章我们比较了多种不同的数据模型和查询语言,讨论各自的适用场景。接下来第3章主要针对存储引擎,即数据库是如何安排磁盘结构从而提高检索效率。第4章转向数据编码(序列化)方面,包括常见模式的演化历程。第二部分,我们将从*机的数据存储转向跨机器的分布式系统,这是扩展*的重要一步,但随之而来的是各种挑战。所以将依次讨论数据远程复制(第5章)、数据分区(第6章)以及事务(第7章)。接下来的第8章包括分布式系统的更多细节,以及分布式环境如何达成一致*与共识(第9章)。第三部分,主要针对产生派生数据的系统,所谓派生数据主要指在异构系统中,如果无法用一个数据源来解决所有问题,那么一种自然的方式就是集成多个不同的数据库、缓存模块以及索引模块等。首先0章以批处理开始来处理派生数据,紧接着1章采用流式处理。2章总结之前介绍的多种技术,并分析讨论未来构建可靠、可扩展和可维护应用系统可能的新方向或方法。