书籍详情
《 数据质量管理:数据可靠性与数据质量问题解决之道 [美]巴尔·摩西》[57]百度网盘|亲测有效|pdf下载
  • 数据质量管理:数据可靠性与数据质量问题解决之道 [美]巴尔·摩西

  • 出版社:机械工业出版社
  • 作者:[美]巴尔摩西 [美]利奥加维什 [美]莫莉沃尔维克
  • 出版时间:2024-05-26
  • 热度:2700
  • 上架时间:2025-03-08 06:13:50
  • 价格:0.0
书籍下载
书籍预览
免责声明

本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正

内容介绍

产品特色

编辑推荐

你的产品仪表盘看起来时髦吗?你的季度报告过时了吗?你使用的数据集是坏的还是根本就是错误的?这些问题几乎影响每一个团队,但它们通常以一种临时的、被动的方式得到解决。如果你也受困于这些问题,那么本书就是为你准备的。如今,许多数据工程团队都面临着“好管道,坏数据”的问题。如果你的数据不好,那么数据基础设施再先进也没用。在本书中,来自数据可观测性公司蒙特卡罗的Barr Moses、Lior Gavish和Molly Vorwerck解释了如何利用世界上一些最具创新性的公司采用的最佳实践和技术来解决大规模数据质量和信任问题。通过阅读本书,你将:? 构建更可信、更可靠的数据管道。? 编写脚本进行数据检查,并通过数据可观测性识别损坏的管道。? 了解如何设置和维护数据SLA、SLI和SLO。? 制定并领导公司的数据质量计划。? 了解如何像对待生产软件一样对待数据服务和系统。? 跨数据生态系统自动绘制数据沿袭图。? 为关键数据资产构建异常检测器。

 
内容简介

本书是一本关于如何清洗、整理和理解数据的手册,还介绍了围绕构建更可靠的数据系统的最佳实践、技术和流程,并在此过程中培养团队和利益相关方对数据的信任。本书首先引入“数据宕机”的概念,然后介绍如何跨多个关键数据管道技术构建更具弹性的数据系统。还介绍了数据可靠性工作流中的主动异常检测与监测,并设置SLA、SLI和SLO,以及构建由新鲜度、容量、分布、模式和沿袭这5个关键支柱组成的优化数据质量的数据平台。之后深入探讨在生产环境中实际应对和解决数据质量问题所需的步骤,包括数据事件管理、根因分析、事后分析等。接着讨论数据团队在大规模宣传和普及数据质量时必须跨越的一些文化和组织障碍,并分享了几个真实案例研究和与数据工程领域领军人物的对话。

作者简介

Barr Moses是蒙特卡罗公司的首席执行官兼联合创始人,该公司是数据可观测性类别的创建者。在长达十年的数据职业生涯中,她曾担任以色列空军数据情报部队指挥官、贝恩公司顾问和Gainsight公司运营副总裁。她主持了O'Reilly的第一门数据质量课程。
Lior Gavish是蒙特卡罗公司的首席技术官兼联合创始人,曾联合创办网络安全初创公司Sookasa,该公司于2016年被Barracuda公司收购。在Barracuda,他曾担任高级工程副总裁,推出了屡获殊荣的ML防欺诈产品。Lior拥有斯坦福大学工商管理硕士学位和特拉维夫大学计算机科学硕士学位。
Molly Vorwerck是蒙特卡罗公司的内容主管,还担任过Uber工程博客的主编和Uber技术品牌团队的首席项目经理。她还负责Uber首席技术官的内部沟通,以及Uber人工智能实验室研究审查项目的战略。

目  录
目录
前言1
第1章 为什么数据质量值得关注7
1.1 什么是数据质量9
1.2 构筑当下10
1.2.1 了解“数据宕机的增加”11
1.2.2 促成当前形势的其他行业趋势13
1.3 总结15
第2章 对可靠数据系统的构建模块进行组装16
2.1 了解事务型数据和分析型数据之间的差异16
2.2 是什么让它们有所不同17
2.3 数据仓库与数据湖19
2.3.1 数据仓库:模式级别的表类型19
2.3.2 数据湖:文件级别的操作21
前  言
译者序
在这个数字化飞速发展的时代,我们所生活的社会已经深深沉浸在大数据的潮流之中。无论是社交平台的推荐系统、网络商城的物流调动还是打车软件的司乘匹配,这些为生活提供全方位便利的复杂程序背后,都有海量的数据作为驱动。而2023年火爆全球的基于转换器的生成式预训练模型(Generative Pre-trained Transformer,GPT)等大语言模型(LLM),更是推动“大数据”和“人工智能”走向深度交融。
现在的机器学习软件已经能够实现端对端的数据应用,也就是说,从初始数据的导入到最终结果的输出或生成,都可以全自动完成。这种高度智能的黑箱系统固然十分强大,但其终端结果的可靠性却高度依赖于输入端数据的可靠性。数据科学界有一句俗语:“garbage in, garbage out。”这意味着,无论模型有多么智能和强大,数据的糟糕必然导致结果的谬误。
这也意味着,在确保模型、算法、代码质量的同时,也必须同样重视“数据质量”。随着数据规模不断飞速扩张,仅依赖人工和经验的、打补丁式的数据质量保障措施早已跟不上时代的发展。我们迫切需要的是关于数据质量和数据可靠性的方法论,以及一整套确保数据质量、修复数据故障、自动完成检测及质保的工业化流程。

相关推荐