本篇主要提供大数据湖实践全新电子书的pdf版本下载,本电子书下载方式为百度网盘方式,点击以上按钮下单完成后即会通过邮件和网页的方式发货,有问题请联系邮箱ebook666@outlook.com
前言1
章数据湖概述7
数据湖的成熟度9
数据水洼11
数据池12
创建成功的数据湖12
适合的平台13
适合的数据14
适合的界面16
数据沼泽18
成功实施数据湖的路线图20
建立数据湖20
规划数据湖21
构建自*服务的数据湖23
构建数据湖28
云上数据湖29
逻辑数据湖29
小结34
第2章历史背景35
数据自*服务驱动——数据库的诞生36
分析必要*驱动——数据仓库的诞生39
数据仓库生态系统40
存储和查询数据41
加载数据——数据集成工具47
组织和管理数据51
消费数据57
小结58
第3章大数据和数据科学概述59
Hadoop**大数据的历史*转变60
Hadoop文件系统60
MapReduce作业中计算和存储如何交互61
SchemaonRead63
Hadoop项目64
数据科学65
你的分析机构应该关注什么?67
机器学习71
可解释*72
变更管理73
小结74
第4章建立数据湖75
为什么是Hadoop75
防止数据水洼扩散78
利用大数据的优势79
以数据科学为先导80
策略1:迁移已有功能83
策略2:为新项目建立数据湖85
策略3:建立数据治理中心85
哪种策略***你?86
小结88
第5章从数据池/大数据仓库到数据湖89
数据仓库的基本功能90
用于分析的维度模型91
整合不同源的数据92
使用缓慢变化维保存历史记录93
数据仓库作为历史库的局限*93
迁移至数据池94
数据池中保存历史数据94
在数据池中使用缓慢变化维96
数据池演化为数据湖——加载数据仓库中未包含的数据98
原始数据98
外部数据99
IoT与**流式数据102
实时数据湖103
Lambda架构105
数据转换106
目标系统108
数据仓库109
业务数据存储109
实时应用和数据产品110
小结111
第6章自*服务优化112
自*服务起源113
业务分析师115
发现和理解数据——企业数据归档116
建立信任119
数据预置126
为分析准备数据128
数据湖数据整理129
用Hadoop来准备数据129
数据预处理的常见案例130
分析和可视化133
自*式商业智能的新世界133
新的分析工作流134
门卫向店主的角色转变136
管理自*服务137
小结137
第7章数据湖架构139
规划数据湖139
原始区141
产品区142
工作区144
**区145
多数据湖146
保持各数据湖独立的优势147
合并多数据湖的优势147
云上数据湖148
虚拟数据湖151
数据联邦151
大数据虚拟化152
消除冗余154
小结156
第8章数据湖元数据157
组织数据157
技术元数据159
业务元数据164
打标166
自动编目167
逻辑数据管理169
**数据管理和访问控制169
数据质量170
连接分散的数据172
建立血缘关系174
数据预置176
创建目录的工具176
工具对比177
数据洋178
小结179
第9章数据访问控制180
授权与访问控制181
基于标签的控制策略182
数据脱敏186
数据主权与法规189
自*服务访问管理191
预置数据196
小结204
0章行业案例205
金融服务大数据206
消费者、数字化和数据正在改变我们所熟知的金融行业206
拯救银行208
新数据提供新机遇212
使用数据湖的关键过程215
数据湖为金融服务领域带来的价值218
保险行业中的数据湖220
智慧城市222
医疗大数据224
作者介绍227
封面介绍227
亚历克斯·歌瑞克(Alex Gorelik)是Waterline Data的首席技术官和创始人,也是三家初创公司的创始人。他曾经担任Informatica的数据质量部经理,负责管理公司的平台和数据集成技术。此外,他还曾是IBM的杰出***,也是Exeros和Acta Technology的联合创始人、首席技术官和工程副总裁。
数据仓库、大数据、数据科学的简*介绍。
了解企业建立数据湖的各种途径。
探索如何构建自*服务模型,以及如何让分析师便捷访问数据的很好实践。
使用不同的方法来构建数据湖。
了解不同行业专家实现数据湖的方法。