本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正
目 录
□□章 大数据时代 1
1.1 什么是大数据 1
1.1.1 四大特征 □
1.1.□ 数据监管(Data Governance) 3
1.1.3 数据质量 4
1.1.4 大数据分析 4
1.1.5 大数据平台架构 5
1.□ 大数据与云计算的关系 6
1.□.1 云计算产品概述 6
1.□.□ 虚拟服务器 7
1.□.3 云存储 11
1.3 Hadoop和云平台的应用实例 1□
1.3.1 云平台层面配置 1□
1.3.□ 大数据平台层面配置 14
1.4 数据湖(Data Lake) 16
1.5 企业如何走向大数据 17
1.5.1 业务价值维度 18
1.5.□ 数据维度 18
1.5.3 现有IT环境和成本维度 19
1.5.4 数据治理维度 □0
第□章 大数据软件框架 □1
□.1 Hadoop框架 □1
□.1.1 HDFS(分布式文件系统) □□
□.1.□ MapReduce(分布式计算框架) □3
□.1.3 YARN(集群资源管理器) □8
□.□ Spark(内存计算框架) 30
□.□.1 Spark SQL 31
□.□.□ Spark Streaming 3□
□.3 实时流处理框架 34
□.4 云端消息队列 34
□.5 框架的选择 35
□.6 Hadoop发行版 36
□.7 Mac上安装Hadoop 37
□.7.1 在Mac上安装Hadoop 37
□.7.□ 安装MySQL和Hive 41
□.8 Linux上安装Hadoop 44
□.8.1 配置Java环境 45
□.8.□ 安装ntp和Python 47
□.8.3 安装和配置openssl 47
□.8.4 配置SSH无密码访问 47
□.8.5 安装Ambari和HDP 48
□.8.6 启动和停止服务 5□
□.9 AWS云平台上安装Hadoop 54
第3章 大数据集群 57
3.1 集群实例分析 57
3.□ YARN 67
3.□.1 架构组成 68
3.□.□ YARN执行流程 71
3.3 资源的调度器 75
3.3.1 Capacity Scheduler 76
3.3.□ Fair Scheduler 78
3.3.3 资源调度实例分析 81
3.3.4 内存和CPU资源调度 84
3.4 深入研究Resource Manager 88
3.5 集群配置文件总览 91
3.5.1 yarn-site.xml 91
3.5.□ mapred-site.xml 94
3.6 自动伸缩(Auto Scaling)集群 97
3.7 迁移Hadoop集群 97
3.8 增加Instance 99
第4章 大数据存储:文件系统和云存储 100
4.1 HDFS shell命令 100
4.□ 配置HDFS 10□
4.□.1 配置文件 10□
4.□.□ 多节点配置 103
4.3 HDFS API编程 104
4.3.1 读取HDFS文件内容 105
4.3.□ 写HDFS文件内容 108
4.3.3 WebHDFS 108
4.4 HDFS API总结 110
4.4.1 Configuration类 110
4.4.□ FileSystem抽象类 111
4.4.3 Path类 111
4.4.4 FSDataInputStream类 111
4.4.5 FSDataOutputStream类 11□
4.4.6 IOUtils类 11□
4.4.7 FileStatus类 11□
4.4.8 FsShell类 11□
4.4.9 ChecksumFileSystem抽象类 11□
4.4.10 其他的HDFS API实例 113
4.4.11 综合实例 115
4.5 HDFS文件格式 118
4.5.1 SequenceFile 118
4.5.□ TextFile(文本格式) 118
4.5.3 RCFile 118
4.5.4 Avro 1□0
4.6 云存储S3 1□0
4.6.1 S3基本概念 1□1
4.6.□ S3管理控制台 1□□
4.6.3 S3 CLI 1□6
4.6.4 S3 SDK 1□7
4.6.5 分区 1□9
4.6.6 与EBS的比较 1□9
4.6.7 与Glacier的比较 1□9
第5章 大数据存储:数据库 130
5.1 NoSQL 130
5.□ HBase概述 131
5.□.1 HBase表结构 13□
5.□.□ HBase系统架构 135
5.□.3 启动并操作HBase数据库 136
5.□.4 HBase Shell工具 139
5.3 HBase编程 14□
5.3.1 增删改查API 14□
5.3.□ 过滤器 146
5.3.3 计数器 149
5.3.4 原子操作 149
5.3.5 管理API 149
5.4 其他NoSQL数据库 151
5.4.1 Cassandra 151
5.4.□ Impala 151
5.4.3 DynamoDB 151
5.4.4 Redshift 151
5.5 云数据库 15□
5.5.1 什么是RDS 15□
5.5.□ 创建云数据库 15□
5.5.3 查看云数据库信息 156
5.5.4 何时使用云端数据库 159
第6章 大数据访问:SQL引擎层 160
6.1 Phoenix 161
6.1.1 安装和配置Phoenix 161
6.1.□ 在Eclipse上开发Phoenix程序 165
6.1.3 Phoenix SQL工具 169
6.1.4 Phoenix SQL语法 170
6.□ Hive 171
6.□.1 Hive架构 17□
6.□.□ 安装Hive 173
6.□.3 Hive CLI 175
6.□.4 Hive数据类型 175
6.□.5 Hive文件格式 177
6.□.6 Hive表定义 179
6.□.7 Hive加载数据 183
6.□.8 Hive查询数据 184
6.□.9 Hive UDF 186
6.□.10 Hive视图 188
6.□.11 HiveServer□ 189
6.□.1□ hive-site.xml需要的配置 195
6.□.13 HBase集成 □00
6.□.14 XML和JSON数据 □00
6.□.15 使用TEZ □01
6.□.16 Hive MetaStore □03
6.□.17 综合示例 □04
6.3 Pig □06
6.3.1 Pig语法 □07
6.3.□ Pig和Hive的使用场景之比较 □10
6.4 ElasticSearch(全文搜索引擎) □11
6.4.1 全文索引的基础知识 □11
6.4.□ 安装和配置ElasticSearch □13
6.4.3 ElasticSearch API □15
6.5 Presto □17
第7章 大数据采集和导入 □18
7.1 Flume □□0
7.1.1 Flume架构 □□0
7.1.□ Flume事件 □□1
7.1.3 Flume源 □□1
7.1.4 Flume拦截器(Interceptor) □□□
7.1.5 Flume通道选择器(Channel Selector) □□3
7.1.6 Flume通道 □□4
7.1.7 Flume接收器 □□5
7.1.8 负载均衡和单点失败 □□6
7.1.9 Flume监控管理 □□7
7.1.10 Flume实例 □□7
7.□ Kafka □□9
7.□.1 Kafka架构 □□9
7.□.□ Kafka与JMS的异同 □30
7.□.3 Kafka性能考虑 □31
7.□.4 消息传送机制 □31
7.□.5 Kafka和Flume的比较 □3□
7.3 Sqoop □3□
7.3.1 从数据库导入HDFS □33
7.3.□ 增量导入 □35
7.3.3 将数据从Oracle导入Hive □35
7.3.4 将数据从Oracle导入HBase □35
7.3.5 导入所有表 □36
7.3.6 从HDFS导出数据 □36
7.3.7 数据验证 □37
7.3.8 其他Sqoop功能 □37
7.4 Storm □38
7.4.1 Storm基本概念 □38
7.4.□ Spout □40
7.4.3 Bolt □41
7.4.4 拓扑结构 □43
7.4.5 Storm总结 □44
7.5 Amazon Kinesis □45
7.6 其他工具 □46
7.6.1 Embulk □46
7.6.□ Fluentd □47
第8章 大数据安全管控 □50
8.1 数据主权和合规性 □50
8.□ 云端安全 □51
8.□.1 身份验证和访问权限 □51
8.□.□ 角色 □53
8.□.3 虚拟网络 □54
8.□.4 安全组 □55
8.3 云端监控 □56
8.3.1 跟踪和审计 □56
8.3.□ 监控 □57
8.3.3 基于Datadog的监控 □59
8.4 云端备份和恢复 □6□
8.5 大数据安全 □6□
8.5.1 Kerberos □63
8.5.□ Apache Ranger □63
8.5.3 应用端安全 □67