书籍详情
《Spark与Hadoop大数据分析计算机与互联网》[32M]百度网盘|亲测有效|pdf下载
  • Spark与Hadoop大数据分析计算机与互联网

  • 出版社:互动出版网图书专营店
  • 出版时间:2017-07
  • 热度:11756
  • 上架时间:2024-06-30 09:08:33
  • 价格:0.0
书籍下载
书籍预览
免责声明

本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正

内容介绍

 书名:  (正版特价)Spark与Hadoop大数据分析|230894
 图书定价:  59元
 图书作者:  (美)文卡特·安卡姆(Venkat Ankam)
 出版社:  机械工业出版社
 出版日期:  2017/7/1 0:00:00
 ISBN号:  9787111569411
 开本:  16开
 页数:  0
 版次:  1-1
 内容简介
本书介绍了ApacheSpark和Hadoop的基础知识,并深入探讨了所有Spark组件:SparkCore、SparkSQL、DataFrame、DataSet、普通流、结构化流、MLlib、Graphx,以及Hadoop的核心组件(HDFS、MapReduce和Yarn)等,此外,也讲解了在Spark+Hadoop集群中实现的示例。
 目录

译者序
前言
第1章 从宏观视角看大数据分析 1
1.1 大数据分析以及 Hadoop 和 Spark 在其中承担的角色 3
1.1.1 典型大数据分析项目的生命周期 4
1.1.2 Hadoop和Spark承担的角色 6
1.2 大数据科学以及Hadoop和Spark在其中承担的角色 6
1.2.1 从数据分析到数据科学的根本性转变 6
1.2.2 典型数据科学项目的生命周期 8
1.2.3 Hadoop和Spark 承担的角色 9
1.3 工具和技术 9
1.4 实际环境中的用例 11
1.5 小结 12
第2章 Apache Hadoop和Apache Spark入门 13
2.1 Apache Hadoop概述 13
2.1.1 Hadoop 分布式文件系统 14
2.1.2 HDFS 的特性 15
2.1.3 MapReduce 16
2.1.4 MapReduce 的特性 17
2.1.5 MapReduce v1与MapReduce v2对比 17
2.1.6 YARN 18
2.1.7 Hadoop上的存储选择 20
2.2 Apache Spark概述 24
2.2.1 Spark 的发展历史 24
2.2.2 Apache Spark 是什么 25
2.2.3 Apache Spark 不是什么 26
2.2.4 MapReduce 的问题 27
2.2.5 Spark 的架构 28
2.3 为何把 Hadoop 和 Spark 结合使用 31
2.3.1 Hadoop 的特性 31
2.3.2 Spark 的特性 31
2.4 安装 Hadoop 和 Spark 集群 33
2.5 小结 36
第3章 深入剖析Apache Spark 37
3.1 启动 Spark 守护进程 37
3.1.1 使用CDH 38
3.1.2 使用 HDP、MapR 和Spark 预制软件包 38
3.2 学习Spark的核心概念 39
3.2.1 使用 Spark 的方法 39
3.2.2 弹性分布式数据集 41
3.2.3 Spark 环境 43
3.2.4 变换和动作 44
3.2.5 RDD 中的并行度 46
3.2.6 延迟评估 49
3.2.7 谱系图 50
3.2.8 序列化 51
3.2.9 在 Spark 中利用 Hadoop文件格式 52
3.2.10 数据的本地性 53
3.2.11 共享变量 54
3.2.12 键值对 RDD 55
3.3 Spark 程序的生命周期 55
3.3.1 流水线 57
3.3.2 Spark 执行的摘要 58
3.4 Spark 应用程序 59
3.4.1 Spark Shell 和 Spark 应用程序 59
3.4.2 创建 Spark 环境 59
3.4.3 SparkConf 59
3.4.4 SparkSubmit 60
3.4.5 Spark 配置项的优先顺序 61
3.4.6 重要的应用程序配置 61
3.5 持久化与缓存 62
3.5.1 存储级别 62
3.5.2 应该选择哪个存储级别 63
3.6 Spark 资源管理器:Standalone、YARN和Mesos 63
3.6.1 本地和集群模式 63
3.6.2 集群资源管理器 64
3.7 小结 67
第4章 利用Spark SQL、Data-Frame和Dataset进行大数据分析 69
4.1 Spark SQL 的发展史 70
4.2 Spark SQL 的架构 71
4.3 介绍Spark SQL的四个组件 72
4.4 DataFrame 和 Dataset 的演变 74
4.4.1 RDD 有什么问题 74
4.4.2 RDD 变换与 Dataset 和DataFrame 变换 75
4.5 为什么要使用 Dataset 和DataFrame 75
4.5.1 优化 76
4.5.2 速度 76
4.5.3 自动模式发现 77
4.5.4 多数据源,多种编程语言 77
4.5.5 RDD 和其他 API 之间的互操作性 77
4.5.6 仅选择和读取必要的数据 78
4.6 何时使用 RDD、Dataset 和DataFrame 78
4.7 利用 DataFrame 进行分析 78
4.7.1 创建 SparkSession 79
4.7.2 创建 DataFrame 79
4.7.3 把DataFrame转换为RDD 82
4.7.4 常用的 Dataset/DataFrame操作 83
4.7.5 缓存数据 84
4.7.6 性能优化 84
4.8 利用 Dataset API 进行分析 85
4.8.1 创建 Dataset 85
4.8.2 把 DataFrame 转换为Dataset 86
4.8.3 利用数据字典访问元数据 87
4.9 Data Sources API 87
4.9.1 读和写函数 88
4.9.2 内置数据源 88
4.9.3 外部数据源 93
4.10 把 Spark SQL 作为分布式 SQL引擎 97
4.10.1 把 Spark SQL 的 Thrift 服务器用于 JDBC / ODBC访问 97
4.10.2 使用 beeline 客户端查询数据 98
4.10.3 使用 spark-sql CLI 从 Hive查询数据 99
4.10.4 与 BI 工具集成 100
4.11 Hive on Spark 100
4.12 小结 100
第5章 利用Spark Streaming和Structured Streaming进行实时分析 102
5.1 实时处理概述 103
5.1.1 Spark Streaming 的优缺点 104
5.1.2 Spark Streaming 的发展史 104
5.2 Spark Streaming 的架构 104
5.2.1 Spark Streaming 应用程序流 106
5.2.2 无状态和有状态的流处理 107
5.3 Spark Streaming 的变换和动作 109
5.3.1 union 109
5.3.2 join 109
5.3.3 transform 操作 109
5.3.4 updateStateByKey 109
5.3.5 mapWithState 110
5.3.6 窗口操作 110
5.3.7 输出操作 111
5.4 输入数据源和输出存储 111
5.4.1 基本数据源 112
5.4.2 高级数据源 112
5.4.3 自定义数据源 112
5.4.4 接收器的可靠性 112
5.4.5 输出存储 113
5.5 使用 Kafka 和 HBase 的 Spark Streaming 113
5.5.1 基于接收器的方法 114
5.5.2 直接方法(无接收器) 116
5.5.3 与 HBase 集成 117
5.6 Spark Streaming 的高级概念 118
5.6.1 使用 DataFrame 118
5.6.2 MLlib 操作 119
5.6.3 缓存/持久化 119
5.6.4 Spark Streaming 中的容错机制 119
5.6.5 Spark Streaming 应用程序的性能调优 121
5.7 监控应用程序 122
5.8 结构化流概述 123
5.8.1 结构化流应用程序的工作流 123
5.8.2 流式 Dataset 和流式 DataFrame 125
5.8.3 流式 Dataset 和流式DataFrame 的操作 126
5.9 小结 129
第6章 利用Spark和Hadoop的笔记本与数据流 130
6.1 基于网络的笔记本概述 130
6.2 Jupyter概述 131
6.2.1 安装 Jupyter 132
6.2.2 用 Jupyter 进行分析 134
6.3 Apache Zeppelin概述 135
6.3.1 Jupyter 和 Zeppelin对比 136
6.3.2 安装 Apache Zeppelin 137
6.3.3 使用 Zeppelin 进行分析 139
6.4 Livy REST 作业服务器和 Hue笔记本 140
6.4.1 安装设置 Livy 服务器和Hue 141
6.4.2 使用 Livy 服务器 142
6.4.3 Livy 和 Hue 笔记本搭配使用 145
6.4.4 Livy 和 Zeppelin 搭配使用 148
6.5 用于数据流的 Apache NiFi概述 148
6.5.1 安装 Apache NiFi 148
6.5.2 把 NiFi 用于数据流和分析 149
6.6 小结 152
第7章 利用Spark和Hadoop进行机器学习 153
7.1 机器学习概述 153
7.2 在 Spark 和 Hadoop 上进行机器学习 154
7.3 机器学习算法 155
7.3.1 有监督学习 156
7.3.2 无监督学习 156
7.3.3 推荐系统 157
7.3.4 特征提取和变换 157
7.3.5 优化 158
7.3.6 Spark MLlib 的数据类型 158
7.4 机器学习算法示例 160
7.5 构建机器学习流水线 163
7.5.1 流水线工作流的一个示例 163
7.5.2 构建一个 ML 流水线 164
7.5.3 保存和加载模型 166
7.6 利用 H2O 和 Spark 进行机器学习 167
7.6.1 为什么使用 Sparkling Water 167
7.6.2 YARN 上的一个应用程序流 167
7.6.3 Sparkli...