《机器学习与R语言》[86M]百度网盘|pdf下载|亲测有效
《机器学习与R语言》[86M]百度网盘|pdf下载|亲测有效

机器学习与R语言 pdf下载

出版社 机械工业出版社自营官方旗舰店
出版年 2021-06
页数 390页
装帧 精装
评分 8.5(豆瓣)
8.99¥ 10.99¥

内容简介

本篇主要提供机器学习与R语言电子书的pdf版本下载,本电子书下载方式为百度网盘方式,点击以上按钮下单完成后即会通过邮件和网页的方式发货,有问题请联系邮箱ebook666@outlook.com

产品特色

编辑推荐

适读人群 :机器学习及R语言相关从业人员

机器学习的核心是将数据转换为可操作的知识。R提供了一组强大的机器学习方法,可以帮助你快速轻松地发现数据背后隐藏的信息。
本书通过清晰和实用的案例来探索机器学习在现实世界中的应用。无论你是经验丰富的R用户还是R初学者,都会从本书中学到如何发现关键信息、做出新的预测并进行可视化。
本书的第3版包含更新和更好的库、有关机器学习中的道德和偏差问题的建议,以及深度学习的简介。

通过阅读本书,你将学到:
• 通过示例发现机器学习的起源以及计算机的学习方式。
• 使用R语言为机器学习准备数据。
• 使用近邻和贝叶斯方法对重要结果进行分类。
• 使用决策树、关联规则和支持向量机预测未来事件。
• 使用回归方法预测数值型数据和估计金融数据。
• 使用人工神经网络为复杂过程建模——深度学习的基础。
• 避免机器学习模型中的偏差。
• 评估模型并改善其性能。
• 将R连接到SQL数据库和新兴的大数据技术,例如Spark、H2O和TensorFlow。

内容简介

本书共12章:第1章介绍机器学习的基本概念和理论,并介绍用于机器学习的R软件环境的准备;第2章介绍如何应用R来管理数据,进行数据的探索分析和数据可视化;第3~9章介绍典型的机器学习算法,包括k近邻分类算法、朴素贝叶斯算法、决策树和规则树、回归预测、黑盒算法——神经网络和支持向量机、关联分析、k均值聚类,并给出大量的实际案例和详细的分析步骤,例如乳腺癌的判断、垃圾短信的过滤、贷款违约的预测、毒蘑菇的判别、医疗费用的预测、建筑用混凝土强度的预测、光学字符的识别、超市购物篮关联分析以及市场细分等;第10章介绍模型性能评价的原理和方法;第11章给出提高模型性能的几种常用方法;第12章讨论用R进行机器学习时可能遇到的一些高级专题,如特殊形式的数据、大数据集的处理、并行计算和GPU计算等技术。

作者简介

布雷特·兰茨(Brett Lantz)

在应用创新的数据方法来理解人类的行为方面有十余年经验。他是一位DataCamp讲师,经常在世界各地的机器学习会议和研讨会上进行演讲。他致力于研究数据科学在体育、自动驾驶汽车、外语学习和时尚等领域的应用,并维护dataspelunking.com这个网站,该网站致力于分享有关探寻数据中所蕴含的洞察的知识。


译者简介:

许金炜

2016年上海大学统计学硕士毕业,参与翻译《机器学习与R语言》第1版和第2版、《R语言数据挖掘》及《高级R语言编程指南》第2版,曾于各类数学建模竞赛中斩获佳绩。目前主要于金融行业从事风控领域及量化方面的工作。


目录

译者序

前 言

第1章 机器学习简介 1

1.1 机器学习的起源 1

1.2 机器学习的使用与滥用 2

1.2.1 机器学习的成功应用 3

1.2.2 机器学习的限制 4

1.2.3 机器学习的伦理方面 5

1.3 机器如何学习 7

1.3.1 数据存储 8

1.3.2 抽象化 8

1.3.3 一般化 10

1.3.4 评估 11

1.4 实践中的机器学习 12

1.4.1 输入数据的类型 13

1.4.2 机器学习算法的类型 14

1.4.3 为输入数据匹配算法 15

1.5 使用R进行机器学习 16

1.5.1 安装R添加包 17

1.5.2 载入和卸载R添加包 18

1.5.3 安装RStudio 18

1.6 总结 19

第2章 管理和理解数据 20

2.1 R数据结构 20

2.1.1 向量 20

2.1.2 因子 22

2.1.3 列表 23

2.1.4 数据框 25

2.1.5 矩阵和数组 27

2.2 用R管理数据 28

2.2.1 保存、载入和移除R数据结构 29

2.2.2 从CSV文件导入数据和将数据保存为CSV文件 29

2.3 探索和理解数据 31

2.3.1 探索数据的结构 31

2.3.2 探索数值变量 32

2.3.3 探索分类变量 40

2.3.4 探索变量之间的关系 41

2.4 总结 44

第3章 懒惰学习——使用近邻分类 46

3.1 理解近邻分类 46

3.1.1 k近邻算法 47

3.1.2 为什么k-NN算法是懒惰的 52

3.2 例子—用k-NN算法诊断乳腺癌 53

3.2.1 第1步—收集数据 53

3.2.2 第2步—探索和准备数据 54

3.2.3 第3步—基于数据训练模型 57

3.2.4 第4步—评估模型的性能 58

3.2.5 第5步—提高模型的性能 59

3.3 总结 61

第4章 概率学习——朴素贝叶斯分类 62

4.1 理解朴素贝叶斯 62

4.1.1 贝叶斯方法的基本概念 63

4.1.2 朴素贝叶斯算法 67

4.2 例子—基于贝叶斯算法的手机垃圾短信过滤 72

4.2.1 第1步—收集数据 72

4.2.2 第2步—探索和准备数据 73

4.2.3 第3步—基于数据训练模型 84

4.2.4 第4步—评估模型的性能 85

4.2.5 第5步—提高模型的性能 86

4.3 总结 87

第5章 分而治之——应用决策树和规则进行分类 88

5.1 理解决策树 88

5.1.1 分而治之 89

5.1.2 C5.0决策树算法 92

5.2 例子—使用C5.0决策树识别高风险银行贷款 95

5.2.1 第1步—收集数据 95

5.2.2 第2步—探索和准备数据 95

5.2.3 第3步—基于数据训练模型 98

5.2.4 第4步—评估模型的性能 100

5.2.5 第5步—提高模型的性能 100

5.3 理解分类规则 104

5.3.1 独立而治之 104

5.3.2 1R算法 106

5.3.3 RIPPER算法 108

5.3.4 来自决策树的规则 109

5.3.5 什么使决策树和规则贪婪 110

5.4 例子—应用规则学习算法识别有毒的蘑菇 111

5.4.1 第1步—收集数据 111

5.4.2 第2步—探索和准备数据 112

5.4.3 第3步—基于数据训练模型 112

5.4.4 第4步—评估模型的性能 114

5.4.5 第5步—提高模型的性能 115

5.5 总结 117

第6章 预测数值型数据——回归方法 118

6.1 理解回归 118

6.1.1 简单线性回归 120

6.1.2 普通最小二乘估计 122

6.1.3 相关性 123

6.1.4 多元线性回归 124

6.2 例子—应用线性回归预测医疗费用 127

6.2.1 第1步—收集数据 128

6.2.2 第2步—探索和准备数据 128

6.2.3 第3步—基于数据训练模型 132

6.2.4 第4步—评估模型的性能 134

6.2.5 第5步—提高模型的性能 135

6.2.6 第6步—用回归模型进行预测 138

6.3 理解回归树和模型树 140

6.4 例子—用回归树和模型树估计葡萄酒的质量 142

6.4.1 第1步—收集数据 142

6.4.2 第2步—探索和准备数据 143

6.4.3 第3步—基于数据训练模型 144

6.4.4 第4步—评估模型的性能 147

6.4.5 第5步—提高模型的性能 149

6.5 总结 151

第7章 黑箱方法—神经网络和支持向量机 152

7.1 理解神经网络 152

7.1.1 从生物神经元到人工神经元 153

7.1.2 激活函数 154

7.1.3 网络拓扑 156

7.1.4 用后向传播训练神经网络 159

7.2 例子—用人工神经网络对混凝土的强度进行建模 160

7.2.1 第1步—收集数据 161

7.2.2 第2步—探索和准备数据 161

7.2.3 第3步—基于数据训练模型 162

7.2.4 第4步—评估模型的性能 164

7.2.5 第5步—提高模型的性能 165

7.3 理解支持向量机 169

7.3.1 用超平面分类 169

7.3.2 对非线性空间使用核函数 173

7.4 例子—用支持向量机进行光学字符识别 175

7.4.1 第1步—收集数据 175

7.4.2 第2步—探索和准备数据 176

7.4.3 第3步—基于数据训练模型 177

7.4.4 第4步—评估模型的性能 179

7.4.5 第5步—提高模型的性能 180

7.5 总结 182

第8章 探寻模式——基于关联规则的购物篮分析 183

8.1 理解关联规则 183

8.1.1 用于关联规则学习的Apriori算法 184

8.1.2 度量规则兴趣度—支持度和置信度 185

8.1.3 用Apriori原则建立规则 186

8.2 例子—用关联规则确定经常一起购买的食品杂货 187

8.2.1 第1步—收集数据 187

8.2.2 第2步—探索和准备数据 188

8.2.3 第3步—基于数据训练模型 193

8.2.4 第4步—评估模型的性能 195

8.2.5 第5步—提高模型的性能 197

8.3 总结 200

第9章 寻找数据的分组——k均值聚类 201

9.1 理解聚类 201

9.1.1 聚类—一种机器学习任务 202

9.1.2 k均值聚类算法 203

9.2 例子—用k均值聚类探寻青少年市场细分 209

9.2.1 第1步—收集数据 209

9.2.2 第2步—探索和准备数据 210

9.2.3 第3步—基于数据训练模型 213

9.2.4 第4步—评估模型的性能 215

9.2.5 第5步—提高模型的性能 217

9.3 总结 219

第10章 模型性能的评估 220

10.1 度量分类方法的性能 220

10.1.1 理解分类器的预测 221

10.1.2 深入探讨混淆矩阵 224

10.1.3 使用混淆矩阵度量性能 225

10.1.4 准确率之外的其他性能度量指标 226

10.1.5 使用ROC曲线可视化性能权衡 233

10.2 评估未来的性能 237

10.3 总结 242

第11章 提高模型的性能 243

11.1 调整多个模型来提高性能 243

11.2 使用元学习来提高模型的性能 251

11.2.1 理解集成学习 251

11.2.2 bagging 253

11.2.3 boosting 254

11.2.4 随机森林 256

11.3 总结 261

第12章 其他机器学习主题 262

12.1 管理和准备真实数据 262

12.1.1 使用tidyverse添加包使数据变得“整洁” 263

12.1.2 读取和写入外部数据文件 265

12.1.3 查询SQL数据库中的数据 266

12.2 处理在线数据和服务 270

12.2.1 下载网页的所有文本 270

12.2.2 解析网页中的数据 271

12.3 处理特定领域的数据 277

12.3.1 分析生物信息学数据 277

12.3.2 分析和可视化网络数据 277

12.4 提高R语言的性能 280

12.4.1 处理非常大的数据集 281

12.4.2 使用并行计算来加快学习过程 283

12.4.3 部署优化的学习算法 290

12.4.4 GPU计算 292

12.5 总结 294

前言/序言

机器学习的核心是将信息转化为具有可行性知识的算法。这一事实使得机器学习非常适用于当今的大数据时代。如果没有机器学习,要跟上海量的信息数据流几乎是不可能的。
鉴于R的地位不断提高(R是一个跨平台、零成本的统计编程环境),现在是开始使用机器学习的最好时机。R提供了一套功能强大且易于学习的工具,这些工具可以帮助我们发现数据背后隐藏的信息。
通过把实践案例研究与基本理论(你需要理解这些理论在后台是如何运行的)相结合,本书提供了在工作中使用机器学习所需要的全部知识。
本书读者对象
本书适用于任何希望使用数据来采取行动的人。或许你已经对机器学习有些了解但从来没有使用过R,或许你已经对R有些了解,但机器学习对你来说是全新的。无论是哪种情况,本书都将让你快速上手。稍微熟悉一些基本的数学和编程概念将会有帮助,但并不需要先前有经验,你只需要有好奇心就行。
本书涵盖的内容
第1章介绍用来定义和区分机器学习算法的术语和概念,并给出将学习任务与适当算法相匹配的方法。
第2章提供一个在R中自己实际动手操作数据的机会,并讨论基本的数据结构以及用于载入、探索和理解数据的程序。
第3章教你如何将一个简单且功能强大的机器学习算法应用于你的第一个学习任务:识别癌症的恶性样本。
第4章揭示用于先进的垃圾邮件过滤系统的基本概率知识。在建立你自己的垃圾邮件过滤器的过程中,你将学习文本挖掘的基本知识。
第5章探索两种学习算法,它们的预测结果不仅精确而且容易解释。我们将把这两种算法应用于对透明度要求很高的任务中。
第6章介绍用于数值预测的机器学习算法。由于这些技术在很大程度上来源于统计领域,所以你还将通过学习必要的基本指标来理解数值之间的关系。
第7章包括两个极其复杂但功能强大的机器学习算法。尽管数学可能会让人望而生畏,但是我们将以简单的术语结合实际例子来说明它们内部的运作原理。
第8章揭示许多零售商使用的推荐系统的算法。如果你想知道零售商是如何比你自己更了解你的购物习惯的,本章将揭示他们的秘密。
第9章介绍k均值聚类。该算法用来查找相关个体的聚类。我们将使用该算法来确定一个网络社区内的分布。
第10章提供一些信息来度量机器学习项目是否成功,并得到学习器针对未来数据的性能的可靠估计。
第11章揭示在机器学习竞赛中排名最靠前的团队所采用的方法。如果你具有竞争意识,或者仅仅想获取数据中尽可能多的信息,那么你需要学习这些技术。
第12章探讨机器学习的前沿主题。从使用大数据到使R的运行速度更快,涉及的这些主题将帮助你拓展使用R进行数据挖掘的界限。
学习本书的知识准备
本书中的例子是基于Microsoft Windows和Mac OS X系统的R 3.5.2版本进行编写与测试的,当然,对于任意最新的R版本,这些例子都能运行。
下载示例代码文件及彩色图像
本书的示例代码文件及使用的截图或图表的彩色图像,可以从Packtpub(http://www.packtpub.com)通过个人账号下载,也可以访问华章图书官网http://www.hzbook.com,通过注册并登录个人账号下载。
本书的代码包也放在GitHub的https://github.com/PacktPublishing/Machine-Learning-with-R-Third-Edition和https://github.com/dataspelunking/MLwR/上。
本书排版约定
在本书中,你将发现一些用于区分不同类型信息的文本样式。下面是这些样式的一些例子,以及它们的含义。
书中的代码、函数名、文件名、文件扩展名、用户输入和R添加包名字,如下所示: “class包中的knn()函数提供了k-NN算法的标准经典实现”
R用户的输入和输出如下所示:

新的术语和重要概念以黑体显示。你在屏幕上看到的单词,例如,在菜单或对话框中看到的单词,像这样显示在书中:“CRAN页面左边的任务视图链接提供了添加包的长列表。”
警告或者重要注释。
提示和技巧。
致谢
如果没有家人和朋友的支持,编写本书是根本不可能的。特别是,非常感谢我的妻子Jessica在过去一年中对我的耐心与鼓励。我的儿子Will和Cal分别出生于本书第1版和第2版的写作期间,在我撰写本版时他们分散了我较多的精力。我把本书献给我的孩子们,希望有一天他们能从中受到启发,应对重大的挑战,并跟随他们的好奇心,无论他们的好奇心会通向哪里。
我还要感谢支持本书的很多人。本书的很多想法来源于我与密歇根大学、圣母大学以及中佛罗里达大学的教育工作者、同事以及合作者的交流。此外,如果没有各位研究人员以公开出版物、课程和源代码的形式分享他们的专业知识,本书可能根本就不会存在。最后,我要感谢R和RStudio团队以及所有那些贡献R添加包的人员的努力,是他们最终为大家普及了机器学习。真心希望我的这本书能对机器学习领域做出一点贡献。
关于作者
布雷特·兰茨(Brett Lantz,@DataSpelunking) 在应用创新的数据方法来理解人类的行为方面有10余年经验。他最初是一名社会学家,在研究一个包含青少年社交网络资料的大型数据库时,他就开始沉醉于机器学习。Brett是一位