本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正
书名: | 深入理解机器学习:从原理到算法|4972224 |
图书定价: | 79元 |
图书作者: | (以) 沙伊·沙莱夫-施瓦茨(Shai Shalev-Shwartz);(加)沙伊·本戴维(Shai Ben-David) |
出版社: | 机械工业出版社 |
出版日期: | 2016/7/1 0:00:00 |
ISBN号: | 9787111543022 |
开本: | 16开 |
页数: | 0 |
版次: | 1-1 |
作者简介 |
以色列希伯来大学副教授Shai ShalevShwartz和加拿大滑铁卢大学教授Shai BenDavid的专著《Understanding Machine Learning:From Theory to Algorithms》是机器学习领域一部具有里程碑意义的著作。 近几年,机器学习是人工智能研究领域中最活跃的分支之一,已成为信息科学领域解决实际问题的重要方法,它的应用已遍及人工智能的各个应用领域。机器学习又是一个多学科的交叉领域,涉及数学、自动化、计算机科学、应用心理学、生物学和神经生理学等。这种学科交叉融合带来的良性互动,无疑促进了包括机器学习在内的诸学科的发展与繁荣。 本书内容十分丰富,作者以****的广度和深度,介绍了目前机器学习中重要的理论和关键的算法。本书没有陷入“科普”式的堆砌材料的写作方式,由于作者是该领域的权威专家,因此在介绍各种理论和算法时,时刻不忘将不同理论、算法的对比与作者自身的研究成果传授给读者,使读者不至于对如此丰富的理论和算法无所适从。另外,特别值得指出的是,本书第一部分非常有特色,也是非常重要的一部分。这部分内容从更高的观点和更深的层次探讨机器学习的许多理论基础,引入对指导理论研究和实际应用都至关重要的概率近似正确(Probably Approximately Correct,PAC)学习理论。该理论旨在回答由机器学习得到的结果到底有多高的可信度与推广能力,从某种意义上来说,只有懂得了该部分,才可能透彻地理解和更好地运用其他章节的内容。国内关于PAC学习的资料非常少,在翻译过程中团队成员碰到了极大的困难,我们人工智能与机器学习研究团队为此进行了多方论证并多次召开专题讨论会。 本书主要面向人工智能、机器学习、模式识别、数据挖掘、计算机应用、生物信息学、数学和统计学等领域的研究生和相关领域的科技人员。翻译出版中译本的目的,是希望能为国内广大从事相关研究的学者和研究生提供一本全面、系统、权威的教科书和参考书。如果能做到这一点,译者将感到十分欣慰。 必须说明的是,本书的翻译是中国科学院自动化研究所人工智能与机器学习研究团队集体努力的结果,团队的成员杨雪冰、匡秋明、蒋晓娟、薛伟、魏波、李思园、张似衡、曾凡霞、于廷照、王鑫、李涛、杨叶辉、胡文锐、张志忠、唐永强、陈东杰、何泽文、张英华、李悟、李硕等参与了本书的翻译工作,李思园老师参与了全书的审校与修正。感谢机械工业出版社华章分社的大力协助,倘若没有他们的热情支持,本书的中译版难以如此迅速地与大家见面。另外,本书的翻译得到了国家自然科学基金委重点项目和面上项目(61472423、U1135005、61432008、61532006、61305018、61402481等)的资助,特此感谢。 在翻译过程中,我们力求准确地反映原著内容,同时保留原著的风格。但由于译者水平有限,书中难免有不妥之处,恳请读者批评指正。 最后,谨把本书的中译版献给我的博士生导师王珏研究员!王珏老师生前对机器学习理论、算法和应用非常关注,对于PAC可学习理论也有着独到而深刻的理解,他启发并引领了我们研究团队对机器学习理论和算法的研究工作,使我们终身受益。 中国科学院自动化研究所 张文生 2016年4月于北京 |
内容简介 |
本书涵盖了机器学习领域中的严谨理论和实用方法,讨论了学习的计算复杂度、凸性和稳定性、PAC-贝叶斯方法、压缩界等概念,并介绍了一些重要的算法范式,包括随机梯度下降、神经元网络以及结构化输出。 全书讲解全面透彻,适合有一定基础的高年级本科生和研究生学习,也适合作为IT行业从事数据分析和挖掘的专业人员以及研究人员参考阅读。 |
目录 |
出版者的话 译者序 前言 致谢 第1章引论1 1.1什么是学习1 1.2什么时候需要机器学习2 1.3学习的种类3 1.4与其他领域的关系4 1.5如何阅读本书4 1.6符号6 第一部分理论基础 第2章简易入门10 2.1一般模型——统计学习理论框架10 2.2经验风险最小化11 2.3考虑归纳偏置的经验风险最小化12 2.4练习15 第3章一般学习模型17 3.1PAC学习理论17 3.2更常见的学习模型18 3.2.1放宽可实现假设——不可知PAC学习18 3.2.2学习问题建模19 3.3小结21 3.4文献评注21 3.5练习21 第4章学习过程的一致收敛性24 4.1一致收敛是可学习的充分条件24 4.2有限类是不可知PAC可学习的25 4.3小结26 4.4文献评注27 4.5练习27 第5章偏差与复杂性权衡28 5.1“没有免费的午餐”定理28 5.2误差分解31 5.3小结31 5.4文献评注32 5.5练习32 第6章VC维33 6.1无限的类也可学习33 6.2VC维概述34 6.3实例35 6.3.1阈值函数35 6.3.2区间35 6.3.3平行于轴的矩形35 6.3.4有限类36 6.3.5VC维与参数个数36 6.4PAC学习的基本定理36 6.5定理6.7的证明37 6.5.1Sauer引理及生长函数37 6.5.2有小的有效规模的类的一致收敛性39 6.6小结40 6.7文献评注41 6.8练习41 第7章不一致可学习44 7.1不一致可学习概述44 7.2结构风险最小化46 7.3最小描述长度和奥卡姆剃刀48 7.4可学习的其他概念——一致收敛性50 7.5探讨不同的可学习概念51 7.6小结53 7.7文献评注53 7.8练习54 第8章学习的运行时间56 8.1机器学习的计算复杂度56 8.2ERM规则的实现58 8.2.1有限集58 8.2.2轴对称矩形59 8.2.3布尔合取式59 8.2.4学习三项析取范式60 8.3高效学习,而不通过合适的ERM60 8.4学习的难度*61 8.5小结62 8.6文献评注62 8.7练习62 第二部分从理论到算法 第9章线性预测66 9.1半空间66 9.1.1半空间类线性规划67 9.1.2半空间感知器68 9.1.3半空间的VC维69 9.2线性回归70 9.2.1最小平方70 9.2.2多项式线性回归71 9.3逻辑斯谛回归72 9.4小结73 9.5文献评注73 9.6练习73 第10章boosting75 10.1弱可学习75 10.2AdaBoost78 10.3基础假设类的线性组合80 10.4AdaBoost用于人脸识别82 10.5小结83 10.6文献评注83 10.7练习84 第11章模型选择与验证85 11.1用结构风险最小化进行模型选择85 11.2验证法86 11.2.1留出的样本集86 11.2.2模型选择的验证法87 11.2.3模型选择曲线88 11.2.4k折交叉验证88 11.2.5训练验证测试拆分89 11.3如果学习失败了应该做什么89 11.4小结92 11.5练习92 第12章凸学习问题93 12.1凸性、利普希茨性和光滑性93 12.1.1凸性93 12.1.2利普希茨性96 12.1.3光滑性97 12.2凸学习问题概述98 12.2.1凸学习问题的可学习性99 12.2.2凸利普希茨/光滑有界学习问题100 12.3替代损失函数101 12.4小结102 12.5文献评注102 12.6练习102 第13章正则化和稳定性104 13.1正则损失最小化104 13.2稳定规则不会过拟合105 13.3Tikhonov正则化作为稳定剂106 13.3.1利普希茨损失108 13.3.2光滑和非负损失108 13.4控制适合与稳定性的权衡109 13.5小结111 13.6文献评注111 13.7练习111 第14章随机梯度下降114 14.1梯度下降法114 14.2次梯度116 14.2.1计算次梯度117 14.2.2利普希茨函数的次梯度118 14.2.3次梯度下降118 14.3随机梯度下降118 14.4SGD的变型120 14.4.1增加一个投影步120 14.4.2变步长121 14.4.3其他平均技巧121 14.4.4强凸函数*121 14.5用SGD进行学习123 14.5.1SGD求解风险极小化123 14.5.2SGD求解凸光滑学习问题的分析124 14.5.3SGD求解正则化损失极小化125 14.6小结125 14.7文献评注125 14.8练习126 第15章支持向量机127 15.1间隔与硬SVM127 15.1.1齐次情况129 15.1.2硬SVM的样本复杂度129 15.2软SVM与范数正则化130 15.2.1软SVM的样本复杂度131 15.2.2间隔、基于范数的界与维度131 15.2.3斜坡损失*132 15.3**化条件与“支持向量”*133 15.4对偶*133 15.5用随机梯度下降法实现软SVM134 15.6小结135 15.7文献评注135 15.8练习135 第16章核方法136 16.1特征空间映射136 16.2核技巧137 16.2.1核作为表达先验的一种形式140 16.2.2核函数的特征*141 16.3软SVM应用核方法141 16.4小结142 16.5文献评注143 16.6练习143 第17章多分类、排序与复杂预测问题145 17.1一对多和一对一145 17.2线性多分类预测147 17.2.1如何构建Ψ147 17.2.2对损失敏感的分类148 17.2.3经验风险最小化149 17.2.4泛化合页损失149 17.2.5多分类SVM和SGD150 17.3结构化输出预测151 17.4排序153 17.5二分排序以及多变量性能测量157 17.6小结160 17.7文献评注160 17.8练习161 第18章决策树162 18.1采样复杂度162 18.2决策树算法163 18.2.1增益测量的实现方式164 18.2.2剪枝165 18.2.3实值特征基于阈值的拆分规则165 18.3随机森林165 18.4小结166 18.5文献评注166 18.6练习166 第19章最近邻167 19.1k近邻法167 19.2分析168 19.2.11NN准则的泛化界168 19.2.2“维数灾难”170 19.3效率实施*171 19.4小结171 19.5文献评注171 19.6练习171 第20章神经元网络174 20.1前馈神经网络174 20.2神经网络学习175 20.3神经网络的表达力176 20.4神经网络样本复杂度178 20.5学习神经网络的运行时179 20.6SGD和反向传播179 20.7小结182 20.8文献评注183 20.9练习183 第三部分其他学习模型 第21章在线学习186 21.1可实现情况下的在线分类186 21.2不可实现情况下的在线识别191 21.3在线凸优化195 21.4在线感知器算法197 21.5小结199 21.6文献评注199 21.7练习199 第22章聚类201 22.1基于链接的聚类算法203 22.2k均值算法和其他代价最小聚类203 22.3谱聚类206 22.3.1图割206 22.3.2图拉普拉斯与松弛图割算法206 22.3.3非归一化的谱聚类207 22.4信息瓶颈*208 22.5聚类的进阶观点208 22.6小结209 22.7文献评注210 22.8练习210 第23章维度约简212 23.1主成分分析212 23.1.1当dm时一种更加有效的求解方法214 23.1.2应用与说明214 23.2随机投影216 23.3压缩感知217 23.4PCA还是压缩感知223 23.5小结223 23.6文献评注223 23.7练习223 第24章生成模型226 24.1极大似然估计226 24.1.1连续随机变量的极大似然估计227 24.1.2极大似然与经验风险最小化228 24.1.3泛化分析228 24.2朴素贝叶斯229 24.3线性判别分析230 24.4隐变量与EM算法230 24.4.1EM是交替**化算法232 24.4.2混合高斯模型参数估计的EM... |
编辑推荐 |
|