Scikit-learn是基于Python的开源免费机器学习库,起源于发起人David Cournapeau在2007年参加的GSoC(Google Summer of Code)的一个项目,目前已经成为最受欢迎的机器学习库之一。为了帮助有志于从事人工智能,特别是机器学习的开发者和爱好者快速掌握Scikit-learn,我们试图通过上、下两册把这个内容丰富、功能强大的机器学习框架通过系统条理、通俗易懂的讲解展现给大家。上册已经于2020年由化学工业出版社出版,主要介绍了机器学习的基础知识以及学习Scikit-learn的预备知识,本书将以Scikit-learn提供的算法和模型为基础,讲解各种算法的原理、实现技术和应用案例,使读者在高效应用Scikit-learn技术方面更上一层楼。
回归是有监督学习中的两大分支之一。本书首先介绍了回归的基础知识、回归算法以及回归模型的各种度量模型性能的指标,紧接着介绍了Scikit-learn中实现的各种线性回归模型,重点包括普通最小二乘法回归、岭回归、Lasso回归、弹性网络回归、正交匹配追踪回归、贝叶斯回归、广义线性回归、随机梯度下降回归、被动攻击回归、各种鲁棒回归算法和多项式回归等。其中随机梯度下降回归实际上是一种模型训练的方法,是很多其他算法拟合过程中所使用的一种优化策略。本书继线性回归模型之后,介绍了Scikit-learn中实现的各种非线性回归模型,重点包括支持向量机回归、核岭回归、最近邻回归、高斯过程回归、决策树回归、神经网络回归和保序回归等。实际上很多非线性回归模型和线性回归模型同时具备回归和分类的功能。
分类是有监督学习中的两大分支之一。本书介绍了分类算法以及分类模型的各种度量模型性能的指标。同回归模型一样,分类模型可以分为线性分类和非线性分类两种模型,本书介绍了Scikit-learn中实现的各种线性分类模型和非线性分类模型,线性分类模型重点包括岭分类、逻辑线性回归、随机梯度下降分类、感知机和被动攻击分类等,其中逻辑线性回归从名称上看似乎是一个回归模型,但是实际上它是一种分类算法。非线性分类模型重点包括支持向量机分类、最近邻分类、高斯过程分类、各种朴素贝叶斯分类、决策树分类和神经网络分类等。最后,本书介绍了无监督学习、半监督学习的基础知识和各种度量性能指标,包括Scikit-learn中实现的各种无监督学习中最为常用的聚类、双聚类模型以及各种半监督学习模型。
本书对每种算法给出了具体的实例,加以详细讲解,由浅入深、循序渐进;全书尽量用通俗易懂的语言对知识难点进行描述,并配以大量的图片和代码,形象化地把技术内容呈现给读者,使读者快速理解、掌握每个知识点,有效降低学习门槛。本书内容丰富,轻松易学。我们相信,通过阅读本书,读者学到的不仅仅是Scikit-learn本身,更能够较为全面地理解各种模型的原理,掌握各种模型的应用,在大数据及人工智能领域大显身手。
本书给出的各个例子运行的Python版本号是Ver3.8.1,所有实例包都可以通过QQ:420165499或微信:13671359581联系笔者免费索取。读者在学习和使用过程中,若有任何问题,可通过QQ在线咨询,笔者将竭诚为您服务。最后,非常感谢您阅读本书,希望本书对您的工作和事业有所裨益。
著者
2021年2月