前 言
PREFACE
1. 创作经历
本书作者团队大部分成员就职于深圳信息职业技术学院(以下简称信息学院)。作者们初入职信息学院时,感觉凭借自己高学历教专科生简直是杀鸡用牛刀,但是往往几节课后就深感到拳头打在棉花上,甚至是如履薄冰。几乎任何一个公式都能让学生们面面相觑,几乎任何一个算法都能让学生们变成大眼瞪小眼。学生经常单刀直入地提问题,简单粗暴:“老师,我学了这个能干什么”,而鲜有学生会问:“这个问题怎么做”“这个问题哪里出错了”“我这样做行不行”。但是一旦“能干什么”的问题明确了,随之而来会源源不断地问“怎样做”。各种“惨痛”的经历告诉我们,不解决目标问题,大多数学生没有兴趣;不解决复杂度问题,大多数学生无法掌握。
本书大多数作者都有较高的学历和较多的研究经历,深知学习的艰难和痛苦,更对“知识就是力量”有深切的体会。在作者们的学习阶段,往往发现找到一本合适的入门书是那么得难,开始就啃业界大牛的著作往往是一个从入门到放弃的过程,或者因为很多书公式过多而影响了核心理念的掌握,导致入门如登天。结合在信息学院的授课经验,我们总结出“图说图解、自上而下、够用即止、实战掌握”的教学方法,希望带给大家一本不一样的入门书。
借用凯撒的一句名言,希望大家“我来,我见,我征服”。
2. 创作背景
我们如何才能迈向新时代呢?答案就是拥抱新动能,而人工智能是新动能中最有代表性的一个。虽然人工智能和机器学习作为热门词汇早已进入了人们的视野,但是它们究竟是什么,可能社会上绝大多数人还是不知道,更别说知道它们能干什么了。但是在国家顶层,早就预见到了其力量,“十九大”报告指出:“加快发展先进制造业,推动互联网、大数据、人工智能和实体经济深度融合”。在这个大时代,为了让更多的人搭上新时代的电梯,我们精心设计所有内容,确保能学、会用、可进阶。
3. 知识体系
全书分为三个部分,分别是人工智能技术入门、传统机器学习和深度学习。
人工智能技术入门:这部分包括第1章及第2章,第1章主要从历史发展角度讲述人工智能,第2章在技术层面上为今后的学习打下“够用”的数学基础和KNIME操作基础。
传统机器学习:这部分是本书的主要部分,包括第3章到第9章,分别介绍线性回归、模型优化、逻辑回归、支持向量机、决策树、深入理解决策树和贝叶斯模型。在这部分中,我们会逐步掌握KNIME的使用,更重要的是逐步掌握机器学习的流程、数据的处理、模型的使用等技术。其中第5章模型优化和第8章深入理解决策树不是入门必备知识,可以作为选修内容。
深度学习:这部分内容只包括第10章,仅仅简单介绍深度学习的入门知识和应用技术。
4. 特色
本书的特色可以概括为“图说图解,自上而下,够用即止,实战掌握”。
“图说图解”是本书最显而易见的特色。本书将所有深奥难懂的机器学习原理图形化地展现及讲解,让读者能够从直觉上理解而不是从概念或者公式上理解。配合图形化的机器学习工具KNIME,使读者能够更方便快速地入门机器学习,免去了编程这个令初学者望而却步的前提条件。为了保证这一点,我们制作了大量的原创图片用于讲解,精挑细选了开源、免费、影响力大并且功能无限制的KNIME作为工具。
“自上而下”是本书的核心特色。本书从内容上以机器学习模型为明线,在这条明线外还有两条按照“自上而下”的教学理念设计的暗线。第一条暗线就是使用KNIME工具,从大致流程的掌握到细节的掌握,保证读者能够从大局上知道自己在干什么,进而知道细节上应该怎样设置。第二条暗线就是机器学习知识和技术由宏观理解到具体技能掌握,保证读者能够从宏观上理解一个机器学习项目的流程,接着再去理解具体技术的细节。为保证这一点,本书从简单模型入手逐步深入到复杂模型,从使用“干净”数据逐步扩展到使用“脏”数据。
“够用即止”是本书降低读者入门门槛和学习负担的保障。本书省略了大量的理论推导和公式计算,仅通过图形化方法从概念上让读者理解算法的原理,具体操作时直接使用KNIME工具即可完成。而且对于机器学习应用者来说,大多数人也没有必要理解背后的理论及公式,即使之后不用KNIME而使用Python,也是编写几句代码就可以解决的,没有必要去深究理论。为了保证这一点,我们删除了大量的公式,增加了大量的图解。
“实战掌握”是验证本书是否成功的关键。纸上谈兵毕竟不是真本事,本书采用Kaggle机器学习平台的真实竞赛为实战项目,从入门项目泰坦尼克号到复杂项目银行客户分类,在实战中使读者逐步掌握机器学习的流程、模型的设置、数据清洗、非平衡数据的处理等问题。
5. 本书是什么
本书是一本机器学习的入门书。
本书是一本关于机器学习应用的书。
本书的目标是使一个高中水平的读者通过本书能够入门机器学习,并掌握足够的进一步提升的能力。
本书也可以看成是机器学习图解的KNIME软件教程。
6. 本书不是什么
本书不研究任何机器学习公式、理论。
本书不覆盖任何机器学习模型。
本书字不多。
7. 如何使用本书
对于具有理工科背景的同学来说,建议从头至尾学习每章内容以了解每个模型的原理及其应用。对于非理工科背景或者仅仅关心模型应用的同学,可以直接阅读模型使用部分,而将模型原理部分当作手册参考即可。
每章的最后都有课后练习部分,请大家仔细思考。所有答案、模型源文件和数据都可以扫描下面的二维码索取。
关注公众号查看本书所有答案、模型源文件和数据
更多反馈可以加作者微信进入图说图解机器学习交流群交流。
作者微信
8. 编写分工
耿煜:主笔,主要负责全书的组织设计、案例分析和整体结构。
李钦:案例搜集整理与筛选。
杨耿:深度学习案例与应用。
邱婉:图解设计及绘图。
9. 致谢
感谢深圳信息职业技术学院各位老师和同学的帮助,感谢深圳兆阳信息技术研究院各位工程师的协助,感谢我们的家人、朋友。没有你们的帮助就没有这本书的问世。