前 言
人类从农耕社会进入工业社会用了上千年时间,从工业社会进入信息社会用了一百多年时间,而从信息时代进入数据时代仅用了不到十年时间。随着互联网、物联网、云计算的不断深入应用,产生了大量的数据,这些数据的挖掘和分析应用,需要人们掌握数据分析技术。人类正全面进入大数据分析时代。
需要是发明之母。近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是,存在大量的数据,可以被广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以应用于各种领域,包括商务管理、生产控制、市场分析、工程设计和科学探索等。
“人生苦短,我要用Python”,这是网上对Python评价最多的一句话,说明Python作为一种新兴的编程语言,已深入人心。现在我国许多地区高考试卷中都加入了Python编程的内容,一些中小学也开始开设Python编程课程。
本书重点介绍Python语言在数据处理与数据分析方面的应用技巧,涉及数据的整理、数据的输入和输出、探索性数据分析、基本数据分析、多元数据分析、时间序列数据分析、网络爬虫技术、社会网络分析、知识图谱和文献计量研究等数据分析方面的内容。附录中还提供了Python数据分析相关方法和函数等,方便读者随时查看。
全书分三部分,共9章内容。第一部分主要讲解数据分析基础知识,包括第1、2、3章,重点介绍数据收集与分析软件、数据挖掘的分析基础,以及简单数据的统计分析;第二部分讲解数据分析高级方法,包括第4、5章,主要介绍多元数据的综合分析和时序数据的模型分析;第三部分讲解大数据基本处理方法,包括第6、7、8章,重点介绍大数据分析基础应用、文献计量与科研评价、社会网络分析方法和数据分析编程平台。最后对Python的一些编程环境做了进一步介绍。
本书内容丰富,图文并茂,可操作性强且便于查阅,主要面向进行数据分析的读者,能有效地帮助读者提高数据处理与分析水平,提升工作效率。本书适合各层次的数据分析用户,既可作为初学者的入门指南,又可作为中高级用户的参考手册,同时也可作为各大中专院校和培训班的数据分析教材。
本书具有以下三大优点:
(1)使用Python科学计算发行版Anaconda,方便数据分析者使用。
读者可从https://www.anaconda.com下载安装并直接使用。
(2)公开本书自定义函数的源代码,使用者可以深入理解Python函数的编程技巧,用这些函数建立自己的开发包;并建立了本书的学习博客(http://blog.leanote.com/DaPy),书中的例子数据、习题数据及相关代码都可直接在网上下载使用。
(3)采用网络化教学平台。Python的基础版缺少一个面向一般人群的菜单界面,这对那些只想用其进行数据分析的使用者而言是一大困难,本书采用流行的Python网络分析平台Jupyter(https://jupyter.org),该平台可作为数据分析教学软件使用。
书中软件输出的坐标图多数没有标出横、纵坐标的量,目的是与软件界面保持一致。
本书在写作过程中得到了广东恒电信息科技股份有限公司的大力支持,该公司将为本书的实战操作提供可靠的实训环境支持,读者可以使用恒华大数据实训管理系统完成本书的实验操作。
本书由王斌会、王术共同完成,其中第1~5章由王斌会撰写,第6~9章由王术撰写,王斌会负责全书统稿。侯雅文、谢贤芬、何志锋、颜斌、徐锋、刘霞、蒋冠莹等进行了校对,在此深表谢意!
由于作者知识和水平有限,书中难免有错误和不足之处,欢迎读者批评指正!
作 者
2019年1月于暨南园