随着互联网的迅猛发展和信息传播手段的丰富,人类已经进人一个信息爆炸的大数据时代。面对日益增长的网络大数据,高效快捷地获取有用信息,已经成为时代发展的迫切需要。本书以作者及其研发团队十余年来在大数据搜索与挖掘领域所作的研究与应用工作为主线,介绍大数据搜索与挖掘的基本原理,就网络信息智能处理技术中的Web,数据挖掘、自然语言处理(如分词、词典管理、主题词抽取、摘要、分类、聚类、有意义串挖掘等)技术、信息检索与知识发现等进行阐述,并着重从中文自然语言处理的角度来提高信息检索与挖掘的质量,力争开发出性能优异的大数据搜索与挖掘系统。
全书突出原创性的研究成果,理论与实践并重,强调算法、技术实现与实际应用,其主要内容涉及作者团队近年来的研究成果,囊括了大数据搜索、中文自然语言处理、网络信息预处理、网络情报挖掘(包括网络语言分析、新特征语言抽取、汉语词法分析、文本自动分类、自动聚类、自动摘要、关键词抽取)、网络精准搜索(包括信息检索模型、句子搜索)等方面的研究成果,并从实际应用出发,介绍作者参与研发的科研成果及在相关部门的应用。
全书成果主要涉及张华平及其指导的研究生的科研成果,有些章节内容直接来自成果论文;高凯完成了有关算法、网络信息获取、搜索引擎等内容以及部分相关工作综述、扩展阅读等的撰写工作;黄河燕教授审阅了全书;赵燕平教授完成了最后的统稿工作。在这里,对导师以及相关工作的合作者白硕研究员、刘群教授、程学旗教授等表示衷心感谢。在本书的写作与相关科研课题的研究工作中,得到了多方面的支持与帮助,并参考了作者指导的部分研究生(贺敏、张京阳、王思力、黄玉兰、秦鹏、刘志华等)以及课题组成员于满泉等的博士学位论文和赵燕平老师一些学生的硕士学位论文,而有关信息检索模型部分系摘自由张华平等翻译、Grossman和Frieder合著的信息检索专著Information Retrieval:Algorithms and Heuristics(Second Edition)中的部分章节。另外,国内外众多的信息检索与数据挖掘方面的研究成果和相关网站亦为本书提供了帮助,本书的顺利完成也得益于参阅了大量的相关工作及研究成果,在此谨向这些文献的作者以及为本书提供帮助的人致以诚挚的谢意和崇高的敬意。
本书得到2013年国家自然科学基金(编号:61272362)、国家973重点基础研究发展计划(编号:2013CB329606)、2012年河北省科技支撑计划(编号:12213516D)、2012年新疆维吾尔自治区高新技术计划(编号:201212124)、2013年河北省自然科学基金(编号:F2013208105)的资助。在本书写作过程中,也得到了科学出版社的大力支持和帮助,在此一并表示衷心感谢。
限于作者的学识水平,书中不妥之处在所难免,恳请广大读者批评指正。
作者
2014年2月