书籍详情
《大数据搜索与挖掘》[59M]百度网盘|亲测有效|pdf下载
  • 大数据搜索与挖掘

  • 出版社:科学出版社旗舰店
  • 出版时间:2015-11
  • 热度:7207
  • 上架时间:2024-06-30 09:08:33
  • 价格:0.0
书籍下载
书籍预览
免责声明

本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正

内容介绍



本店POD版图书均在书名下有明显红字标注,POD图书属于按需定制,您下单购买后我们才开始印刷,故不可取消订单。
我们一般会在您下单后的7-10个工作日内完成发货,请谨慎下单!商品无质量问题不支持退货,定价和装帧可能会与原书不同,请以实物为准!详情请咨询客服
购买电子版图书请与客服直接联系,或者到科学出版社电子商务平台直接购买

大数据搜索与挖掘
定价 90.00
出版社 科学出版社
版次 1
出版时间 2015年11月
开本 16
作者 张华平,高凯,黄河燕,赵燕平
装帧 平装
页数 312
字数 391
ISBN编码 9787030403186


内容介绍

《信息科学技术学术著作丛书:大数据搜索与挖掘》主要以作者十余年在工业控制网搜索与挖掘领域所作的研究与应用工作为内容,全面介绍我们在工业控制网信息预处理、挖掘(包括:工业控制网络分析、新特征抽取、分类等)、搜索等方面的研究成果,并介绍在工业网,包括中国邮政、中国证监会、四维图新等单位的实际应用案例。专著突出自己的研究成果为主,理论与实践并重,强调技术工程实现与实际应用。


作者介绍

    张华平,1978年出生。工学博士,北京理工大学副教授。毕业于中国科学院计算技术研究所。汉语词法分析系统ICTCLAS创始人,ICTCLAS在国家973评测和第*届国际汉语分词大赛中综合得分均获得第*名。

    主要从事大数据搜索与挖掘、自然语言处理、信息检索等方面的研究工作,主持或参与国家自然科学基金、863、973、242等十余项课题。曾先后获得2010年度钱伟长中文信息处理科学技术奖一等奖,中国科学院院长优秀奖、中国科学院计算技术研究所所长特别奖,是中国科学院计算技术研究所“百星计划”首批入选者。


目录

《信息科学技术学术著作丛书》序
前言
第1章  绪论
1.1  大数据
1.2  云计算及Hadoop简介
1.3  Web搜索、全文索引与Lucene简介
1.3.1  Web搜索
1.3.2  全文索引
1.3.3  Lucene简介
1.4  大数据挖掘
1.5  本书主要内容及其知识点
1.6  本章小结
参考文献

第2章  大数据搜索挖掘综述
2.1  常用的信息检索模型
2.1.1  传统布尔检索与扩展布尔检索模型
2.1.2  向量空间模型
2.1.3  概率检索模型
2.1.4  语言模型
2.2  自然语言理解与处理概述
2.3  中文词法分析中的分词处理
2.3.1  基于词典和规则的汉字分词
2.3.2  基于大规模语料库的统计学习的分词方法
2.3.3  规则和统计方法相结合的汉字分词方法
2.4  未登录词及其识别
2.4.1  命名实体及其识别
2.4.2  未登录词与新词识别
2.5  有意义串及其识别
2.6  词典组织与管理
2.6.1  基于Trie索引树的词典管理
2.6.2  基于哈希表的词典管理
2.7  文本分类
2.8  文本聚类
2.8.1  文本表示
2.8.2  相似度度量
2.8.3  聚类算法体系
2.9  话题识别与跟踪
2.10  句子及其检索
2.10.1  传统的文档检索方法
2.10.2  信息过滤方法
2.10.3  分类方法
2.10.4  语义比较方法
2.10.5  隐马尔可夫模型方法
2.10.6  自动文摘方法
2.11  句子级新信息检测
2.11.1  词重叠度
2.11.2  zui大区间相关度
2.11.3  余弦冗余度
2.11.4  命名实体触发方法
2.11.5  统计机器翻译模型
2.11.6  LexRank方法
2.12  本章小结
参考文献

第3章  大数据检索与分词
3.1  概述
3.2  分词对中文信息检索的影响
3.3  分词精度与检索性能的关系
3.4  大数据应用环境下中文信息检索的分词算法及其特点
3.4.1  分词算法的时间性能要求高
……
第4章  基于层次隐马尔可夫模型的浅层词法分析
第5章  大数据语言新特征发现
第7章  大数据文本自动摘要
第8章  JZSearch大数据精准搜索引擎
第9章  面向大数据的句子检索与新颖性监测
第10章  人物追踪中的数据预处理与属性抽取
第11章  人物模型组织与基于事件的信息处理
附录A  ICTCLAS/NLPIR 2014汉语分词系统介绍
附录B  NLPIR大数据搜索与挖掘共享开发平台
随着互联网的迅猛发展和信息传播手段的丰富,人类已经进人一个信息爆炸的大数据时代。面对日益增长的网络大数据,高效快捷地获取有用信息,已经成为时代发展的迫切需要。本书以作者及其研发团队十余年来在大数据搜索与挖掘领域所作的研究与应用工作为主线,介绍大数据搜索与挖掘的基本原理,就网络信息智能处理技术中的Web,数据挖掘、自然语言处理(如分词、词典管理、主题词抽取、摘要、分类、聚类、有意义串挖掘等)技术、信息检索与知识发现等进行阐述,并着重从中文自然语言处理的角度来提高信息检索与挖掘的质量,力争开发出性能优异的大数据搜索与挖掘系统。
全书突出原创性的研究成果,理论与实践并重,强调算法、技术实现与实际应用,其主要内容涉及作者团队近年来的研究成果,囊括了大数据搜索、中文自然语言处理、网络信息预处理、网络情报挖掘(包括网络语言分析、新特征语言抽取、汉语词法分析、文本自动分类、自动聚类、自动摘要、关键词抽取)、网络精准搜索(包括信息检索模型、句子搜索)等方面的研究成果,并从实际应用出发,介绍作者参与研发的科研成果及在相关部门的应用。
全书成果主要涉及张华平及其指导的研究生的科研成果,有些章节内容直接来自成果论文;高凯完成了有关算法、网络信息获取、搜索引擎等内容以及部分相关工作综述、扩展阅读等的撰写工作;黄河燕教授审阅了全书;赵燕平教授完成了zui后的统稿工作。在这里,对导师以及相关工作的合作者白硕研究员、刘群教授、程学旗教授等表示衷心感谢。在本书的写作与相关科研课题的研究工作中,得到了多方面的支持与帮助,并参考了作者指导的部分研究生(贺敏、张京阳、王思力、黄玉兰、秦鹏、刘志华等)以及课题组成员于满泉等的博士学位论文和赵燕平老师一些学生的硕士学位论文,而有关信息检索模型部分系摘自由张华平等翻译、Grossman和Frieder合著的信息检索专著Information Retrieval:Algorithms and Heuristics(Second Edition)中的部分章节。另外,国内外众多的信息检索与数据挖掘方面的研究成果和相关网站亦为本书提供了帮助,本书的顺利完成也得益于参阅了大量的相关工作及研究成果,在此谨向这些文献的作者以及为本书提供帮助的人致以诚挚的谢意和崇高的敬意。
本书得到2013年国家自然科学基金(编号:61272362)、国家973重点基础研究发展计划(编号:2013CB329606)、2012年河北省科技支撑计划(编号:12213516D)、2012年新疆维吾尔自治区高新技术计划(编号:201212124)、2013年河北省自然科学基金(编号:F2013208105)的资助。在本书写作过程中,也得到了科学出版社的大力支持和帮助,在此一并表示衷心感谢。
限于作者的学识水平,书中不妥之处在所难免,恳请广大读者批评指正。
作者
2014年2月


在线试读

第5章大数据语言新特征发现
5.1概述
信息的基本单位是句子,一个句子可以较完整的表达连贯的易于理解的语义。句子中起主要作用的往往是关键词、词组或短语,而句子中的其他成分只是起到进一步修饰连接的作用,它们只是对基本信息的细化和补充。一旦获得这些有意义的关键信息,便能获取句子的基本信息。因此,新特征语言和有意义串发现对中文自然语言理解是很有意义的。发现频繁使用的新词和短语等有意义串,如“黑砖窑事件”、“次贷”、“大小非”、“D字头”、“奥运钞”、“山寨”、“打酱油”、“叉腰肌”、“艳照门”、“凤凰男”、“俯卧撑”、“自主创新”、“十二五规划”、“和谐社会”、“社会主义新农村”、“社会主义荣辱观”等,不仅能改进分词准确率,也有广泛的应用前景。其应用领域主要如下几个方面。
第*,是对信息检索索引词的分析。例如,“计算技术研究所”是一个完整的查询词,而“计算”或者“技术”几乎不会用来去查询。当用户想搜索大众汽车时,输入“大众”得到的搜索结果可能不太准确,包含很多类似“人民大众”、“劳苦大众”这样非大众汽车的信息,而作为有意义串的“上海大众”具有语义完整性,能够排除歧义,一般能更准确地描述用户的需求。所以,有意义串能够应用到信息检索的查询词修正以及相关的搜索分析。
第二,在社会热点挖掘与跟踪方面有应用价值。一个有意义串就是一个线索,就是一个很有价值的社会现象。它们往往包含了网民对当前社会各种现象的立场和观点。因此,对新特征语言和有意义串的挖掘,对社会热点挖掘与舆情监控的意义重大。
第三,能用于信息分析与特征提取。除字和词外,常用的文本特征项主要有短语、语义概念、有意义串等。有意义串的提取对于改善文本分类和聚类性能具有重要指导意义。
第四,对词典扩充与语料库建设意义重大。由于新词出现的速度不断加快,新词出现的领域不断扩大,使用传统的人工方法搜集新词语,既耗时又耗力且时效性差。如果利用电脑的计算能力和自动检测方法,可以快速输出新词候选供人工进行筛选,这将大大减轻人的负担。若能将新词属于有意义串的一部分自动提取出来,必将促进语料库的自动化建设。此外,有意义串挖掘进一步深化可以进行关键频繁模式挖掘,对更高层次的文本自动内容抽取、话题检测和机器翻译等应用。
……