本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正
书名: | (正版特价)实体识别技术|230906 |
图书定价: | 69元 |
图书作者: | 申德荣 |
出版社: | 机械工业出版社 |
出版日期: | 2017/10/1 0:00:00 |
ISBN号: | 9787111581611 |
开本: | 16开 |
页数: | 0 |
版次: | 1-1 |
内容简介 |
本书基于作者多年对数据集成的相关研究工作,从多角度阐述实体识别技术,主要包括相似度计算算法、实体识别的分块技术、典型的基于机器学习的实体识别技术和基于关系的实体记录识别技术,以及新型的实体识别技术(包括基于时间的实体识别技术、基于众包的实体识别、隐私保护下的实体识别)等内容。全书深入浅出、案例丰富,适合数据集成等方向的研究生阅读,也能为相关领域研究人员和开发人员提供重要参考。 |
目录 |
丛书前言 前言 第1章 概述1 1.1 实体识别问题的提出1 1.2 实体识别研究的发展历史2 1.3 实体识别问题的描述4 1.4 实体识别的处理流程6 1.5 实体识别的挑战6 1.5.1 相似度衡量问题7 1.5.2 计算效率问题7 1.5.3 机器学习方法的应用问题8 1.5.4 关联对象的识别问题8 1.5.5 一些新的挑战9 1.5.6 实体识别评估10 1.6 实体识别的应用10 1.6.1 医疗卫生10 1.6.2 人口普查11 1.6.3 客户关系管理12 1.6.4 网购比价13 1.6.5 犯罪及欺诈侦查13 1.6.6 关联的开放数据14 1.6.7 引文数据库15 1.7 本章小结17 参考文献17 第2章 相似度计算算法22 2.1 基于字段的相似度算法22 2.1.1 Jaccard相似度算法22 2.1.2 基于TF-IDF的相似度算法23 2.1.3 基于q-grams的相似度算法24 2.2 基于编辑距离的相似度算法25 2.2.1 Levenshtein距离算法25 2.2.2 Jaro和Jaro-Winkler距离算法26 2.3 混合的相似度算法27 2.3.1 扩展的Jaccard相似度算法27 2.3.2 Monge-Elkan相似度算法29 2.3.3 Soft TF-IDF相似度算法29 2.4 数值型数据相似度算法31 2.4.1 数字型相似度算法31 2.4.2 日期型相似度算法32 2.4.3 价格型相似度算法32 2.5 本章小结33 参考文献33 第3章 实体识别的分块技术35 3.1 引言35 3.1.1 数据分块技术的应用35 3.1.2 实体识别数据分块问题定义与算法分类38 3.2 分块键39 3.2.1 分块键的定义39 3.2.2 分块键的编码44 3.3 基于等值匹配的分块算法45 3.3.1 标准分块方法46 3.3.2 基于学习的分块键定义48 3.4 基于相似性的分块算法50 3.4.1 基于排序的分块方法51 3.4.2 基于字符串分割的分块方法54 3.4.3 基于MinHash的分块方法58 3.4.4 基于Canopy聚类的分块方法61 3.4.5 基于前缀过滤的分块方法64 3.5 本章小结69 参考文献69 第4章 基于机器学习的实体识别方法72 4.1 基于分类器的实体识别方法72 4.1.1 基于决策树的实体识别方法73 4.1.2 基于贝叶斯分类器的实体识别方法76 4.1.3 基于SVM的实体识别方法79 4.1.4 基于主动学习的实体识别方法84 4.1.5 其他方法87 4.2 基于概率图模型的实体识别方法88 4.2.1 基于马尔可夫逻辑网络的实体识别方法89 4.2.2 基于条件随机场的实体识别方法93 4.3 本章小结97 参考文献97 第5章 基于关系的实体识别方法100 5.1 引言100 5.2 联合式实体识别方法101 5.2.1 基于关系聚类的联合式实体识别方法102 5.2.2 复杂信息空间中的联合式实体识别方法108 5.3 基于实体关系的消歧方法118 5.3.1 基于社交关系的名字消歧方法119 5.3.2 基于实体关系的实体消歧方法122 5.3.3 基于异构实体关系的实体消歧方法133 5.4 本章小结140 参考文献141 第6章 新型的实体识别技术143 6.1 引言143 6.2 基于时间模型的实体识别技术144 6.2.1 一个实例145 6.2.2 时间模型146 6.2.3 基于时间模型的实体识别算法161 6.3 基于众包的实体识别技术170 6.3.1 一个实例171 6.3.2 基于众包的实体识别框架172 6.3.3 基于众包的实体识别的核心问题174 6.3.4 基于众包的实体识别方法的特点177 6.4 隐私保护下的实体识别技术178 6.4.1 实体匹配中隐私保护的分类179 6.4.2 实体识别隐私保护算法的评估182 6.5 本章小结184 参考文献184 第7章 实体识别评估187 7.1 基于记录对的精确性评价——准确率、召回率和F测度187 7.2 分块技术评价189 7.3 常用数据集190 7.3.1 真实数据集190 7.3.2 数据生成工具191 7.4 本章小结192 参考文献192 第8章 总结与展望193 8.1 实体识别研究总结193 8.2 新型实体识别研究展望195 8.2.1 基于时间模型的实体识别195 8.2.2 基于众包的实体识别196 8.2.3 隐私保护下的实体识别197 8.3 研究挑战198 |