书籍详情
《数据挖掘原理》[26M]百度网盘|亲测有效|pdf下载
  • 数据挖掘原理

  • 出版社:清华大学出版社
  • 出版时间:2019-09
  • 热度:7754
  • 上架时间:2024-06-30 09:08:33
  • 价格:0.0
书籍下载
书籍预览
免责声明

本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正

内容介绍

编辑推荐

  《数据挖掘原理(第3版)/国外计算机科学经典教材》特色:
  该书在详明实例的引导下,清晰阐述每个主题,将重点放在算法上;该书详细解释所涉及的数学基础知识,这样,即便你没有很强的数学或统计学背景,同样可理解该书的内容。每章末尾提供练习题,供读者检验自己的知识掌握水平。附录中列出完整的术语表。该书面向计算机科学、商业研究、市场营销、人工智能、生物信息学和法医学专业的学生,可用作本科和研究生教材。

内容简介

  《数据挖掘原理(第3版)/国外计算机科学经典教材》深入探讨重要的数据挖掘技术。所谓数据挖掘,即从数据中自动提取隐含和潜在有用的信息;该技术正越来越多地用于商业、科学和其他应用领域。该书浓墨重彩地描述分类、关联规则挖掘和聚类。
  普通读者可通过该书自学数据挖掘“黑匣子”内部的基本原理,并了解如何合理地选择商业数据挖掘包。学者和资深科研人员可通过该书了解前沿技术并进一步推动该领域的发展。该书在上一版的基础上进行扩展,透彻讲解适用于平稳数据的H-Tree算法,以及适用于时间相关数据(概念漂移)的CDH-Tree算法。

作者简介

  麦克斯·布拉默(Max Bramer),是英国朴次茅斯大学信息技术系荣誉教授、IFIP副主席、英国计算机学会AI专家组主席。
  自从“数据挖掘”“数据库中的知识发现”“大数据”和“预测分析”等技术兴起以来,Max积极参与了多个数据挖掘项目,尤其是与数据自动分类相关的项目。Max发表了大量技术文章,曾撰写Research and Development in Intelligent Systems等著作。Max具有多年的本科和研究生教学经验。

内页插图

目录

第1章 数据挖掘简介
1.1 数据爆炸
1.2 知识发现
1.3 数据挖掘的应用
1.4 标签和无标签数据
1.5 监督学习:分类
1.6 监督学习:数值预测
1.7 无监督学习:关联规则
1.8 无监督学习:聚类

第2章 用于挖掘的数据
2.1 标准制定
2.2 变量的类型
2.3 数据准备
2.4 缺失值
2.4.1 丢弃实例
2.4.2 用最频繁值/平均值替换
2.5 减少属性个数
2.6 数据集的UCI存储库
2.7 本章小结
2.8 自我评估练习

第3章 分类简介:朴素贝叶斯和
最近邻算法
3.1 什么是分类
3.2 朴素贝叶斯分类器
3.3 最近邻分类
3.3.1 距离测量
3.3.2 标准化
3.3.3 处理分类属性
3.4 急切式和懒惰式学习
3.5 本章小结
3.6 自我评估练习

第4章 使用决策树进行分类
4.1 决策规则和决策树
4.1.1 决策树:高尔夫示例
4.1.2 术语
4.1.3 degrees数据集
4.2 TDIDT算法
4.3 推理类型
4.4 本章小结
4.5 自我评估练习

第5章 决策树归纳:使用熵进行属性选择
5.1 属性选择:一个实验
5.2 替代决策树
5.2.1 足球/无板篮球示例
5.2.2 匿名数据集
5.3 选择要分裂的属性:使用熵
5.3.1 lens24数据集
5.3.2 熵
5.3.3 使用熵进行属性选择
5.3.4 信息增益最大化
5.4 本章小结
5.5 自我评估练习

第6章 决策树归纳:使用频率表进行属性选择
6.1 实践中的熵计算
6.1.1 等效性证明
6.1.2 关于零值的说明
6.2 其他属性选择标准:
多样性基尼指数
6.3 X2属性选择准则
6.4 归纳偏好
6.5 使用增益比进行属性选择
6.5.1 分裂信息的属性
6.5.2 总结
6.6 不同属性选择标准生成的规则数
6.7 缺失分支
6.8 本章小结
6.9 自我评估练习

第7章 估计分类器的预测精度
7.1 简介
7.2 方法1:将数据划分为训练集和测试集
7.2.1 标准误差
7.2.2 重复训练和测试
7.3 方法2:K-折交叉验证
……
第8章 连续属性
第9章 避免决策树的过度拟合
第10章 关于熵的更多信息
第11章 归纳分类的模块化规则
第12章 度量分类器的性能
第13章 处理大量数据
第14章 集成分类
第15章 比较分类器
第16章 关联规则挖掘Ⅰ
第17章 关联规则挖掘Ⅱ
第18章 关联规则挖掘
第19章 聚类
第20章 文本挖掘
第21章 分类流数据Ⅰ
第22章 分类流数据Ⅱ:时间相关数据
附录
参考文献

前言/序言

  本书面向计算机科学、商业研究、市场营销、人工智能、生物信息学和法医学专业的学生,可用作本科生或硕士研究生的入门教材。同时,对于那些希望进一步提高自身能力的技术或管理人员来说,本书也是一本极佳的自学书籍。本书所涉及的内容远超一般的数据挖掘入门书籍。与许多其他书籍不同的是,在学习过程中你不需要拥有太多的数学知识即可理解相关内容。
  数学是一种可以表达复杂思想的语言。遗憾的是,99%的人都无法很好地掌握这门语言;很多人很早就开始在学校学习一些基础知识,但学习过程往往充满曲折。
  本书涉及数学公式较少,将重点介绍相关概念。但遗憾的是,完全不使用数学符号是不可能的。附录A给出开始学习本书需要掌握的所有内容。对于那些在学校学习数学的人来说,这些内容应该是非常熟悉的。掌握这些内容后,其他内容就较好理解了。如果觉得某些数学符号难以理解,通常可放心地忽略它们,只需要关注结果和给出的详细示例即可。而对于那些希望更深入理解数据挖掘的数学基础知识的人来说,可参考附录C中列出的内容。
  过去,没有一本关于数据挖掘的入门书可使你具备该领域的研究水平——但现在,这样的日子已经过去了。本书的重点是介绍基本技术,而不是展示当今最新的数据挖掘技术,因为大多数情况下,当拿到一本书时,书中介绍的技术可能已被其他更新的技术取代了。一旦掌握了基本技术,你可通过多种渠道来了解该领域的最新进展。附录C列出一些常用资源,而其他附录包括有关本书示例中使用的主要数据集的信息,供你在自己的项目中使用。此外附录D包括技术术语表。
  为便于检查对所学知识的掌握情况,每章都包含自我评估练习。参考答案见附录E。
  另外说明一下,本书涉及大量数据集、属性和值,也涉及不少数学公式,字母繁多,格式复杂。为保证全书的科学性和严谨性,中文书中,字母的正斜体与英文原书基本保持统一。
  书末列出全书各章正文中引用的参考文献。读者在阅读正文时,会不时看到引用;引用的形式为[*],其中*为数字编号。遇到此类引用时,读者可跳转到书末,查阅相关信息。