当前位置:主页 > 计算机电子书 > 大数据分析 > 数据挖掘下载
数据挖掘导论

数据挖掘导论 PDF 高质量版

  • 更新:2021-10-27
  • 大小:46.81MB
  • 类别:数据挖掘
  • 作者:戴红、常子冠、于宁
  • 出版:清华大学出版社
  • 格式:PDF

  • 资源介绍
  • 学习心得
  • 相关内容

本书为数据挖掘入门级教材,共分8章,主要内容分为三个专题:技术、数据和评估。技术专题包括决策树技术、K-means算法、关联分析技术、神经网络技术、回归分析技术、贝叶斯分析、凝聚聚类、概念分层聚类、混合模型聚类技术的EM算法、时间序列分析和基于Web的数据挖掘等常用的机器学习方法和统计技术。数据专题包括数据库中的知识发现处理模型和数据仓库及OLAP技术。评估专题包括利用检验集分类正确率和混淆矩阵,并结合检验集置信区间评估有指导学习模型,使用无指导聚类技术评估有指导模型,利用Lift和假设检验比较两个有指导学习模型,使用MS Excel 2010和经典的假设检验模型评估属性,使用簇质量度量方法和有指导学习技术评估无指导聚类模型。本书秉承教材风格,强调广度讲解。注重成熟模型和开源工具的使用,以提高学习者的应用能力为目标;注重结合实例和实验,加强基本概念和原理的理解和运用;注重实例的趣味性和生活性,提高学习者学习的积极性。使用章后练习、计算和实验作业巩固和检验所学内容;使用词汇表附录,解释和规范数据挖掘学科专业术语;使用适合教学的简单易用开源的Weka和通用的MS Excel软件工具实施数据挖掘验证和体验数据挖掘的精妙。本书可作为普通高等院校计算机科学、信息科学、数学和统计学专业的入门教材,也可作为如经济学、管理学、档案学等对数据管理、数据分析与数据挖掘有教学需求的其他相关专业的基础教材。同时,对数据挖掘技术和方法感兴趣,致力于相关方面的研究和应用的其他读者,也可以从本书中获取基本的指导和体验。本书配有教学幻灯片、大部分章后习题和实验的参考答案以及课程大纲。

目录

  • 第1章 认识数据挖掘 1
  • 1.1 数据挖掘的定义 1
  • 1.2 机器学习 2
  • 1.2.1 概念学习 2
  • 1.2.2 归纳学习 3
  • 1.2.3 有指导的学习 4
  • 1.2.4 无指导的聚类 7
  • 1.3 数据查询 8
  • 1.4 专家系统 8
  • 1.5 数据挖掘的过程 9
  • 1.5.1 准备数据 10
  • 1.5.2 挖掘数据 10
  • 1.5.3 解释和评估数据 10
  • 1.5.4 模型应用 11
  • 1.6 数据挖掘的作用 11
  • 1.6.1 分类 11
  • 1.6.2 估计 12
  • 1.6.3 预测 12
  • 1.6.4 无指导聚类 12
  • 1.6.5 关联关系分析 13
  • 1.7 数据挖掘技术 13
  • 1.7.1 神经网络 14
  • 1.7.2 回归分析 14
  • 1.7.3 关联分析 15
  • 1.7.4 聚类技术 16
  • 1.8 数据挖掘的应用 16
  • 1.8.1 应用领域 16
  • 1.8.2 成功案例 18
  • 1.9 Weka数据挖掘软件 19
  • 1.9.1 Weka简介 19
  • 1.9.2 使用Weka建立决策树模型 22
  • 1.9.3 使用Weka进行聚类 25
  • 1.9.4 使用Weka进行关联分析 26
  • 本章小结 27
  • 习题 28
  • 第2章 基本数据挖掘技术 30
  • 2.1 决策树 30
  • 2.1.1 决策树算法的一般过程 31
  • 2.1.2 决策树算法的关键技术 32
  • 2.1.3 决策树规则 40
  • 2.1.4 其他决策树算法 41
  • 2.1.5 决策树小结 41
  • 2.2 关联规则 42
  • 2.2.1 关联规则概述 42
  • 2.2.2 关联分析 43
  • 2.2.3 关联规则小结 46
  • 2.3 聚类分析技术 47
  • 2.3.1 K-means算法 48
  • 2.3.2 K-means算法小结 51
  • 2.4 数据挖掘技术的选择 51
  • 本章小结 52
  • 习题 53
  • 第3章 数据库中的知识发现 55
  • 3.1 知识发现的基本过程 55
  • 3.1.1 KDD过程模型 55
  • 3.1.2 知识发现软件 57
  • 3.1.3 KDD过程的参与者 58
  • 3.2 KDD过程模型的应用 58
  • 3.2.1 步骤1:商业理解 58
  • 3.2.2 步骤2:数据理解 59
  • 3.2.3 步骤3:数据准备 60
  • 3.2.4 步骤4:建模 65
  • 3.2.5 评估 66
  • 3.2.6 部署和采取行动 66
  • 3.3 实验:KDD案例 66
  • 本章小结 72
  • 习题 73
  • 第4章 数据仓库 74
  • 4.1 数据库与数据仓库 74
  • 4.1.1 数据(库)模型 75
  • 4.1.2 规范化与反向规范化 77
  • 4.2 设计数据仓库 79
  • 4.2.1 数据抽取、清洗、变换和加载 79
  • 4.2.2 数据仓库模型 82
  • 4.2.3 数据集市 85
  • 4.2.4 决策支持系统 86
  • 4.3 联机分析处理 87
  • 4.3.1 概述 87
  • 4.3.2 实验:使用OLAP辅助驾驶员行为分析 90
  • 4.4 使用Excel数据透视表和数据透视图分析数据 93
  • 4.4.1 创建简单数据透视表和透视图 93
  • 4.4.2 创建多维透视表和透视图 97
  • 本章小结 100
  • 习题 100
  • 第5章 评估技术 102
  • 5.1 数据挖掘评估概述 102
  • 5.1.1 评估内容 102
  • 5.1.2 评估工具 103
  • 5.2 评估有指导学习模型 108
  • 5.2.1 评估分类类型输出模型 108
  • 5.2.2 评估数值型输出模型 109
  • 5.2.3 计算检验集置信区间 111
  • 5.2.4 无指导聚类技术的评估作用 112
  • 5.3 比较有指导学习模型 112
  • 5.3.1 使用Lift比较模型 112
  • 5.3.2 通过假设检验比较模型 114
  • 5.4 属性评估 115
  • 5.4.1 数值型属性的冗余检查 115
  • 5.4.2 数值属性显著性的假设检验 117
  • 5.5 评估无指导聚类模型 118
  • 本章小结 118
  • 习题 119
  • 第6章 神经网络技术 120
  • 6.1 神经网络概述 120
  • 6.1.1 神经网络模型 120
  • 6.1.2 神经网络的输入和输出数据格式 121
  • 6.1.3 激励函数 123
  • 6.2 神经网络训练 124
  • 6.2.1 反向传播学习 124
  • 6.2.2 自组织映射的无指导聚类 127
  • 6.2.3 实验:应用BP算法建立前馈神经网络 130
  • 6.3 神经网络模型的优势和缺点 138
  • 本章小结 138
  • 习题 139
  • 第7章 统计技术 141
  • 7.1 回归分析 141
  • 7.1.1 线性回归分析 142
  • 7.1.2 非线性回归 149
  • 7.1.3 树回归 151
  • 7.2 贝叶斯分析 152
  • 7.3 聚类技术 156
  • 7.3.1 分层聚类 156
  • 7.3.2 基于模型的聚类 163
  • 7.4 数据挖掘中的统计技术与机器学习技术 165
  • 本章小结 165
  • 习题 167
  • 第8章 时间序列和基于Web的数据挖掘 169
  • 8.1 时间序列分析 169
  • 8.1.1 概述 169
  • 8.1.2 线性回归分析解决时间序列问题 173
  • 8.1.3 神经网络技术解决时间序列问题 175
  • 8.2 基于Web的数据挖掘 176
  • 8.2.1 概述 176
  • 8.2.2 Web文本挖掘 178
  • 8.2.3 Web使用挖掘 179
  • 8.3 多模型分类技术 185
  • 8.3.1 装袋技术 185
  • 8.3.2 推进技术 185
  • 本章小结 186
  • 习题 187
  • 附录A 词汇表 188
  • 附录B 数据挖掘数据集 201
  • 参考文献

资源获取

资源地址1:https://pan.baidu.com/s/1ApvzdpoV_xYXPkfcuNv2yg

相关资源

网友留言