数据仓库与数据挖掘技术 PDF 超清完整版

  • 更新时间:
  • 4870人关注
  • 点击下载

给大家带来的一篇关于数据分析相关的电子书资源,介绍了关于数据仓库、数据挖掘方面的内容,本书是由清华大学出版社出版,格式为PDF,资源大小34.61MB,孙水华,赵钊林,刘建华编写,目前豆瓣、亚马逊、当当、京东等电子书综合评分为:8.2分

数据仓库与数据挖掘技术

作者: 孙水华,赵钊林,刘建华 著

出版时间: 2012

丛编项: 高等院校信息管理与信息系统专业系列教材

《高等院校信息管理与信息系统专业系列教材:数据仓库与数据挖掘技术》主要介绍数据仓库和数据挖掘技术的基本概念、相关技术和应用案例及方法。《高等院校信息管理与信息系统专业系列教材:数据仓库与数据挖掘技术》共分为9章,主要包括:数据仓库与数据挖掘的概念和体系结构、数据仓库开发模型、etl技术、olap技术、商务智能系统、数据预处理技术、数据挖掘技术、数据仓库开发实例、报表设计等内容。《高等院校信息管理与信息系统专业系列教材:数据仓库与数据挖掘技术》各章节的案例均使用microsoftsqlserver2005进行操作实践讲解。通过对具体实例的学习和实践,使读者掌握数据仓库和数据挖掘中必要的知识点,达到学以致用的目的。《高等院校信息管理与信息系统专业系列教材:数据仓库与数据挖掘技术》适合作为高等院校本科学生的教材,也可供企业信息化管理人员、技术人员以及软件开发人员阅读参考。

目录

  • 第1章 数据仓库与数据挖掘概述
  • 1.1数据仓库的产生与发展
  • 1.1.1数据仓库的产生
  • 1.1.2数据仓库的发展
  • 1.1.3数据仓库的研究与开发现状
  • 1.1.4数据仓库的作用
  • 1.2数据仓库的基本概念
  • 1.2.1数据仓库的定义与基本特性
  • 1.2.2数据仓库与数据库的区别
  • 1.2.3数据仓库数据的组织架构
  • 1.3数据仓库的体系结构
  • 1.3.1虚拟的数据仓库体系结构
  • 1.3.2单独的数据仓库体系结构
  • 1.3.3单独的数据集市体系结构
  • 1.3.4分布式数据仓库结构
  • 1.4数据仓库的相关概念
  • 1.4.1数据源
  • 1.4.2数据的存储层
  • 1.4.3olap服务器
  • 1.4.4前端工具
  • 1.5数据挖掘技术概述
  • 1.5.1数据挖掘技术产生的背景
  • 1.5.2数据挖掘的基本概念
  • 1.5.3数据挖掘的对象
  • 1.5.4数据挖掘功能
  • 1.5.5数据挖掘与传统分析方法的区别
  • 1.5.6数据仓库与数据挖掘的关系
  • 1.5.7数据挖掘的发展趋势
  • 1.6数据挖掘过程
  • 1.6.1fayyad过程模型
  • 1.6.2crisp-dm过程模型
  • 1.6.3其他数据挖掘过程模型
  • 1.7常用的数据挖掘技术
  • 1.8小结
  • 1.9习题
  • 第2章 数据仓库开发模型
  • 2.1数据仓库开发模型概述
  • 2.2数据仓库的概念模型
  • 2.2.1企业模型的建立
  • 2.2.2规范的数据模型
  • 2.2.3常见的概念模型
  • 2.3数据仓库的逻辑模型
  • 2.3.1事实表模型设计
  • 2.3.2维度表模型设计
  • 2.4数据仓库的物理模型
  • 2.4.1物理模型的设计要点
  • 2.4.2数据仓库物理模型的存储结构
  • 2.4.3数据仓库物理模型的索引构建
  • 2.4.4数据仓库物理模型的优化问题
  • 2.5数据仓库的元数据模型
  • 2.5.1元数据的类型
  • 2.5.2元数据的作用
  • 2.5.3元数据的收集与维护
  • 2.5.4元数据的使用
  • 2.5.5元数据管理模型
  • 2.6数据仓库的粒度和聚集模型
  • 2.6.1数据仓库粒度模型
  • 2.6.2数据仓库聚集模型与数据分割
  • 2.7小结
  • 2.8习题
  • 第3章 etl技术
  • 3.1etl相关概念
  • 3.1.1数据理解
  • 3.1.2数据抽取
  • 3.1.3数据清洗
  • 3.1.4数据转换
  • 3.1.5数据加载
  • 3.2etl过程建模
  • 3.2.1etl系统面临的挑战
  • 3.2.2etl过程描述
  • 3.2.3etl概念模型
  • 3.2.4etl逻辑模型
  • 3.3etl增量抽取机制
  • 3.4etl过程数据质量控制
  • 3.4.1数据质量问题分类
  • 3.4.2数据质量控制技术
  • 3.5etl并行处理技术
  • 3.6小结
  • 3.7习题
  • 第4章 olap技术
  • 4.1olap概述
  • 4.1.1olap的定义
  • 4.1.2数据仓库与数据分析的关系
  • 4.1.3多维分析的基本概念
  • 4.1.4olap的多维数据分析
  • 4.1.5olap与oltp的比较
  • 4.2多维数据库及其存储
  • 4.2.1多维数据库
  • 4.2.2多维数据库的数据存储
  • 4.2.3多维数据库与数据仓库
  • 4.3olap的类型
  • 4.3.1多维olap
  • 4.3.2关系olap
  • 4.3.3混合型olap
  • 4.3.4molap与rolap的比较
  • 4.4olap的体系结构
  • 4.5olap中的索引技术
  • 4.5.1b-tree索引
  • 4.5.2位图索引
  • 4.5.3位图索引的扩展--标识符索引
  • 4.5.4索引性能比较
  • 4.5.5索引的选择
  • 4.6olap的评价标准
  • 4.6.1olap的衡量标准
  • 4.6.2olap服务器和工具的评价标准
  • 4.7olap的前端展现
  • 4.7.1olap工具
  • 4.7.2olap结果的展现方法
  • 4.8小结
  • 4.9习题
  • 第5章 商务智能系统
  • 5.1商务智能概述
  • 5.1.1商务智能的概念
  • 5.1.2商务智能的发展历程
  • 5.1.3商务智能的商业效益
  • 5.2商务智能系统架构
  • 5.2.1商务智能系统的核心技术
  • 5.2.1商务智能的体系结构
  • 5.3商务智能系统的功能
  • 5.4商务智能系统的应用
  • 5.4.1商务智能系统特点
  • 5.4.2我国商务智能系统应用现状分析
  • 5.5小结
  • 5.6习题
  • 第6章 数据预处理技术
  • 6.1数据预处理概述
  • 6.1.1数据预处理的必要性
  • 6.1.2数据预处理的基本方法
  • 6.1.3数据预处理的研究现状
  • 6.2数据清理
  • 6.2.1填充缺失值
  • 6.2.2光滑噪声数据
  • 6.2.3数据清理过程
  • 6.3数据集成
  • 6.4数据变换
  • 6.5数据归约
  • 6.5.1数据立方体聚集
  • 6.5.2属性子集选择
  • 6.5.3维度归约
  • 6.5.4数值归约
  • 6.5.5数据离散化与概念分层
  • 6.6小结
  • 6.7习题
  • 第7章 数据挖掘技术
  • 7.1概念描述
  • 7.1.1概念描述的生成过程
  • 7.1.2概念分层与数据泛化
  • 7.1.3概念分层方法
  • 7.1.4数据泛化方法
  • 7.1.5泛化的表示
  • 7.1.6属性相关分析
  • 7.1.7区别性描述
  • 7.2关联规则
  • 7.2.1关联规则相关概念
  • 7.2.2关联规则挖掘步骤
  • 7.2.3关联规则分类
  • 7.2.4关联规则的算法
  • 7.3数据分类
  • 7.3.1数据分类的基本步骤与评价准则
  • 7.3.2决策树
  • 7.3.3贝叶斯分类
  • 7.3.4神经网络方法
  • 7.3.5近邻分类方法
  • 7.4数据聚类
  • 7.4.1聚类分析概述
  • 7.4.2聚类算法的分类及其典型算法
  • 7.4.3聚类分析中的相似度度量方法
  • 7.4.4聚类分析中的聚类准则函数
  • 7.4.5k-means聚类算法
  • 7.5遗传算法
  • 7.5.1遗传算法的基本术语
  • 7.5.2遗传算法的执行过程
  • 7.5.3遗传算法应用举例
  • 7.5.4遗传算法的基本要素
  • 7.5.5遗传算法的特点及应用领域
  • 7.6粗糙集
  • 7.6.1粗糙集理论的相关概念
  • 7.6.2粗糙集的应用举例
  • 7.6.3粗糙集理论研究的对象及特点
  • 7.7小结
  • 7.8习题
  • 第8章 数据仓库开发实例
  • 8.1sql server 2005所提供的数据仓库功能
  • 8.1.1sql server 2005 integration services
  • 8.1.2sql server 2005 analysis services
  • 8.1.3sql server 2005 dw工具
  • 8.2福马特商店销售分析数据仓库系统的分析与设计
  • 8.3数据仓库的实现
  • 8.3.1sql server的数据仓库创建
  • 8.3.2olap的实施
  • 8.3.3数据仓库中的数据挖掘
  • 8.4数据仓库的应用与管理
  • 8.4.1数据仓库的用户
  • 8.4.2数据仓库应用案例
  • 8.4.3数据仓库的运行技术管理
  • 8.4.4数据仓库应用中的法律问题
  • 8.4.5数据仓库的成本与效益分析
  • 8.5小结
  • 8.6习题
  • 第9章 报表设计
  • 9.1报表概述
  • 9.1.1报表结构
  • 9.1.2传递报表
  • 9.1.3report server功能结构
  • 9.1.4report services的组成部分
  • 9.2报表向导制作报表
  • 9.2.1向导制作报表
  • 9.2.2报表设计器
  • 9.2.3部署报表
  • 9.3编辑制作报表
  • 9.3.1新建报表项目
  • 9.3.2新建数据集
  • 9.3.3报表格式设计
  • 9.3.4分组
  • 9.3.5钻取功能
  • 9.3.6文档结构图
  • 9.4矩阵式报表
  • 9.4.1数据集建立
  • 9.4.2矩阵布局
  • 9.4.3矩形布局
  • 9.4.4折叠结构
  • 9.5统计图表
  • 9.5.1图表元素
  • 9.5.2柱形图
  • 9.5.3折线图
  • 9.5.4饼图
  • 9.5.5圆环图
  • 9.6主体的多列
  • 9.7小结
  • 9.8实验
  • 参考文献
展开阅读
精选笔记:python数据挖掘需要学什么

10小时59分钟前回答

只要能解决实际问题,用什么工具来学习数据挖掘都是无所谓,这里首推Python。

python数据挖掘需要学什么

需要掌握Python中的哪些知识?(推荐学习:Python视频教程)

1、Pandas库的操作

Panda是数据分析特别重要的一个库,我们要掌握以下三点:

· pandas 分组计算;

· pandas 索引与多重索引;

索引比较难,但是却是非常重要的

· pandas 多表操作与数据透视表

2、numpy数值计算

numpy数据计算主要应用是在数据挖掘,对于以后的机器学习,深度学习,这也是一个必须掌握的库,我们要掌握以下内容:

· Numpy array理解;

· 数组索引操作;

· 数组计算;

· Broadcasting(线性代数里面的知识)

3、数据可视化-matplotlib与seaborn

· Matplotib语法

python最基本的可视化工具就是matplotlib。咋一看Matplotlib与matlib有点像,要搞清楚二者的关系是什么,这样学习起来才会比较轻松。

· seaborn的使用

seaborn是一个非常漂亮的可视化工具。

· pandas绘图功能

前面说过pandas是做数据分析的,但它也提供了一些绘图的API。

4、数据挖掘入门

这部分是最难也是最有意思的一部分,要掌握以下几个部分:

· 机器学习的定义

在这里跟数据挖掘先不做区别

· 代价函数的定义

· Train/Test/Validate

· Overfitting的定义与避免方法

5、数据挖掘算法

数据挖掘发展到现在,算法已经非常多,下面只需掌握最简单的,最核心的,最常用的算法:

· 最小二乘算法;

· 梯度下降;

· 向量化;

· 极大似然估计;

· Logistic Regression;

· Decision Tree;

· RandomForesr;

· XGBoost;

6、数据挖掘实战

通过机器学习里面最着名的库scikit-learn来进行模型的理解。

更多Python相关技术文章,请访问Python教程栏目进行学习!

以上就是python数据挖掘需要学什么的详细内容,更多请关注码农之家其它相关文章!

展开阅读

资源下载

相关资源

  • 常用数据挖掘算法总结及Python实现

    1.1 概率论 1.概率论基本概念 样本空间 我们将随机实验 E 的一切可能基本结果组成的集合称为 E 的样本空间,记为 S。样本空间的元素,即 E 的每一个可能的结果,称为样本点。样本空间又叫基本事件空间。 例:拍拍贷用户的学历 S={研究生或以上,本科,大专,高中,中专,初中及以下},A={研 究生或以上,本科,大专} 事件 事件 A 是样本空间的子集,可分为四种类型 空事件: 样本空间的空子集;  原子事件: 仅包含一个元素的样本空间;  混合事件:

    大小:5.1 MB数据挖掘

    立即下载
  • 数据挖掘算法及在视频分析中的应用

    数据挖掘算法及在视频分析中的应用

    数据挖掘算法及在视频分析中的应用 作者:李英杰 著 出版时间:2014年版 随着网络与计算机的发展,可利用的数据量日益增大,数据的形式更多样化,这对数据挖掘算法的研究和数据挖掘与领域知识、技术的融合都提出了新的挑战。李英杰编写的《数据挖掘算法及在视频分析中的应用》在分析数据挖掘相关概念和相关技术研究现状基础上,阐述了围绕数据挖掘中的分类、特异数据挖掘、关联规则等任务中经典算法的改进研究。 继而阐述了数据挖掘算法

    大小:16.94MB数据挖掘

    立即下载
  • 基于R语言数据挖掘的统计与分析

    基于R语言数据挖掘的统计与分析

    R语言的功能越来越丰富,越来越多的人对R语言产生了兴趣。本书是为了让对R语言有兴趣的读者能更加了解R语言,了解大数据时代的数据挖掘等,感兴趣的可以下载学习

    大小:38.7 MBR语言

    立即下载
  • 数据挖掘:实用机器学习工具与技术

    数据挖掘:实用机器学习工具与技术

    数据挖掘:实用机器学习工具与技术(原书第3版) 是机器学习和数据挖掘领域的经典畅销教材,被众多国外名校选为教材。书中详细介绍用于数据挖掘领域的机器学习技术和工具以及实践方法,

    大小:138.4 MB数据挖掘

    立即下载
  • 数据可视化与数据挖掘:基于Tableau和SPSS Modeler图形界面

    数据可视化与数据挖掘:基于Tableau和SPSS Modeler图形界面

    大数据可视化容许运用图型、图象处理、计算机视觉及其操作界面,根据表述、模型及其对立体式、表层、特性及其动漫的显示信息,对统计数据多方面数据可视化表述,大数据可视化技术性

    大小:37 MB数据可视化

    立即下载
  • 《IBM SPSS Modeler 18.0数据挖掘权威指南》素材,文件

    《IBM SPSS Modeler 18.0数据挖掘权威指南》素材,文件

    编辑推荐 联袂推荐n 暨南大学教授、博士生导师刘建平,暨南大学研究生院副院长、经济学院统计学系副主任、教授、博士生导师陈光慧,天善智能创始人梁勇,IBM技术专家刘咏梅,IBM数据科学家钟云飞,广东省环保厅环境咨询专家委员会专家、广东柯内特环境科技有限公司总经理朱斌n 本书特色n 内容全面:涉及数据读取、数据处理、数据可视化、统计分析与检验、数据挖掘算法、自动建模、集成与扩展、模型部署、性能优化、数据挖掘方法论等诸多内

    大小:74.37 MB数据挖掘

    立即下载
  • 社交网站的数据挖掘与分析

    社交网站的数据挖掘与分析

    社交网站数据如同深埋地下的金矿,如何利用这些数据来发现哪些人正通过社交媒介进行联系?他们正在谈论什么?或者他们在哪儿?本书第2版对上一版内容进行了全面更新和修订,它将揭示

    大小:51.9 MB数据分析

    立即下载

学习笔记

8小时23分钟前回答

python数据分析师需要学什么

python数据分析师。现在大数据分析可以热得不要不要的。从发展来看,python数据分析师很有前景的。但也并不是随便一个公司就可以做大数据分析的。有几个问题是做大数据要考虑的:大数据来源是否全面,分析什么,谁来使用等等。当然如果能到能做大数据的公司,那薪水还是可观的。要做python数据分析师,有一些东西是不得不学的,要不然,做不了分析师的,可能做的程序员,帮别人实现分析的结果而已。 第一:统计学知识。 (推荐学习:Python视频教程) 这是很大一部分大数据分析师的短板。当然这里说的不是简单的一些统计而已。而是包括均值、中位数、标准差、方差、概率、假设检验等等具……

14小时9分钟前回答

python数据分析用什么数据库

SQLite是一款非常流行的关系型数据库,由于它非常轻盈,因此被大量应用程序广泛使用。sqlite3是python标准发行版中自带的模块,可以用于处理sqlite数据库。数据库既可以保存到文件中,也可以保存在内存中,这里保存到内存中。 代码: (推荐学习:Python视频教程) import sqlite3with sqlite3.connect(:memory:) as con: c=con.cursor() #创建游标 c.execute('''CREATE TABLE sensors(data text,city text,code text,sensor_id real,temperature real)''') #新建表,text和real分别表示字符串和数值的类型 for table in c.execute(SELECT name FROM sqlite_master WHERE type='table'): print Table,table[0] c.execute(INSERT INTO sensors VALUES ('2016-11-05','Utrecht','Red',42,15.14)) c.execute(SELECT * FROM sens……

10小时41分钟前回答

python数据分析是什么

数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。 数据分析的数学基础在20世纪早期就已确立,但直到计算机的出现才使得实际操作成为可能,并使得数据分析得以推广。数据分析是数学与计算机科学相结合的产物。 推荐课程:Python教程。 Python 这类语言被称为脚本语言,因为它们可以编写简短粗糙的小程序,即脚本。不过这好像在说 Python 无法构建严谨的软件似的,其实经过几年来不断改良, Python 不但拥有强大的……