当前位置:主页 > 计算机电子书 > 数据库 > 数据集成下载
数据集成原理

数据集成原理 PDF 高清版

  • 更新:2020-07-16
  • 大小:62.7 MB
  • 类别:数据集成
  • 作者:多恩,哈勒维
  • 出版:机械工业出版社
  • 格式:PDF

  • 资源介绍
  • 相关推荐

《计算机科学丛书:数据集成原理》主要讨论数据集成技术,共分为三部分。第一部分主要关注数据集成领域的基本知识,如查询表达式、数据源描述、异构数据与模式的匹配、模式操作、查询应答、Web数据抽取以及集成数据的存储。第二部分主要关注扩展的数据表示,扩展的数据表示可以获得标准关系数据模型无法表示的一些特性,如层次型(XML)、基于知识表示的本体构建、不确定性以及数据溯源。第三部分介绍解决特定集成问题的创新架构,主要包括多样的Web数据源集成、基于关键字搜索的结构化数据集成、对等数据集成和支持协同的集成等。最后介绍了数据集成技术的主要研究方向。

目录

  • 出版者的话
  • 中文版序
  • 译者序
  • 前言
  • 第1章 绪论
  • 1.1 什么是数据集成
  • 1.2 数据集成面临的挑战
  • 1.2.1 系统原因
  • 1.2.2 逻辑原因
  • 1.2.3 社会和管理原因
  • 1.2.4 设定预期
  • 1.3 数据集成架构
  • 1.3.1 数据集成系统的组成部分
  • 1.3.2 数据集成实例
  • 1.4 全书概览
  • 参考文献注释
  • 第一部分 数据集成技术基础
  • 第2章 查询表达式及运算
  • 2.1 数据库概念回顾
  • 2.1.1 数据模型
  • 2.1.2 完整性约束
  • 2.1.3 查询和应答
  • 2.1.4 合取查询
  • 2.1.5 datalog查询
  • 2.2 查询展开
  • 2.3 查询包含与等价
  • 2.3.1 形式化定义
  • 2.3.2 合取查询的包含
  • 2.3.3 合取查询的并集
  • 2.3.4 带有比较谓词的合取查询
  • 2.3.5 带有否定的合取查询
  • 2.3.6 包语义、分组和聚集
  • 2.4 基于视图计算查询
  • 2.4.1 问题定义
  • 2.4.2 视图与查询计算的相关性
  • 2.4.3 查询重写的可能长度
  • 2.4.4 桶算法和MiniCon算法
  • 2.4.5 逻辑方法:逆规则算法
  • 2.4.6 算法比较
  • 2.4.7 基于视图的查询应答
  • 参考文献注释
  • 第3章 数据源描述
  • 3.1 概述和必要条件
  • 3.2 模式映射语言
  • 3.2.1 模式映射语言规则
  • 3.2.2 全局视图
  • 3.2.3 局部视图
  • 3.2.4 全局-局部视图
  • 3.2.5 元组生成依赖
  • 3.3 访问模式限制
  • 3.3.1 构建访问模式限制
  • 3.3.2 生成可执行计划
  • 3.4 中介模式上的完整性约束
  • 3.4.1 带有完整性约束的LAV
  • 3.4.2 带有完整性约束的GAV
  • 3.5 结果完备性
  • 3.5.1 局部完备性
  • 3.5.2 结果完备性检测
  • 3.6 数据级的异构性
  • 3.6.1 标度差异性
  • 3.6.2 相同实体的多重表示
  • 参考文献注释
  • 第4章 字符串匹配
  • 4.1 问题描述
  • 4.2 相似度度量
  • 4.2.1 基于序列的相似度度量
  • 4.2.2 基于集合的相似度度量
  • 4.2.3 混合相似度度量
  • 4.2.4 语音相似度度量
  • 4.3 可扩展的字符串匹配
  • 4.3.1 字符串上的倒排索引
  • 4.3.2 大小过滤
  • 4.3.3 前缀过滤
  • 4.3.4 位置过滤
  • 4.3.5 边界过滤
  • 4.3.6 其他相似度度量方法的可扩展技术
  • 参考文献注释
  • 第5章 模式匹配与模式映射
  • 5.1 问题定义
  • 5.1.1 语义映射
  • 5.1.2 语义匹配
  • 5.1.3 模式匹配与模式映射
  • 5.2 模式匹配和模式映射的挑战
  • 5.3 匹配和映射系统概述
  • 5.3.1 模式匹配系统
  • 5.3.2 模式映射系统
  • 5.4 匹配器
  • 5.4.1 名字匹配器
  • 5.4.2 实例匹配器
  • 5.5 组合匹配预测
  • 5.6 施加域完整性约束
  • 5.6.1 域完整性约束
  • 5.6.2 搜索匹配组合空间
  • 5.7 匹配选择器
  • 5.8 匹配重用
  • 5.8.1 学习匹配
  • 5.8.2 学习器
  • 5.8.3 训练元学习器
  • 5.9 多对多匹配
  • 5.10 由匹配到映射
  • 参考文献注释
  • 第6章 通用模式操作
  • 6.1 模型管理操作
  • 6.2 合并操作
  • 6.3 模型生成操作
  • 6.4 逆映射操作
  • 6.5 模型管理系统
  • 参考文献注释
  • 第7章 数据匹配
  • 7.1 问题定义
  • 7.2 规则匹配
  • 7.3 学习匹配
  • 7.4 聚类匹配
  • 7.5 概率匹配
  • 7.5.1 贝叶斯网络
  • 7.5.2 基于朴素贝叶斯的数据匹配
  • 7.5.3 特征相关性
  • 7.5.4 文本中的实体指代匹配
  • 7.6 协同匹配
  • 7.6.1 基于聚类的协同匹配
  • 7.6.2 协同匹配文档中的实体指代
  • 7.7 数据匹配的可扩展性
  • 7.7.1 规则匹配扩展
  • 7.7.2 其他匹配方法的扩展
  • 参考文献注释
  • 第8章 查询处理
  • 8.1 背景:DBMS查询处理
  • 8.1.1 选择查询执行计划
  • 8.1.2 执行查询计划
  • 8.2 背景:分布式查询处理
  • 8.2.1 数据放置和转移
  • 8.2.2 两阶段连接
  • 8.3 数据集成查询处理
  • 8.4 生成初始查询计划
  • 8.5 互联网数据的查询执行
  • 8.5.1 多线程、流水线、数据流架构
  • 8.5.2 有自治数据源的接口
  • 8.5.3 故障处理
  • 8.6 自适应查询处理
  • 8.7 事件驱动自适应策略
  • 8.7.1 数据源故障和延迟处理
  • 8.7.2 处理流水线操作结束时突发的基数问题
  • 8.8 性能驱动的自适应策略
  • 8.8.1 Eddy:基于队列的计划选择
  • 8.8.2 校正查询处理:基于代价的重新优化
  • 参考文献注释
  • 第9章 包装器
  • 9.1 引言
  • 9.1.1 包装器的构建
  • 9.1.2 包装器构建面临的挑战
  • 9.1.3 构建方法的分类
  • 9.2 手动的包装器构建
  • 9.3 基于学习的包装器构建
  • 9.3.1 HLRT包装器
  • 9.3.2 Stalker包装器
  • 9.4 无模式的包装器学习
  • 9.4.1 建模数据源模式TS和抽取程序EW
  • 9.4.2 推导数据模式TS和抽取程序EW
  • 9.5 交互的包装器构建
  • 9.5.1 使用Stalker交互标记页面
  • 9.5.2 使用Poly识别正确的抽取规则
  • 9.5.3 用Lixto创建抽取规则
  • 参考文献注释
  • 第10章 数据仓库与缓存
  • 10.1 数据仓库
  • 10.1.1 数据仓库设计
  • 10.1.2 ETL:抽取/转换/加载
  • 10.2 数据交换:描述性仓库
  • 10.2.1 数据交换设置
  • 10.2.2 数据交换解
  • 10.2.3 通用解
  • 10.2.4 核心通用解
  • 10.2.5 查询物化信息库
  • 10.3 缓存及部分物化
  • 10.4 本地、外部数据的直接分析
  • 参考文献注释
  • 第二部分 扩展数据表示集成
  • 第11章 XML
  • 11.1 数据模型
  • 11.2 XML结构和模式定义
  • 11.2.1 文档类型定义
  • 11.2.2 XML模式
  • 11.3 查询语言
  • 11.3.1 先驱:DOM和SAX
  • 11.3.2 XPath:XML查询原语
  • 11.3.3 XQuery:XML查询能力
  • 11.4 XML查询处理
  • 11.4.1 XML路径匹配
  • 11.4.2 XML输出
  • 11.4.3 XML查询优化
  • 11.5 XML模式映射
  • 11.5.1 嵌套映射
  • 11.5.2 带嵌套映射的查询重写
  • 参考文献注释
  • 第12章 本体和知识表示
  • 12.1 数据集成中的知识表示举例
  • 12.2 描述逻辑
  • 12.2.1 描述逻辑的语法
  • 12.2.2 描述逻辑的语义
  • 12.2.3 描述逻辑的推理
  • 12.2.4 描述逻辑和数据库推理的比较
  • 12.3 语义Web
  • 12.3.1 资源描述框架
  • 12.3.2 RDF模式
  • 12.3.3 Web本体语言
  • 12.3.4 RDF查询:SPARQL语言
  • 参考文献注释
  • 第13章 不确定性数据集成
  • 13.1 不确定性表示
  • 13.1.1 概率数据表示
  • 13.1.2 从不确定性到概率
  • 13.2 不确定模式映射建模
  • 13.2.1 概率映射
  • 13.2.2 概率映射的语义
  • 13.2.3 表语义
  • 13.2.4 元组语义
  • 13.3 不确定性和数据溯源
  • 参考文献注释
  • 第14章 数据溯源
  • 14.1 溯源的两种表示方法
  • 14.1.1 使用数据标注表示溯源
  • 14.1.2 使用数据关系图表示溯源
  • 14.1.3 两种表示方法的可交换性
  • 14.2 数据溯源的应用
  • 14.3 溯源半环
  • 14.3.1 半环形式化模型
  • 14.3.2 半环模型的应用
  • 14.4 溯源的存储
  • 参考文献注释
  • 第三部分 新型集成系统
  • 第15章 Web数据集成
  • 15.1 Web数据的用途
  • 15.2 深层网络
  • 15.2.1 垂直搜索
  • 15.2.2 深层网络浅层化
  • 15.3 主题门户网站
  • 15.4 Web数据的轻量级集成
  • 15.4.1 发现Web中的结构化数据
  • 15.4.2 导入数据
  • 15.4.3 合并多个数据集
  • 15.4.4 重用他人工作成果
  • 15.5 “即付即用”数据管理
  • 参考文献注释
  • 第16章 关键字搜索:按需集成
  • 16.1 结构化数据中的关键字搜索
  • 16.1.1 数据图
  • 16.1.2 关键字匹配和评分模型
  • 16.2 结果排名计算
  • 16.2.1 图扩展算法
  • 16.2.2 基于阈值的合并
  • 16.3 数据集成中的关键字搜索
  • 16.3.1 以可扩展的方式自动地构建边
  • 16.3.2 可扩展的查询应答
  • 16.3.3 通过学习算法调整边和节点的权重
  • 参考文献注释
  • 第17章 对等数据集成
  • 17.1 对等节点和映射
  • 17.2 映射的语义
  • 17.3 PDMS查询应答的复杂性
  • 17.3.1 有环PDMS
  • 17.3.2 对等映射中的比较谓词
  • 17.4 查询重写算法
  • 17.5 组合映射
  • 17.6 采用松散映射进行对等数据管理
  • 17.6.1 基于相似度的映射
  • 17.6.2 映射表
  • 参考文献注释
  • 第18章 支持协同的集成
  • 18.1 协同因何而不同
  • 18.2 处理校正和反馈
  • 18.2.1 直接向下传播的用户更新
  • 18.2.2 回溯传播的反馈或更新
  • 18.3 协同标注与表达
  • 18.3.1 映射作为标注:轨迹
  • 18.3.2 评论和讨论作为标注
  • 18.4 动态数据:协同数据共享
  • 18.4.1 基本架构
  • 18.4.2 映射更新与物化实例
  • 18.4.3 冲突协调
  • 参考文献注释
  • 第19章 数据集成的未来
  • 19.1 不确定性、溯源和清理
  • 19.2 众包和“人计算”
  • 19.3 构建大规模结构化Web数据库
  • 19.4 轻量级集成
  • 19.5 集成数据可视化
  • 19.6 社交媒体集成
  • 19.7 基于集群和云的并行处理与缓存
  • 参考文献
  • 索引

资源下载

资源下载地址1:https://pan.baidu.com/s/1UCJvnPWH4JmFY10LvLR14Q

网友留言