当前位置:主页 > 计算机电子书 > 计算机理论 > Hadoop下载
Hadoop大数据处理

Hadoop大数据处理 PDF 高质量版

  • 更新:2019-08-17
  • 大小:84.8 MB
  • 类别:Hadoop
  • 作者:刘军
  • 出版:人民邮电出版社
  • 格式:PDF

  • 资源介绍
  • 相关推荐

Hadoop大数据处理 PDF

差异。兼具基础理论基本与开发设计实例,有利于通过自学和课堂教学,且应用性强。

针对性。以北邮研究生教材内容为原型,历经多年运用改动健全,成熟情况高。《Hadoop大数据处理》以大数据处理系统的几大重要因素——“储存”、“测算”与“试错”为起始点,从入门到精通地详细介绍了怎么使用Hadoop这一性能分布式系统技术性进行大数据处理每日任务。这书不但包括了应用Hadoop开展大数据处理的理论性专业知识和实例,还用图片配文字的方式针对性地表明了Hadoop技术性族中重要部件的运作基本原理和提升方式,为用户全面提高Hadoop应用方法和运作高效率出示了极具使用价值的参照。

Hadoop大数据处理》共10章,涉及到的主题风格包含大数据处理概论、应用场景Hadoop的大数据处理架构、MapReduce测算方式、应用HDFS储存互联网大数据、HBase大数据库查询、互联网大数据的剖析解决、Hadoop自然环境下的统计数据融合、Hadoop集群服务器的管理方法与维护保养、应用场景MapReduce的大数据挖掘实践活动及面向世界的大数据处理技术性。最终附带1个在Windows自然环境下构建Hadoop开发设计及调节自然环境的参考手册。

《Hadoop大数据处理》合适必须应用Hadoop解决互联网大数据的程序猿、系统架构师和产品运营做为技术性参照和培训课件,也可做为高等院校硕士研究生和本科毕业教材内容。

核心内容:大数据处理,技术性,互联网大数据,自然环境,教材内容,应用场景,针对性,做为,方式,参照

目录

  • 第1章 大数据处理概论 1
  • 1.1 什么是大数据 2
  • 1.2 数据处理平台的基础架构 5
  • 1.3 大数据处理的存储 7
  • 1.3.1 提升容量 7
  • 1.3.2 提升吞吐量 11
  • 1.4 大数据处理的计算模式 17
  • 1.4.1 多处理技术 17
  • 1.4.2 并行计算 20
  • 1.5 大数据处理系统的容错性 26
  • 1.5.1 数据存储容错 27
  • 1.5.2 计算任务容错 28
  • 1.6 大数据处理的云计算变革 30
  • 本章参考文献 32
  • 第2章 基于Hadoop的大数据处理架构 35
  • 2.1 Google核心云计算技术 35
  • 2.1.1 并行计算编程模型MapReduce 36
  • 2.1.2 分布式文件系统GFS 38
  • 2.1.3 分布式结构化数据存储BigTable 39
  • 2.2 Hadoop云计算技术及发展 41
  • 2.2.1 Hadoop的由来 41
  • 2.2.2 Hadoop原理与运行机制 42
  • 2.2.3 Hadoop相关技术及简介 45
  • 2.2.4 Hadoop技术的发展与演进 47
  • 2.3 基于云计算的大数据处理架构 48
  • 2.4 基于云计算的大数据处理技术的应用 51
  • 2.4.1 百度 51
  • 2.4.2 阿里巴巴 56
  • 2.4.3 腾讯 58
  • 2.4.4 华为 60
  • 2.4.5 中国移动 62
  • 2.5 Hadoop运行实践 63
  • 本章参考文献 64
  • 第3章 MapReduce计算模式 66
  • 3.1 MapReduce原理 66
  • 3.2 MapReduce工作机制 69
  • 3.2.1 MapReduce运行框架的组件 70
  • 3.2.2 MapReduce作业的运行流程 70
  • 3.2.3 作业调度 72
  • 3.2.4 异常处理 73
  • 3.3 MapReduce应用开发 74
  • 3.3.1 MapReduce应用开发流程 74
  • 3.3.2 通过Web界面分析MapReduce应用 76
  • 3.3.3 MapReduce任务执行的单步跟踪 78
  • 3.3.4 多个MapReduce过程的组合模式 79
  • 3.3.5 使用其他语言编写MapReduce程序 81
  • 3.3.6 不同数据源的数据联结(Join) 82
  • 3.4 MapReduce设计模式 87
  • 3.4.1 计数(Counting) 88
  • 3.4.2 分类(Classfication) 88
  • 3.4.3 过滤处理(Filtering) 89
  • 3.4.4 排序(Sorting) 89
  • 3.4.5 去重计数(Distinct Counting) 90
  • 3.4.6 相关计数(Cross-Correlation) 91
  • 3.5 MapReduce算法实践 92
  • 3.5.1 最短路径算法 92
  • 3.5.2 反向索引算法 94
  • 3.5.3 PageRank算法 95
  • 3.6 MapReduce性能调优 97
  • 3.6.1 MapReduce参数配置优化 97
  • 3.6.2 使用Cominber减少数据传输 99
  • 3.6.3 启用数据压缩 100
  • 3.6.4 使用预测执行功能 101
  • 3.6.5 重用JVM 101
  • 本章参考文献 102
  • 第4章 使用HDFS存储大数据 103
  • 4.1 大数据的云存储需求 103
  • 4.2 HDFS架构与流程 104
  • 4.2.1 系统框架 104
  • 4.2.2 数据读取过程 105
  • 4.2.3 数据写入过程 106
  • 4.3 文件访问与控制 108
  • 4.3.1 基于命令行的文件管理 108
  • 4.3.2 通过API操作文件 110
  • 4.4 HDFS性能优化 114
  • 4.4.1 调整数据块尺寸 114
  • 4.4.2 规划网络与节点 114
  • 4.4.3 调整服务队列数量 116
  • 4.4.4 预留磁盘空间 116
  • 4.4.5 存储平衡 117
  • 4.4.6 根据节点功能优化磁盘配置 117
  • 4.4.7 其他参数 119
  • 4.5 HDFS的小文件存储问题 119
  • 4.5.1 Hadoop Archive工具 120
  • 4.5.2 CombineFileInputFormat 121
  • 4.5.3 SequenceFile格式 121
  • 4.5.4 相关研究 122
  • 4.6 HDFS的高可用性问题 123
  • 4.6.1 基于配置的元数据备份 123
  • 4.6.2 基于DRBD的元数据备份 124
  • 4.6.3 Secondary NameNode/CheckpointNode 125
  • 4.6.4 Backup Node 125
  • 4.6.5 NameNode热备份 126
  • 4.6.6 HDFS的HA方案总结 126
  • 本章参考文献 127
  • 第5章 HBase大数据库 128
  • 5.1 大数据环境下的数据库 128
  • 5.2 HBase架构与原理 129
  • 5.2.1 系统架构及组件 129
  • 5.2.2 数据模型与物理存储 131
  • 5.2.3 RegionServer的查找 135
  • 5.2.4 物理部署与读写流程 136
  • 5.3 管理HBase中的数据 138
  • 5.3.1 Shell 138
  • 5.3.2 Java API 141
  • 5.3.3 非Java语言访问 146
  • 5.4 从RDBMS到HBase 147
  • 5.4.1 行到列与主键到行关键字 149
  • 5.4.2 联合查询(Join)与去范例化(Denormalization) 151
  • 5.5 在HBase上运行MapReduce 152
  • 5.6 HBase性能优化 155
  • 5.6.1 参数配置优化 155
  • 5.6.2 表设计优化 156
  • 5.6.3 更新数据操作优化 157
  • 5.6.4 读数据操作优化 158
  • 5.6.5 数据压缩 159
  • 5.6.6 JVM GC优化 159
  • 5.6.7 负载均衡 160
  • 5.6.8 性能测试工具 160
  • 本章参考文献 161
  • 第6章 大数据的分析处理 162
  • 6.1 大数据的分析处理概述 162
  • 6.2 Hive 163
  • 6.2.1 系统架构及组件 163
  • 6.2.2 Hive数据结构 164
  • 6.2.3 数据存储格式 166
  • 6.2.4 Hive支持的数据类型 168
  • 6.2.5 使用HiveQL访问数据 170
  • 6.2.6 自定义函数扩展功能 175
  • 6.3 Pig 177
  • 6.3.1 Pig架构 178
  • 6.3.2 Pig Latin语言 179
  • 6.3.3 使用Pig处理数据 184
  • 6.4 Hive与Pig的对比 187
  • 本章参考文献 188
  • 第7章 Hadoop环境下的数据整合 189
  • 7.1 Hadoop计算环境下的数据整合问题 189
  • 7.2 数据库整合工具Sqoop 191
  • 7.2.1 使用Sqoop导入数据 192
  • 7.2.2 使用Sqoop导出数据 195
  • 7.2.3 Sqoop与Hive结合 196
  • 7.2.4 Sqoop对大对象数据的处理 197
  • 7.3 Hadoop平台内部数据整合工具HCatalog 197
  • 7.3.1 HCatalog的需求与实现 198
  • 7.3.2 MapReduce使用HCatalog管理数据 202
  • 7.3.3 Pig使用HCatalog管理数据 204
  • 7.3.4 HCatalog的命令行与通知功能 205
  • 本章参考文献 207
  • 第8章 Hadoop集群的管理与维护 208
  • 8.1 云计算平台的管理体系 208
  • 8.2 ZooKeeper——集群中的配置管理与协调者 211
  • 8.2.1 集群环境下的配置管理 211
  • 8.2.2 ZooKeeper架构 212
  • 8.2.3 ZooKeeper的数据模型 213
  • 8.3 Hadoop集群监控的基础组件 214
  • 8.3.1 Nagios 214
  • 8.3.2 Ganglia 217
  • 8.3.3 JMX 219
  • 8.4 Ambari——Hadoop集群部署与监控集成工具 220
  • 8.5 基于Cacti的Hadoop集群服务器监控 223
  • 8.6 Chukwa——集群日志收集及分析 225
  • 8.7 基于Kerberos的Hadoop安全管理 227
  • 8.8 Hadoop集群管理工具分析 230
  • 本章参考文献 231
  • 第9章 基于MapReduce的数据挖掘 232
  • 9.1 数据挖掘及其分布式并行化 232
  • 9.2 基于MapReduce的数据挖掘与Mahout 237
  • 9.3 经典数据挖掘算法的MapReduce实例 242
  • 9.3.1 矩阵乘法 243
  • 9.3.2 相似度计算 246
  • 9.4 基于云计算的数据挖掘实践及面临的挑战 252
  • 本章参考文献 256
  • 第10章 面向未来的大数据处理 257
  • 10.1 下一代计算框架YARN 257
  • 10.2 大数据的实时交互式分析 260
  • 10.2.1 Google Dremel 261
  • 10.2.2 Cloudera Impala 265
  • 10.3 大数据的图计算 266
  • 10.3.1 BSP模型 267
  • 10.3.2 Google Pregel计算框架 268
  • 10.3.3 Apache Hama开源项目 271
  • 本章参考文献 275
  • 附录 基于Cygwin的Hadoop环境搭建 276
  • 附录A 安装和配置Cygwin 276
  • 附录B 安装和配置Hadoop 281
  • 附录C 运行示例程序验证Hadoop安装 285
  • 附录D 安装和配置Eclipse下的Hadoop开发环境 286

资源下载

资源下载地址1:https://pan.baidu.com/s/1_IS8-coPwVw_4bmqN2YVdQ

相关资源

网友留言