本书由浅入深,全面、系统地介绍了Hadoop这一高性能处理大量数据集的理想工具。本书内容主要包括HDFS、MapReduce、Hive、HBase、Mahout、Pig、ZooKeeper、Avro、Chukwa等与Hadoop相关的子项目,各个知识点都配有精心设计的大量经典的小案例,实战性和可操作性强。本书旨在帮助云计算初学者迅速掌握Hadoop系统,提升读者在云计算实践中的应用和开发能力。同时本书极强的系统性和大量翔实的案例对于有一定基础的中高级用户有非常好的参考价值。
目录
- 第1篇Hadoop技术篇
- 第1章初识Hadoop
- 1.1Hadoop简介
- 1.1.1Hadoop的起源
- 1.1.2什么是Hadoop
- 1.1.3Hadoop的核心技术是Google核心技术的开源实现
- 1.1.4Hadoop的功能与优点
- 1.1.5Hadoop的应用现状和发展趋势
- 1.2Hadoop的体系结构
- 1.2.1HDFS的体系结构
- 1.2.2MapReduce的体系结构
- 1.3Hadoop与分布式开发
- 1.4Hadoop的数据管理
- 1.4.1HDFS的数据管理
- 1.4.2HBase的数据管理
- 1.4.3Hive的数据管理
- 1.5思考与总结
- 第2章Hadoop的安装和配置
- 2.1在Windows下安装与配置Hadoop
- 2.1.1JDK的安装
- 2.1.2Cygwin的安装
- 2.1.3Hadoop的安装
- 2.2在Linux下安装与配置Hadoop
- 2.2.1Ubuntu的安装
- 2.2.2JDK的安装
- 2.2.3Hadoop的安装
- 2.3Hadoop的执行实例
- 2.3.1运行Hadoop
- 2.3.2运行wordcount.java程序
- 2.4HadoopEclipse简介和使用
- 2.4.1Eclipse插件介绍
- 2.4.2Eclipse插件开发配置
- 2.4.3在Eclipse下运行WordCount程序
- 2.5Hadoop的集群和优化
- 2.5.1Hadoop的性能优化
- 2.5.2Hadoop配置机架感知信息
- 2.6思考与总结
- 第3章HDFS海量存储
- 3.1开源的GFS——HDFS
- 3.1.1HDFS简介
- 3.1.2HDFS的体系结构
- 3.1.3HDFS的保障可靠性措施
- 3.2HDFS的常用操作
- 3.2.1HDFS下的文件操作
- 3.2.2管理与更新
- 3.2.3HDFSAPI详解
- 3.2.4HDFS的读/写数据流
- 3.3用HDFS存储海量的视频数据
- 3.3.1场景分析
- 3.3.2设计实现
- 3.4思考与总结
- 第4章初识MapReduce
- 4.1MapReduce简介
- 4.1.1MapReduce要解决什么问题
- 4.1.2MapReduce的理论基础
- 4.1.3MapReduce的编程模式
- 4.2MapReduce的集群行为
- 4.3Map/Reduce框架
- 4.4样例分析:单词计数
- 4.4.1WordCount实例的运行过程
- 4.4.2WordCount的源码分析和程序处理过程
- 4.4.3MapReduce常用类及其接口
- 4.5实例:倒排索引
- 4.5.1倒排索引的分析和设计
- 4.5.2倒排索引完整源码
- 4.5.3运行代码结果
- 4.6MapReduce在日志分析中数据去重案例
- 4.6.1什么是数据去重
- 4.6.2设计思路
- 4.6.3程序代码
- 4.6.4代码运行结果
- 4.7数据排序实例
- 4.7.1实例描述
- 4.7.2设计思路
- 4.7.3程序代码
- 4.8思考与总结
- 第5章分布式开源数据库HBase
- 5.1HBase简介
- 5.1.1HBase逻辑视图
- 5.1.2HBase物理存储
- 5.1.3子表Region服务器
- 5.1.4Hmaster主服务器
- 5.1.5元数据表
- 5.2HBase的安装配置
- 5.2.1HBase单机模式
- 5.2.2HBase伪分布模式
- 5.2.3HBase完全分布模式
- 5.3学生成绩表实例
- 5.3.1Shell的基本操作
- 5.3.2代码实现
- 5.3.3关于中文的处理
- 5.3.4常用HBase的Shell操作
- 5.4思考与总结
- 第6章MapReduce进阶
- 6.1API的配置
- 6.1.1一个简单的配置文件
- 6.1.2合并多个源文件
- 6.1.3可变的扩展
- 6.2配置开发环境
- 6.2.1配置文件设置
- 6.2.2设置用户标识
- 6.3复合键值对的使用
- 6.3.1小的键值对如何合并成大的键值对
- 6.3.2巧用复合键让系统完成排序
- 6.4用户定制数据类型
- 6.4.1内置数据类型
- 6.4.2用户自定义数据类型
- 6.5用户定制输入/输出格式
- 6.5.1内置数据的输入格式
- 6.5.2用户定制数据输入格式与RecordReader
- 6.5.3Hadoop内置的数据输出格式
- 6.5.4Hadoop内置的数据输出格式与RecordWriter
- 6.6用户定制Partitioner和Combiner
- 6.7组合式的MapReduce作业
- 6.7.1MapReduce作业运行机制
- 6.7.2组合式MapReduce计算作业
- 6.8DataJoin连接多数据源
- 6.9思考与总结
- 第7章Hive数据仓库
- 7.1Hive简介
- 7.2Hive安装与配置
- 7.3Hive的服务
- 7.3.1Hiveshell
- 7.3.2JDBC/ODBC
- 7.3.3Thrift服务
- 7.3.4Web接口
- 7.3.5元数据服务
- 7.4HiveQL查询语言
- 7.5Hive实例
- 7.5.1UDF编程实例
- 7.5.2UDAF编程实例
- 7.5.3Hive的日志数据统计实战
- 7.6思考与总结
- 第8章Pig开发应用
- 8.1Pig简介
- 8.2Pig的安装与配置
- 8.3Pig的使用
- 8.3.1Pig的MapReduce模式
- 8.3.2Pig的运行方式
- 8.4通过Grunt学习PigLatin
- 8.4.1Pig的数据模型
- 8.4.2运算符
- 8.4.3常用操作
- 8.4.4各种SQL在Pig中的实现
- 8.4.5PigLatin实现
- 8.5Pig使用的案例
- 8.6思考与总结
- 第9章Chukwa数据收集系统
- 9.1Chukwa简介
- 9.1.1Chukwa是什么
- 9.1.2Chukwa主要解决什么问题
- 9.2Chukwa的安装配置
- 9.2.1Chukwa的安装
- 9.2.2Chukwa的配置
- 9.2.3Chukwa的启动
- 9.3Chukwa的基本命令
- 9.3.1Chukwa端的命令
- 9.3.2Agent端的命令
- 9.4Chukwa在数据收集处理方面的运用
- 9.4.1数据生成
- 9.4.2数据收集
- 9.4.3数据处理
- 9.4.4数据析取
- 9.4.5数据稀释
- 9.4.6数据显示
- 9.5思考与总结
- 第10章ZooKeeper开发应用
- 10.1ZooKeeper简介
- 10.1.1ZooKeeper的设计目标
- 10.1.2ZooKeeper主要解决什么问题
- 10.1.3ZooKeeper的基本概念和工作原理
- 10.2ZooKeeper的安装配置
- 10.2.1单机模式
- 10.2.2启动并测试ZooKeeper
- 10.2.3集群模式
- 10.3ZooKeeper提供的接口
- 10.4ZooKeeper事件
- 10.5ZooKeeper实例
- 10.5.1实例1:一个简单的应用——分布式互斥锁
- 10.5.2实例2:进程调度系统
- 10.6思考与总结
- 第2篇Hadoop管理和容错篇
- 第11章Hadoop管理
- 11.1Hadoop权限管理
- 11.2HDFS文件系统管理
- 11.3Hadoop维护与管理
- 11.4Hadoop常见问题及解决办法
- 11.5思考与总结
- 第12章Hadoop容错
- 12.1Hadoop的可靠性
- 12.1.1HDFS中的NameNode单点失效解决方案
- 12.1.2HDFS数据块副本机制
- 12.1.3HDFS心跳机制
- 12.1.4HDFS负载均衡
- 12.1.5MapReduce容错
- 12.2Hadoop的SecondayNameNode机制
- 12.2.1磁盘镜像与日志文件
- 12.2.2SecondaryNameNode更新镜像的流程
- 12.3Avatar机制
- 12.3.1Avatar机制简介
- 12.3.2Avatars部署实战
- 12.4Hadoop_HBase容错
- 12.5思考与总结
- 第3篇Hadoop实战篇
- 第13章综合实战1:Hadoop中的数据库访问
- 13.1DBInputFormat类访问数据库
- 13.1.1在DBInputFormat类中包含的内置类
- 13.1.2使用DBInputFormat读取数据库表中的记录
- 13.1.3使用示例
- 13.2使用DBOutputFormat向数据库中写记录
- 13.3思考与总结
- 第14章综合实战2:一个简单的分布式的Grep
- 14.1分析与设计
- 14.2实现代码
- 14.3运行程序
- 14.4思考与总结
- 第15章综合实战3:打造一个搜索引擎
- 15.1搜索引擎工作原理
- 15.2网页搜集与信息提取
- 15.2.1设计的主要思想
- 15.2.2系统设计目标
- 15.3网页信息的提取与存储
- 15.4MapReduce的预处理
- 15.4.1第一步:源数据过滤
- 15.4.2第二步:生成倒排文件
- 15.4.3第三步:建立二级索引
- 15.5建立Web信息查询服务
- 15.6思考与总结
- 第16章综合实战4:移动通信信令监测与查询
- 16.1分析与设计
- 16.1.1CDR数据文件的检测与索引创建任务调度
- 16.1.2从HDFS读取数据并创建索引
- 16.1.3查询CDR信息
- 16.2代码实现
- 16.2.1CDR文件检测和索引创建任务程序
- 16.2.2读取CDR数据和索引创建处理
- 16.2.3CDR查询
- 16.3思考与总结
- 附录AHadoop命令大全
- 附录BHDFS命令大全/