标签分类
当前位置:首页 > 程序设计电子书 > Hadoop电子书网盘下载
Hadoop云计算实战 Hadoop云计算实战
10114067

10114067 提供上传

资源
12
粉丝
48
喜欢
64
评论
3

    Hadoop云计算实战 PDF 高清版

    Hadoop电子书
    • 发布时间:

    给大家带来的一篇关于Hadoop相关的电子书资源,介绍了关于Hadoop、云计算、实战方面的内容,本书是由清华大学出版社出版,格式为PDF,资源大小22.4 MB,周品编写,目前豆瓣、亚马逊、当当、京东等电子书综合评分为:8.4,更多相关的学习资源可以参阅 程序设计电子书、等栏目。

  • Hadoop云计算实战 PDF 下载
  • 下载地址:https://pan.baidu.com/s/1f1wTuMxPpI2Il1RogDEJ4w
  • 分享码:7167
  • Hadoop云计算实战 PDF

    Hadoop云计算实战》全面介绍了云计算的基本概念、Google(谷歌)云计算的关键技术,以及Hadoop云计算的相关配套项目及其实战,包括Hadoop的HDFS、MapReduce、HBase、Hive、Pig、Cassandra、Chukwa及ZooKeeper等配套项目的实现机制、用法及应用。

    目录

    • 第1章 云计算概论 1
    • 1.1 云计算概述 1
    • 1.1.1 云计算的定义 1
    • 1.1.2 云计算产生的背景 2
    • 1.1.3 云时代谁是主角 3
    • 1.1.4 云计算的特征 4
    • 1.1.5 云计算的发展史 5
    • 1.1.6 云计算的服务层次 7
    • 1.1.7 云计算的服务形式 7
    • 1.1.8 云计算的实现机制 9
    • 1.1.9 云计算研究方向 11
    • 1.1.10 云计算发展趋势 12
    • 1.2 云计算关键技术研究 14
    • 1.2.1 虚拟化技术 14
    • 1.2.2 数据存储技术 15
    • 1.2.3 资源管理技术 17
    • 1.2.4 能耗管理技术 18
    • 1.2.5 云监测技术 19
    • 1.3 云计算应用研究 22
    • 1.3.1 语义分析应用 22
    • 1.3.2 IT企业应用 22
    • 1.3.3 生物学应用 23
    • 1.3.4 电信企业应用 24
    • 1.3.5 数据库的应用 27
    • 1.3.6 地理信息应用 28
    • 1.3.7 医学应用 29
    • 1.4 云安全 30
    • 1.4.1 云安全发展趋势 31
    • 1.4.2 云安全与网络安全的差别 31
    • 1.4.3 云安全研究的方向 31
    • 1.4.4 云安全难点问题 32
    • 1.4.5 云安全新增及增强功能 32
    • 1.5 云计算生命周期 33
    • 1.6 云计算存在的问题 34
    • 1.7 云计算的优缺点 35
    • 第2章 Hadoop相关项目介绍 37
    • 2.1 Hadoop简介 37
    • 2.1.1 Hadoop的基本架构 37
    • 2.1.2 Hadoop文件系统结构 40
    • 2.1.3 Hadoop文件读操作 41
    • 2.1.4 Hadoop文件写操作 42
    • 2.2 Hadoop系统性质 42
    • 2.2.1 可靠存储性 43
    • 2.2.2 数据均衡 43
    • 2.3 比较SQL数据库与Hadoop 44
    • 2.4 MapReduce概述 45
    • 2.4.1 MapReduce实现机制 45
    • 2.4.2 MapReduce执行流程 46
    • 2.4.3 MapReduce映射和化简 47
    • 2.4.4 MapReduce输入格式 47
    • 2.4.5 MapReduce输出格式 48
    • 2.4.6 MapReduce运行速度 48
    • 2.5 HBase概述 48
    • 2.5.1 HBase的系统框架 49
    • 2.5.2 HBase访问接口 51
    • 2.5.3 HBase的存储格式 52
    • 2.5.4 HBase的读写流程 52
    • 2.5.5 Hbase的优缺点 53
    • 2.6 ZooKeeper概述 53
    • 2.6.1 为什么需要ZooKeeper 54
    • 2.6.2 ZooKeeper设计目标 54
    • 2.6.3 ZooKeeper数据模型 54
    • 2.6.4 ZooKeeper工作原理 55
    • 2.6.5 ZooKeeper实现机制 56
    • 2.6.6 ZooKeeper的特性 57
    • 2.7 Hive概述 58
    • 2.7.1 Hive的组成 59
    • 2.7.2 Hive结构解析 59
    • 2.8 Pig概述 63
    • 2.9 Cassandra概述 64
    • 2.9.1 Cassandra主要功能 64
    • 2.9.2 Cassandra的体系结构 65
    • 2.9.3 Cassandra存储机制 65
    • 2.9.4 Cassandra的写过程 66
    • 2.9.5 Cassandra的读过程 67
    • 2.9.6 Cassandra的删除 68
    • 2.10 Chukwa概述 68
    • 2.10.1 使用Chukwa的原因 68
    • 2.10.2 Chukwa的不是 69
    • 2.10.3 Chukwa的定义 69
    • 2.10.4 Chukwa架构与设计 70
    • 第3章 Hadoop配置与实战 74
    • 3.1 Hadoop的安装 74
    • 3.1.1 在Linux下安装Hadoop 74
    • 3.1.2 运行模式 75
    • 3.1.3 在Windows下安装Hadoop 80
    • 3.2 运行Hadoop 86
    • 3.3 Hadoop的Avatar机制 87
    • 3.3.1 系统架构 88
    • 3.3.2 元数据同步机制 89
    • 3.3.3 切换故障过程 91
    • 3.3.4 运行流程 92
    • 3.3.5 切换故障流程 96
    • 3.4 Hadoop实战 99
    • 3.4.1 使用Hadoop运行wordcount实例 99
    • 3.4.2 使用Eclipse编写Hadoop程序 101
    • 第4章 Hadoop的分布式数据HDFS 102
    • 4.1 HDFS的操作 102
    • 4.1.1 文件操作 102
    • 4.1.2 管理与更新 103
    • 4.2 FS Shell使用指南 104
    • 4.3 API使用 111
    • 4.3.1 文件系统的常见操作 111
    • 4.3.2 API的Java操作实例 113
    • 第5章 Hadoop编程模型MapReduce 118
    • 5.1 MapReduce基础 118
    • 5.1.1 MapReduce编程模型 118
    • 5.1.2 MapReduce实现机制 119
    • 5.1.3 Java MapReduce 121
    • 5.2 MapReduce的容错性 124
    • 5.3 MapReduce实例分析 125
    • 5.4 不带map()、reduce()的MapReduce 131
    • 5.5 Shuffle过程 133
    • 5.6 新增Hadoop API 136
    • 5.7 Hadoop的Streaming 138
    • 5.7.1 通过UNIX命令使用Streaming 138
    • 5.7.2 通过Ruby版本使用Streaming 139
    • 5.7.3 通过Python版本使用Streaming 141
    • 5.8 MapReduce实战 142
    • 5.8.1 MapReduce排序 142
    • 5.8.2 MapReduce二次排序 145
    • 5.9 MapReduce作业分析 153
    • 5.10 定制MapReduce数据类型 156
    • 5.10.1 内置的数据输入格式和RecordReader 156
    • 5.10.2 定制输入数据格式与RecordReader 157
    • 5.10.3 定制数据输出格式实现多集合文件输出 160
    • 5.11 链接MapReduce作业 162
    • 5.11.1 顺序链接MapReduce作业 162
    • 5.11.2 复杂的MapReduce链接 163
    • 5.11.3 前后处理的链接 163
    • 5.11.4 链接不同的数据 166
    • 5.12 Hadoop的Pipes 172
    • 5.13 创建Bloom filter 174
    • 5.13.1 Bloom filter作用 175
    • 5.13.2 Bloom filter实现 175
    • 第6章 Hadoop的数据库HBase 182
    • 6.1 HBase数据模型 182
    • 6.1.1 数据模型 182
    • 6.1.2 概念视图 183
    • 6.1.3 物理视图 184
    • 6.2 HBase与RDBMS对比 185
    • 6.3 Bigtable的应用实例 188
    • 6.4 HBase的安装与配置 189
    • 6.5 Java API 196
    • 6.6 HBase实例分析 204
    • 6.6.1 RowLock 204
    • 6.6.2 HBase的HFileOutputFormat 207
    • 6.6.3 HBase的TableOutputFormat 210
    • 6.6.4 在HBase中使用MapReduce 213
    • 6.6.5 HBase分布式模式 215
    • 第7章 Hadoop的数据仓库Hive 220
    • 7.1 Hive的安装 220
    • 7.1.1 准备的软件包 220
    • 7.1.2 内嵌模式安装 220
    • 7.1.3 安装独立模式 221
    • 7.1.4 远程模式安装 222
    • 7.1.5 查看数据信息 222
    • 7.2 Hive的入口 223
    • 7.2.1 类CliDriver 225
    • 7.2.2 类CliSessionState 229
    • 7.2.3 类CommandProcessor 230
    • 7.3 Hive QL详解 232
    • 7.3.1 Hive的数据类型 232
    • 7.3.2 Hive与数据库比较 233
    • 7.3.3 DDL操作 234
    • 7.3.4 join查询 241
    • 7.3.5 DML操作 243
    • 7.3.6 SQL操作 245
    • 7.3.7 Hive QL的应用实例 248
    • 7.4 Hive的服务 250
    • 7.4.1 JDBC/ODBC服务 250
    • 7.4.2 Thrift服务 253
    • 7.4.3 Web接口 255
    • 7.5 Hive SQL的优化 256
    • 7.5.1 Hive SQL优化选项 256
    • 7.5.2 Hive SQL优化应用实例 258
    • 7.6 Hive的扩展性 261
    • 7.6.1 SerDe 262
    • 7.6.2 Map/Reduce脚本 263
    • 7.6.3 UDF 263
    • 7.6.4 UDAF 264
    • 7.7 Hive实战 266
    • 第8章 Hadoop的大规模数据平台Pig 274
    • 8.1 Pig的安装与运行 274
    • 8.1.1 Pig的安装 274
    • 8.1.2 Pig的运行 274
    • 8.2 Pig实现 278
    • 8.3 Pig Latin语言 279
    • 8.3.1 Pig Latin语言概述 280
    • 8.3.2 Pig Latin数据类型 282
    • 8.3.3 Pig Latin运算符 284
    • 8.3.4 Pig Latin关键字 287
    • 8.3.5 Pig内置函数 288
    • 8.4 自定义函数 291
    • 8.4.1 UDF的编写 292
    • 8.4.2 UDFS的使用 293
    • 8.5 Jaql和Pig查询语言的比较 293
    • 8.5.1 Pig和Jaql运行环境和执行形式的比较 294
    • 8.5.2 Pig和Jaql支持数据类型的比较 294
    • 8.5.3 Pig和Jaql操作符和内建函数以及自定义函数的比较 295
    • 8.5.4 其他 299
    • 8.6 Pig实战 300
    • 第9章 Hadoop的非关系型数据Cassandra 308
    • 9.1 Cassandra的安装 308
    • 9.1.1 在Windows 7中安装 308
    • 9.1.2 在Linux中安装 310
    • 9.2 Cassandra的数据模型 311
    • 9.2.1 Column 311
    • 9.2.2 SuperColumn 312
    • 9.2.3 ColumnFamily 312
    • 9.2.4 Row 313
    • 9.2.5 排序 313
    • 9.3 Cassandra的实例分析 315
    • 9.3.1 Cassandra的数据存储结构 315
    • 9.3.2 跟踪客户端代码 319
    • 9.4 Cassandra常用的编程语言 324
    • 9.4.1 Java使用Cassandra 324
    • 9.4.2 PHP使用Cassandra 325
    • 9.4.3 Python使用Cassandra 326
    • 9.4.4 C#使用Cassandra 327
    • 9.4.5 Ruby使用Cassandra 328
    • 9.5 Cassandra与MapReduce结合 328
    • 9.5.1 需求分析 329
    • 9.5.2 代码分析 330
    • 9.5.3 MapReduce代码 330
    • 9.6 Cassandra实战 331
    • 9.6.1 BuyerDao功能验证 331
    • 9.6.2 SellerDao功能验证 332
    • 9.6.3 ProductDao功能验证 333
    • 9.6.4 新建Schema在线功能 336
    • 9.6.5 功能验证 337
    • 第10章 Hadoop的收集数据Chukwa 339
    • 10.1 Chukwa的安装与配置 339
    • 10.1.1 配置要求 339
    • 10.1.2 Chukwa的安装 340
    • 10.1.3 基本命令 341
    • 10.2 Chukwa数据流处理 344
    • 10.2.1 支持数据类型 344
    • 10.2.2 数据处理 345
    • 10.2.3 自定义数据模块 351
    • 10.3 Chukwa源代码分析 352
    • 10.3.1 Chukwa适配器 352
    • 10.3.2 Chukwa连接器 357
    • 10.3.3 Chukwa收集器 362
    • 10.4 Chukwa实例分析 366
    • 10.4.1 生成数据 366
    • 10.4.2 收集数据 367
    • 10.4.3 处理数据 367
    • 10.4.4 析取数据 368
    • 10.4.5 稀释数据 368
    • 第11章 Hadoop的分布式系统ZooKeeper 369
    • 11.1 ZooKeeper的安装与配置 369
    • 11.1.1 ZooKeeper的安装 369
    • 11.1.2 ZooKeeper的配置 371
    • 11.1.3 ZooKeeper数据模型 373
    • 11.1.4 ZooKeeper的API接口 373
    • 11.1.5 ZooKeeper编程实现 375
    • 11.2 ZooKeeper的Leader流程 378
    • 11.3 ZooKeeper锁服务 379
    • 11.3.1 ZooKeeper中的锁机制 379
    • 11.3.2 ZooKeeper的写锁实现 380
    • 11.3.3 ZooKeeper锁服务实现例子 381
    • 11.4 创建ZooKeeper应用程序 383
    • 11.5 ZooKeeper的应用开发 387
    • 11.6 ZooKeeper的典型应用 395
    • 11.6.1 统一命名服务 396
    • 11.6.2 配置管理 396
    • 11.6.3 集群管理 397
    • 11.6.4 共享锁 398
    • 11.6.5 队列管理 399
    • 11.7 实现NameNode自动切换 402
    • 网上参考资源 410
    • 参考文献 412

    上一篇:量化投资:以R语言为工具  下一篇:SAP内存计算-HANA

    展开 +

    收起 -

    码小辫二维码
     ←点击下载即可登录

    Hadoop相关电子书
    学习笔记
    网友NO.452935

    基于Hadoop实现Knn算法

    Knn算法的核心思想是如果一个样本在特征空间中的K个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。Knn方法在类别决策时,只与极少量的相邻样本有关。由于Knn方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,Knn方法较其他方法更为合适。 Knn算法流程如下: 1. 计算当前测试数据与训练数据中的每条数据的距离 2. 圈定距离最近的K个训练对象,作为测试对象的近邻 3. 计算这K个训练对象中出现最多的那个类别,并将这个类别作为当前测试数据的类别 以上流程是Knn的大致流程,按照这个流程实现的MR效率并不高,可以在这之上进行优化。在这里只写,跟着这个流程走的MR实现过程。 Mapper的设计: 由于测试数据相比于训练数据来说,会小很多,因此将测试数据用Java API读取,放到内存中。所以,在setup中需要对测试数据进行初始化。在map中,计算当前测试数据与每条训练数据的距离,Mapper的值类型为:Object, Text, IntWritable,MyWritable。map输出键类型为IntWritable,存放当前测试数据的下标,输出值类型为……

    网友NO.124609

    Hadoop Combiner使用方法详解

    Hadoop Combiner使用方法详解 Combiner函数是一个可选的中间函数,发生在Map阶段,Mapper执行完成后立即执行。使用Combiner有如下两个优势: Combiner可以用来减少发送到Reducer的数据量,从而提高网络效率。 Combiner可以用于减少发送到Reducer的数据量,这将提高Reduce端的效率,因为每个reduce函数将处理相对较少记录,相比于未使用Combiner之前。 Combiner与Reducer结构相同,因为Combiner和Reducer都对Mapper的输出进行处理。这给了我们一个复用Reducer作为Combiner的好机会。但问题是,复用Reducer作为Combiner总是是一个好主意吗? 特点: Combiners是MapReduce中的一个优化,允许在shuffle和排序阶段之前在本地进行聚合。Combiners的首要目标是通过最小化键值对的数量来节省尽可能多的带宽 Reducer作为Combiner的适用场景 假设我们正在编写一个MapReduce程序来计算股票数据集中每个股票代码的最大收盘价。Mapper将数据集中每个股票记录的股票代码作为key和收盘价作为value。Reducer然后将循环遍历股票代码对应的所有收盘价,并从收盘价列表中计算最高收盘价。假设Mapper 1 处理 股票代码为ABC 的3个记录,收盘价分别为50,60和111。让我们假设Mapper 2 处理股票代码为ABC的2个记录,收盘价分别为100和31。那么Reducer将收到股票代码ABC五个收盘价---50,60,111,100和31。Reducer的……

    网友NO.722650

    hadoop是什么语言

    Hadoop是什么?Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算. Hadoop框架中最核心设计就是:HDFS和MapReduce.HDFS提供了海量数据的存储,MapReduce提供了对数据的计算. 数据在Hadoop中处理的流程可以简单的按照下图来理解:数据通过Haddop的集群处理后得到结果. HDFS:HadoopDistributed File System,Hadoop的分布式文件系统. 大文件被分成默认64M一块的数据块分布存储在集群机器中. 如下图中的文件 data1被分成3块,这3块以冗余镜像的方式分布在不同的机器中. MapReduce:Hadoop为每一个input split创建一个task调用Map计算,在此task中依次处理此split中的一个个记录(record),map会将结果以key--value的形式输出,hadoop负责按key值将map的输出整理后作为Reduce的输入,Reduce Task的输出为整个job的输出,保存在HDFS上. Hadoop的集群主要由 NameNode,DataNode,Secondary NameNode,JobTracker,TaskTracker组成. 如下图所示: NameNode中记录了文件是如何被拆分成block以及这些block都存储到了那些DateNode节点. NameNode同时保存了文件系统运行的状态信息. DataNode中存储的是被拆分的blocks. Secondary NameNode帮助NameNode收集文件系统运行的状态信息. JobTracker当有任务提交到Hadoop集群的时候负责Job的运行,负责调度多个……

    网友NO.875799

    Hadoop组件简介

    安装hbase 首先下载hbase的最新稳定版本 http://www.apache.org/dyn/closer.cgi/hbase/ 安装到本地目录中,我安装的是当前用户的hadoop/hbase中 tar -zxvf hbase-0.90.4.tar.gz 单机模式 修改配置文件 conf/hbase_env.sh 配置JDK的路径 修改conf/hbase-site.xml hbase.rootdir file:///home/${user.name}/hbase-tmp 完成后启动 bin/start-hbase.sh 启动后 starting master, logging to/home/lgstar888/hadoop/hbase0.9/bin/../logs/hbase-lgstar888-master-ubuntu.out 然后执行 bin/hbase shell 输入status 如果输入exit则退出 Hadoop与Google一样,都是小孩命名的,是一个虚构的名字,没有特别的含义。从计算机专业的角度看,Hadoop是一个分布式系统基础架构,由Apache基金会开发。Hadoop的主要目标是对分布式环境下的“大数据”以一种可靠、高效、可伸缩的方式处理。设想一个场景,假如您需要grep一个100TB的大数据文件,按照传统的方式,会花费很长时间,而这正是Hadoop所需要考虑的效率问题。 关于Hadoop的结构,有各种不同的说法。我们这里简单的理解为Hadoop主要由三部分组成:HDFS(HadoopDistributed File System),MapReduce与Hbase。 1.Hadoop组件之一:HDFS分布式文件系统具有哪些优点? HDFS作为一种分布式文件系统,它和现有的分布式文件系统有很多共同点。比如,Hadoop文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计……

    Copyright 2018-2019 xz577.com 码农之家

    版权责任说明