标签分类
当前位置:首页 > 计算机理论电子书 > Hadoop电子书网盘下载
Hadoop大数据处理 Hadoop大数据处理
niehanmin

niehanmin 提供上传

资源
48
粉丝
12
喜欢
8
评论
8

    Hadoop大数据处理 PDF 高质量版

    Hadoop电子书
    • 发布时间:

    给大家带来的一篇关于Hadoop相关的电子书资源,介绍了关于Hadoop、大数据、大数据处理方面的内容,本书是由人民邮电出版社出版,格式为PDF,资源大小84.8 MB,刘军编写,目前豆瓣、亚马逊、当当、京东等电子书综合评分为:7.9,更多相关的学习资源可以参阅 计算机理论电子书、等栏目。

  • Hadoop大数据处理 PDF 下载
  • 下载地址:https://pan.baidu.com/s/1_IS8-coPwVw_4bmqN2YVdQ
  • 分享码:yu99
  • Hadoop大数据处理 PDF

    差异。兼具基础理论基本与开发设计实例,有利于通过自学和课堂教学,且应用性强。

    针对性。以北邮研究生教材内容为原型,历经多年运用改动健全,成熟情况高。《Hadoop大数据处理》以大数据处理系统的几大重要因素——“储存”、“测算”与“试错”为起始点,从入门到精通地详细介绍了怎么使用Hadoop这一性能分布式系统技术性进行大数据处理每日任务。这书不但包括了应用Hadoop开展大数据处理的理论性专业知识和实例,还用图片配文字的方式针对性地表明了Hadoop技术性族中重要部件的运作基本原理和提升方式,为用户全面提高Hadoop应用方法和运作高效率出示了极具使用价值的参照。

    Hadoop大数据处理》共10章,涉及到的主题风格包含大数据处理概论、应用场景Hadoop的大数据处理架构、MapReduce测算方式、应用HDFS储存互联网大数据、HBase大数据库查询、互联网大数据的剖析解决、Hadoop自然环境下的统计数据融合、Hadoop集群服务器的管理方法与维护保养、应用场景MapReduce的大数据挖掘实践活动及面向世界的大数据处理技术性。最终附带1个在Windows自然环境下构建Hadoop开发设计及调节自然环境的参考手册。

    《Hadoop大数据处理》合适必须应用Hadoop解决互联网大数据的程序猿、系统架构师和产品运营做为技术性参照和培训课件,也可做为高等院校硕士研究生和本科毕业教材内容。

    核心内容:大数据处理,技术性,互联网大数据,自然环境,教材内容,应用场景,针对性,做为,方式,参照

    目录

    • 第1章 大数据处理概论 1
    • 1.1 什么是大数据 2
    • 1.2 数据处理平台的基础架构 5
    • 1.3 大数据处理的存储 7
    • 1.3.1 提升容量 7
    • 1.3.2 提升吞吐量 11
    • 1.4 大数据处理的计算模式 17
    • 1.4.1 多处理技术 17
    • 1.4.2 并行计算 20
    • 1.5 大数据处理系统的容错性 26
    • 1.5.1 数据存储容错 27
    • 1.5.2 计算任务容错 28
    • 1.6 大数据处理的云计算变革 30
    • 本章参考文献 32
    • 第2章 基于Hadoop的大数据处理架构 35
    • 2.1 Google核心云计算技术 35
    • 2.1.1 并行计算编程模型MapReduce 36
    • 2.1.2 分布式文件系统GFS 38
    • 2.1.3 分布式结构化数据存储BigTable 39
    • 2.2 Hadoop云计算技术及发展 41
    • 2.2.1 Hadoop的由来 41
    • 2.2.2 Hadoop原理与运行机制 42
    • 2.2.3 Hadoop相关技术及简介 45
    • 2.2.4 Hadoop技术的发展与演进 47
    • 2.3 基于云计算的大数据处理架构 48
    • 2.4 基于云计算的大数据处理技术的应用 51
    • 2.4.1 百度 51
    • 2.4.2 阿里巴巴 56
    • 2.4.3 腾讯 58
    • 2.4.4 华为 60
    • 2.4.5 中国移动 62
    • 2.5 Hadoop运行实践 63
    • 本章参考文献 64
    • 第3章 MapReduce计算模式 66
    • 3.1 MapReduce原理 66
    • 3.2 MapReduce工作机制 69
    • 3.2.1 MapReduce运行框架的组件 70
    • 3.2.2 MapReduce作业的运行流程 70
    • 3.2.3 作业调度 72
    • 3.2.4 异常处理 73
    • 3.3 MapReduce应用开发 74
    • 3.3.1 MapReduce应用开发流程 74
    • 3.3.2 通过Web界面分析MapReduce应用 76
    • 3.3.3 MapReduce任务执行的单步跟踪 78
    • 3.3.4 多个MapReduce过程的组合模式 79
    • 3.3.5 使用其他语言编写MapReduce程序 81
    • 3.3.6 不同数据源的数据联结(Join) 82
    • 3.4 MapReduce设计模式 87
    • 3.4.1 计数(Counting) 88
    • 3.4.2 分类(Classfication) 88
    • 3.4.3 过滤处理(Filtering) 89
    • 3.4.4 排序(Sorting) 89
    • 3.4.5 去重计数(Distinct Counting) 90
    • 3.4.6 相关计数(Cross-Correlation) 91
    • 3.5 MapReduce算法实践 92
    • 3.5.1 最短路径算法 92
    • 3.5.2 反向索引算法 94
    • 3.5.3 PageRank算法 95
    • 3.6 MapReduce性能调优 97
    • 3.6.1 MapReduce参数配置优化 97
    • 3.6.2 使用Cominber减少数据传输 99
    • 3.6.3 启用数据压缩 100
    • 3.6.4 使用预测执行功能 101
    • 3.6.5 重用JVM 101
    • 本章参考文献 102
    • 第4章 使用HDFS存储大数据 103
    • 4.1 大数据的云存储需求 103
    • 4.2 HDFS架构与流程 104
    • 4.2.1 系统框架 104
    • 4.2.2 数据读取过程 105
    • 4.2.3 数据写入过程 106
    • 4.3 文件访问与控制 108
    • 4.3.1 基于命令行的文件管理 108
    • 4.3.2 通过API操作文件 110
    • 4.4 HDFS性能优化 114
    • 4.4.1 调整数据块尺寸 114
    • 4.4.2 规划网络与节点 114
    • 4.4.3 调整服务队列数量 116
    • 4.4.4 预留磁盘空间 116
    • 4.4.5 存储平衡 117
    • 4.4.6 根据节点功能优化磁盘配置 117
    • 4.4.7 其他参数 119
    • 4.5 HDFS的小文件存储问题 119
    • 4.5.1 Hadoop Archive工具 120
    • 4.5.2 CombineFileInputFormat 121
    • 4.5.3 SequenceFile格式 121
    • 4.5.4 相关研究 122
    • 4.6 HDFS的高可用性问题 123
    • 4.6.1 基于配置的元数据备份 123
    • 4.6.2 基于DRBD的元数据备份 124
    • 4.6.3 Secondary NameNode/CheckpointNode 125
    • 4.6.4 Backup Node 125
    • 4.6.5 NameNode热备份 126
    • 4.6.6 HDFS的HA方案总结 126
    • 本章参考文献 127
    • 第5章 HBase大数据库 128
    • 5.1 大数据环境下的数据库 128
    • 5.2 HBase架构与原理 129
    • 5.2.1 系统架构及组件 129
    • 5.2.2 数据模型与物理存储 131
    • 5.2.3 RegionServer的查找 135
    • 5.2.4 物理部署与读写流程 136
    • 5.3 管理HBase中的数据 138
    • 5.3.1 Shell 138
    • 5.3.2 Java API 141
    • 5.3.3 非Java语言访问 146
    • 5.4 从RDBMS到HBase 147
    • 5.4.1 行到列与主键到行关键字 149
    • 5.4.2 联合查询(Join)与去范例化(Denormalization) 151
    • 5.5 在HBase上运行MapReduce 152
    • 5.6 HBase性能优化 155
    • 5.6.1 参数配置优化 155
    • 5.6.2 表设计优化 156
    • 5.6.3 更新数据操作优化 157
    • 5.6.4 读数据操作优化 158
    • 5.6.5 数据压缩 159
    • 5.6.6 JVM GC优化 159
    • 5.6.7 负载均衡 160
    • 5.6.8 性能测试工具 160
    • 本章参考文献 161
    • 第6章 大数据的分析处理 162
    • 6.1 大数据的分析处理概述 162
    • 6.2 Hive 163
    • 6.2.1 系统架构及组件 163
    • 6.2.2 Hive数据结构 164
    • 6.2.3 数据存储格式 166
    • 6.2.4 Hive支持的数据类型 168
    • 6.2.5 使用HiveQL访问数据 170
    • 6.2.6 自定义函数扩展功能 175
    • 6.3 Pig 177
    • 6.3.1 Pig架构 178
    • 6.3.2 Pig Latin语言 179
    • 6.3.3 使用Pig处理数据 184
    • 6.4 Hive与Pig的对比 187
    • 本章参考文献 188
    • 第7章 Hadoop环境下的数据整合 189
    • 7.1 Hadoop计算环境下的数据整合问题 189
    • 7.2 数据库整合工具Sqoop 191
    • 7.2.1 使用Sqoop导入数据 192
    • 7.2.2 使用Sqoop导出数据 195
    • 7.2.3 Sqoop与Hive结合 196
    • 7.2.4 Sqoop对大对象数据的处理 197
    • 7.3 Hadoop平台内部数据整合工具HCatalog 197
    • 7.3.1 HCatalog的需求与实现 198
    • 7.3.2 MapReduce使用HCatalog管理数据 202
    • 7.3.3 Pig使用HCatalog管理数据 204
    • 7.3.4 HCatalog的命令行与通知功能 205
    • 本章参考文献 207
    • 第8章 Hadoop集群的管理与维护 208
    • 8.1 云计算平台的管理体系 208
    • 8.2 ZooKeeper——集群中的配置管理与协调者 211
    • 8.2.1 集群环境下的配置管理 211
    • 8.2.2 ZooKeeper架构 212
    • 8.2.3 ZooKeeper的数据模型 213
    • 8.3 Hadoop集群监控的基础组件 214
    • 8.3.1 Nagios 214
    • 8.3.2 Ganglia 217
    • 8.3.3 JMX 219
    • 8.4 Ambari——Hadoop集群部署与监控集成工具 220
    • 8.5 基于Cacti的Hadoop集群服务器监控 223
    • 8.6 Chukwa——集群日志收集及分析 225
    • 8.7 基于Kerberos的Hadoop安全管理 227
    • 8.8 Hadoop集群管理工具分析 230
    • 本章参考文献 231
    • 第9章 基于MapReduce的数据挖掘 232
    • 9.1 数据挖掘及其分布式并行化 232
    • 9.2 基于MapReduce的数据挖掘与Mahout 237
    • 9.3 经典数据挖掘算法的MapReduce实例 242
    • 9.3.1 矩阵乘法 243
    • 9.3.2 相似度计算 246
    • 9.4 基于云计算的数据挖掘实践及面临的挑战 252
    • 本章参考文献 256
    • 第10章 面向未来的大数据处理 257
    • 10.1 下一代计算框架YARN 257
    • 10.2 大数据的实时交互式分析 260
    • 10.2.1 Google Dremel 261
    • 10.2.2 Cloudera Impala 265
    • 10.3 大数据的图计算 266
    • 10.3.1 BSP模型 267
    • 10.3.2 Google Pregel计算框架 268
    • 10.3.3 Apache Hama开源项目 271
    • 本章参考文献 275
    • 附录 基于Cygwin的Hadoop环境搭建 276
    • 附录A 安装和配置Cygwin 276
    • 附录B 安装和配置Hadoop 281
    • 附录C 运行示例程序验证Hadoop安装 285
    • 附录D 安装和配置Eclipse下的Hadoop开发环境 286

    上一篇:Unity游戏设计与实现:南梦宫一线程序员的开发实例  下一篇:从零开始学C语言

    展开 +

    收起 -

    Hadoop相关电子书
    学习笔记
    网友NO.358288

    Hadoop之NameNode Federation知识点总结

    一. 前言 1.NameNode架构的局限性 (1)Namespace(命名空间)的限制 由于NameNode在内存中存储所有的元数据(metadata),因此单个NameNode所能存储的对象(文件+块)数目受到NameNode所在JVM的heap size的限制。50G的heap能够存储20亿(200million)个对象,这20亿个对象支持4000个DataNode,12PB的存储(假设文件平均大小为40MB)。随着数据的飞速增长,存储的需求也随之增长。单个DataNode从4T增长到36T,集群的尺寸增长到8000个DataNode。存储的需求从12PB增长到大于100PB。 (2)隔离问题 由于HDFS仅有一个NameNode,无法隔离各个程序,因此HDFS上的一个实验程序就很有可能影响整个HDFS上运行的程序。 (3)性能的瓶颈 由于是单个NameNode的HDFS架构,因此整个HDFS文件系统的吞吐量受限于单个NameNode的吞吐量。 2.HDFS Federation架构设计,如图所示 能不能有多个NameNode HDFS Federation架构设计 二.实现 NameNode HA是为了解决NameNode可用性的问题,而NameNode Federation则主要是为了解决NameNode扩展性,隔离性,以及单个NameNode性能方面的问题。NameNode Federation架构如下: NameNode Federation使用了多个命名空间,这些命名空间互相独立,自制(其实是对元数据的水平切分),而集群中所有DataNode向所有NameNode都进行注册,而一个块池(block pool)有属于同一个命名空间的数据块组成,……

    网友NO.210275

    Hadoop的安装与环境搭建教程图解

    一、 Hadoop 的安装 1. 下载地址:https://archive.apache.org/dist/hadoop/common/我下载的是hadoop-2.7.3.tar.gz版本。 2. 在/usr/local/ 创建文件夹zookeeper mkdir hadoop 3.上传文件到Linux上的/usr/local/source目录下 3.解压缩 运行如下命令: tar -zxvf hadoop-2.7.3.tar.gz-C /usr/local/hadoop 4. 修改配置文件 进入到 cd /usr/local/hadoop/hadoop-2.7.3/etc/hadoop/ , 修改 hadoop-env.sh 运行 vimhadoop-env.sh ,修改JAVA_HOME 5.将Hadoop的执行命令加入到我们的环境变量里 在/etc/profile文件中加入: export PATH=$PATH:/usr/local/hadoop/hadoop-2.7.3/bin:/usr/local/hadoop/hadoop-2.7.3/sbin 执行/etc/profile文件: source /etc/profile 6. 将npfdev1机器上的hadoop复制到npfdev2和npfdev3和npfdev4机器上。使用下面的命令: 首先分别在npfdev2和npfdev3和npfdev4机器上,建立/usr/local/hadoop目录,然后在npfdev1上分别执行下面命令: scp -r /usr/local/hadoop/hadoop-2.7.3/ npfdev2:/usr/local/hadoop/ scp -r /usr/local/hadoop/hadoop-2.7.3/ npfdev3:/usr/local/hadoop/ scp -r /usr/local/hadoop/hadoop-2.7.3/ npfdev4:/usr/local/hadoop/ 记住:需要各自修改npfdev2和npfdev3和npfdev4的/etc/profile文件: 在/etc/profile文件中加入: export PATH=$PATH:/usr/local/hadoop/hadoop-2.7.3/bin:/usr/local/hadoop/hadoop-2.7.3/sbin 执行/etc/profile文件: source /etc/profile 然后分别在npfdev1和npfdev2和npfdev3和npfdev4机器上,执行hadoop命令,看是否安装成功。并且关闭……

    网友NO.941497

    Eclipse+Maven构建Hadoop项目的方法步骤

    Maven 翻译为”专家”、”内行”,是 Apache 下的一个纯 Java 开发的开源项目。基于项目对象模型(Project Object Model 缩写:POM)概念,Maven利用一个中央信息片断能管理一个项目的构建、报告和文档等步骤。Maven 是一个项目管理工具,可以对 Java 项目进行构建、依赖管理。 在开发一些大型项目的时候,需要用到各种各样的开源包jar,为了方便管理及加载jar,使用maven开发项目可以节省大量时间且方便项目移动至新的开发环境。 开发环境 系统:MacOS 10.14.1 Hadoop:2.7.0 Java:1.8.0 Eclipse:4.6.2 Maven: 3.3.9 Maven安装 我使用的这个版本的Eclipse已经自带了Maven插件,不需要在自行安装,因此我也没有实际操作,本文就不介绍如何配置。 至于怎么知道自己使用的Eclipse是否自带有Maven,可以在Eclipse-Preference-Maven-Installations查看是否有Maven及版本号。或者直接新建项目查看是否有Maven选项。 构建Hadoop环境 创建Maven项目 打开Eclipse,File-new-project,选择Maven,然后下一步next 选择Creat a simple project,然后下一步next 输入Group id和artifact id。然后finish。 groupid和artifactId被统称为“坐标”是为了保证项目唯一性而提出的,如果你要把你项目弄到maven本地仓库去,你想要找到你的项目就必须根据这两个id去查找。 groupId一般分为多个段,这里我只说两段,第一段为域……

    Copyright 2018-2019 xz577.com 码农之家

    版权责任说明