标签分类
当前位置:首页 > 程序设计电子书 > Hadoop电子书网盘下载
精通Hadoop 精通Hadoop
王金典

王金典 提供上传

资源
28
粉丝
41
喜欢
164
评论
8

    精通Hadoop PDF 高清版

    Hadoop电子书
    • 发布时间:

    给大家带来的一篇关于Hadoop相关的电子书资源,介绍了关于Hadoop方面的内容,本书是由人民邮电出版社发行部出版,格式为PDF,资源大小89.2 MB,卡伦斯编写,目前豆瓣、亚马逊、当当、京东等电子书综合评分为:9.9,更多相关的学习资源可以参阅 程序设计电子书、等栏目。

  • 精通Hadoop PDF 下载
  • 下载地址:https://pan.baidu.com/s/18uYRxDeyZNj39csFld6z_w
  • 分享码:xm89
  • 精通Hadoop PDF

    熟练Hadoop是1本由浅入深的具体指导指南,重中之重详细介绍了Hadoop的高級定义和特点。内容包括了Hadoop 2.X版的改善,MapReduce、Pig和Hive等的提升以及高級特点,Hadoop 2.0的专享特点(如YARN和HDFS协同),及其怎么使用Hadoop2.0版本号拓展Hadoop的工作能力。
    假如你要扩展自身的Hadoop专业知识和专业技能,想解决具备趣味性的数据处理方法难题,想让Hadoop工作、Pig脚本制作和Hive查寻运作得迅速,或是想掌握升級Hadoop的益处,那麼这书就是你的不二之选。

    根据阅读文章这书,你将可以:

    了解从Hadoop 1.3到Hadoop 2.2的转变

    订制和提升Hadoop 2.2中的MapReduce工作

    研究Hadoop I/O和不一样的数据格式

    加强学习YARN和Storm,并根据YARN集成化Hadoop和Storm

    应用场景amazonElasticMapReduce布署Hadoop

    研究HDFS代替品,学习培训HDFS协同

    把握Hadoop安全性层面的主题思想

    应用Mahout和RHadoop开展Hadoop数据统计分析

    目录

    • 第1章 Hadoop 2.X  1
    • 第2章 MapReduce进阶  17
    • 第3章 Pig进阶  47
    • 第4章 Hive进阶  77
    • 第5章 序列化和Hadoop I/O  95
    • 第6章 YARN——其他应用模式进入Hadoop的引路人  116
    • 第7章 基于YARN的Storm——Hadoop中的低延时处理  142
    • 第8章 云上的Hadoop  162
    • 第9章 HDFS替代品  176
    • 第10章 HDFS联合  190
    • 第11章 Hadoop安全  201
    • 第12章 使用Hadoop进行数据分析   218

    上一篇:Linux软件管理平台设计与实现  下一篇:精通Python网络爬虫

    展开 +

    收起 -

    Hadoop相关电子书
    学习笔记
    网友NO.978576

    Hadoop的安装与环境搭建教程图解

    一、 Hadoop 的安装 1. 下载地址:https://archive.apache.org/dist/hadoop/common/我下载的是hadoop-2.7.3.tar.gz版本。 2. 在/usr/local/ 创建文件夹zookeeper mkdir hadoop 3.上传文件到Linux上的/usr/local/source目录下 3.解压缩 运行如下命令: tar -zxvf hadoop-2.7.3.tar.gz-C /usr/local/hadoop 4. 修改配置文件 进入到 cd /usr/local/hadoop/hadoop-2.7.3/etc/hadoop/ , 修改 hadoop-env.sh 运行 vimhadoop-env.sh ,修改JAVA_HOME 5.将Hadoop的执行命令加入到我们的环境变量里 在/etc/profile文件中加入: export PATH=$PATH:/usr/local/hadoop/hadoop-2.7.3/bin:/usr/local/hadoop/hadoop-2.7.3/sbin 执行/etc/profile文件: source /etc/profile 6. 将npfdev1机器上的hadoop复制到npfdev2和npfdev3和npfdev4机器上。使用下面的命令: 首先分别在npfdev2和npfdev3和npfdev4机器上,建立/usr/local/hadoop目录,然后在npfdev1上分别执行下面命令: scp -r /usr/local/hadoop/hadoop-2.7.3/ npfdev2:/usr/local/hadoop/ scp -r /usr/local/hadoop/hadoop-2.7.3/ npfdev3:/usr/local/hadoop/ scp -r /usr/local/hadoop/hadoop-2.7.3/ npfdev4:/usr/local/hadoop/ 记住:需要各自修改npfdev2和npfdev3和npfdev4的/etc/profile文件: 在/etc/profile文件中加入: export PATH=$PATH:/usr/local/hadoop/hadoop-2.7.3/bin:/usr/local/hadoop/hadoop-2.7.3/sbin 执行/etc/profile文件: source /etc/profile 然后分别在npfdev1和npfdev2和npfdev3和npfdev4机器上,执行hadoop命令,看是否安装成功。并且关闭……

    网友NO.362683

    Hadoop之NameNode Federation知识点总结

    一. 前言 1.NameNode架构的局限性 (1)Namespace(命名空间)的限制 由于NameNode在内存中存储所有的元数据(metadata),因此单个NameNode所能存储的对象(文件+块)数目受到NameNode所在JVM的heap size的限制。50G的heap能够存储20亿(200million)个对象,这20亿个对象支持4000个DataNode,12PB的存储(假设文件平均大小为40MB)。随着数据的飞速增长,存储的需求也随之增长。单个DataNode从4T增长到36T,集群的尺寸增长到8000个DataNode。存储的需求从12PB增长到大于100PB。 (2)隔离问题 由于HDFS仅有一个NameNode,无法隔离各个程序,因此HDFS上的一个实验程序就很有可能影响整个HDFS上运行的程序。 (3)性能的瓶颈 由于是单个NameNode的HDFS架构,因此整个HDFS文件系统的吞吐量受限于单个NameNode的吞吐量。 2.HDFS Federation架构设计,如图所示 能不能有多个NameNode HDFS Federation架构设计 二.实现 NameNode HA是为了解决NameNode可用性的问题,而NameNode Federation则主要是为了解决NameNode扩展性,隔离性,以及单个NameNode性能方面的问题。NameNode Federation架构如下: NameNode Federation使用了多个命名空间,这些命名空间互相独立,自制(其实是对元数据的水平切分),而集群中所有DataNode向所有NameNode都进行注册,而一个块池(block pool)有属于同一个命名空间的数据块组成,……

    网友NO.328048

    基于Hadoop实现Knn算法

    Knn算法的核心思想是如果一个样本在特征空间中的K个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。Knn方法在类别决策时,只与极少量的相邻样本有关。由于Knn方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,Knn方法较其他方法更为合适。 Knn算法流程如下: 1. 计算当前测试数据与训练数据中的每条数据的距离 2. 圈定距离最近的K个训练对象,作为测试对象的近邻 3. 计算这K个训练对象中出现最多的那个类别,并将这个类别作为当前测试数据的类别 以上流程是Knn的大致流程,按照这个流程实现的MR效率并不高,可以在这之上进行优化。在这里只写,跟着这个流程走的MR实现过程。 Mapper的设计: 由于测试数据相比于训练数据来说,会小很多,因此将测试数据用Java API读取,放到内存中。所以,在setup中需要对测试数据进行初始化。在map中,计算当前测试数据与每条训练数据的距离,Mapper的值类型为:Object, Text, IntWritable,MyWritable。map输出键类型为IntWritable,存放当前测试数据的下标,输出值类型为……

    Copyright 2018-2019 xz577.com 码农之家

    版权责任说明