给大家带来的一篇关于Hadoop相关的电子书资源,介绍了关于Hadoop、Hadoop指南方面的内容,本书是由清华大学出版社出版,格式为PDF,资源大小191.6 MB,Tom White编写,目前豆瓣、亚马逊、当当、京东等电子书综合评分为:9.2。
Hadoop权威指南(第4版)(修订版&全新升级)融合基础理论和实践活动,循序渐进,多方位详细介绍了Hadoop这一性能卓越的海量信息解决和剖析服务平台。
本书5一部分24章,第Ⅰ一部分详细介绍Hadoop基本知识,主题风格涉及到Hadoop、MapReduce、Hadoop分布式存储、YARN、Hadoop的I/O实际操作。
第Ⅱ一部分详细介绍MapReduce,主题风格包含MapReduce应用程序开发;MapReduce的工作方案、MapReduce的种类与文件格式、MapReduce的特点。第Ⅲ一部分详细介绍Hadoop的运维管理,主题风格涉及到搭建Hadoop群集、管理方法Hadoop。第Ⅳ一部分详细介绍Hadoop有关开源网站项目,主题风格涉及到Avro、Parquet、Flume、Sqoop、Pig、Hive、Crunch、Spark、HBase、ZooKeeper。第Ⅴ一部分出示了三个实例,各自来源于医疗服务信息科技服务提供商塞纳(Cerner)、微软公司的人工智能技术新项目ADAM(一种规模性分布式系统深度神经网络架构)和开源网站项目Cascading(一个新的对于MapReduce的数据处理方法API)。
这书是一本权威、全方位的Hadoop教材和专业书籍,论述了Hadoop生态链的全新发展趋势和运用,程序猿能够 从这当中探寻海量信息集的储存和剖析,管理人员能够 从这当中掌握Hadoop群集的安裝和运维管理。
Hadoop2.8.1完全分布式环境搭建过程
前言 本文搭建了一个由三节点(master、slave1、slave2)构成的Hadoop完全分布式集群(区别单节点伪分布式集群),并通过Hadoop分布式计算的一个示例测试集群的正确性。 本文集群三个节点基于三台虚拟机进行搭建,节点安装的操作系统为Centos7(yum源),Hadoop版本选取为2.8.0。作者也是初次搭建Hadoop集群,其间遇到了很多问题,故希望通过该博客让读者避免。 实验过程 1、基础集群的搭建 目的:获得一个可以互相通信的三节点集群 下载并安装VMware WorkStation Pro(支持快照,方便对集群进行保存)下载地址,产品激活序列号网上自行查找。 下载CentOS7镜像,下载地址。 使用VMware安装master节点(稍后其他两个……
Hadoop多Job并行处理的实例详解
Hadoop多Job并行处理的实例详解 有关Hadoop多Job任务并行处理,经过测试,配置如下: 首先做如下配置: 1、修改mapred-site.xml添加调度器配置: property namemapred.jobtracker.taskScheduler/name valueorg.apache.hadoop.mapred.FairScheduler/value/property 2、添加jar文件地址配置: property namehadoopTest.jar/name value所生成jar的地址/value/property Java基本代码如下: // 获取各个Job,有关Job的创建,这里就不贴上来了。Job job_base = (Job) 。。。;Job job_avg = (Job) 。。。;Job job_runCount = (Job) 。。。;Job job_activeUser = (Job) ....;job_base.setJarByClass(CapuseDateTimerTask.class);job_avg.setJarByClass(CapuseDateTimerTask.class);job_runCount.setJarByClass(CapuseDateTimerTask.class);job_activeUser.setJa……
Hadoop MultipleOutputs输出到多个文件中的实现方法
Hadoop MultipleOutputs输出到多个文件中的实现方法 1.输出到多个文件或多个文件夹: 驱动中不需要额外改变,只需要在MapClass或Reduce类中加入如下代码 private MultipleOutputsText,IntWritable mos;public void setup(Context context) throws IOException,InterruptedException { mos = new MultipleOutputs(context);}public void cleanup(Context context) throws IOException,InterruptedException { mos.close();} 然后就可以用mos.write(Key key,Value value,String baseOutputPath)代替context.write(key, value); 在MapClass或Reduce中使用,输出时也会有默认的文件part-m-00*或part-r-00*,不过这些文件是无内容的,大小为0. 而且只有part-m-00*会传给Reduce。 注意:multipleOutputs.write(key, value, baseOutputPath)方法的第三个……
hadoop的wordcount实例用法分析
可以通过一个简单的例子来说明MapReduce到底是什么: 我们要统计一个大文件中的各个单词出现的次数。由于文件太大。我们把这个文件切分成如果小文件,然后安排多个人去统计。这个过程就是Map。然后把每个人统计的数字合并起来,这个就是Reduce。 上面的例子如果在MapReduce去做呢,就需要创建一个任务job,由job把文件切分成若干独立的数据块,并分布在不同的机器节点中。然后通过分散在不同节点中的Map任务以完全并行的方式进行处理。MapReduce会对Map的输出地行收集,再将结果输出送给Reduce进行下一步的处理。 对于一个任务的具体执行过程,会有一个名为JobTracker的进程负责协调MapReduce执行过程中……
Hadoop Combiner使用方法详解
Hadoop Combiner使用方法详解 Combiner函数是一个可选的中间函数,发生在Map阶段,Mapper执行完成后立即执行。使用Combiner有如下两个优势: Combiner可以用来减少发送到Reducer的数据量,从而提高网络效率。 Combiner可以用于减少发送到Reducer的数据量,这将提高Reduce端的效率,因为每个reduce函数将处理相对较少记录,相比于未使用Combiner之前。 Combiner与Reducer结构相同,因为Combiner和Reducer都对Mapper的输出进行处理。这给了我们一个复用Reducer作为Combiner的好机会。但问题是,复用Reducer作为Combiner总是是一个好主意吗? 特点: Combiners是MapReduce中的一个优化,允许在shuffle和排序阶段之前在本地进行聚合。Combiners的首要……
以上就是本次介绍的Hadoop电子书的全部相关内容,希望我们整理的资源能够帮助到大家,感谢大家对码农之家的支持。
上一篇:概率图模型:原理与技术
下一篇:HTTP抓包实战
展开 +
收起 -
Mr.吕航
Copyright 2018-2020 www.xz577.com 码农之家
版权投诉 / 书籍推广 / 赞助:520161757@qq.com