给大家带来的一篇关于Hadoop相关的电子书资源,介绍了关于Hadoop、大数据方面的内容,本书是由人民邮电出版社出版,格式为PDF,资源大小133.3 MB,西普教育研究院 时允田 林雪纲编写,目前豆瓣、亚马逊、当当、京东等电子书综合评分为:9.4。
Hadoop大数据开发案例教程与项目实战是一本Hadoop学习入门参考书,全书共11章,分为基础篇和提高篇两部分。基础篇包括靠前~6章,具体包括Hadoop概述、Hadoop基础环境配置、分布式存储HDFS、计算系统MapReduce、计算模型Yarn、数据云盘。提高篇包括第7~11章,具体包括协调系统Zookeeper、Hadoop数据库Hbase、Hadoop数据仓库Hive、Hadoop数据采集Flume、OTA离线数据分析平台。全书内容结构合理,知识点全面,讲解详细,重点难点突出。
本书适合作为院校计算机及相关专业大数据课程的教材,也可供学习者自学参考。
Hadoop MultipleOutputs输出到多个文件中的实现方法
Hadoop MultipleOutputs输出到多个文件中的实现方法 1.输出到多个文件或多个文件夹: 驱动中不需要额外改变,只需要在MapClass或Reduce类中加入如下代码 private MultipleOutputsText,IntWritable mos;public void setup(Context context) throws IOException,InterruptedException { mos = new MultipleOutputs(context);}public void cleanup(Context context) throws IOException,InterruptedException { mos.close();} 然后就可以用mos.write(Key key,Value value,String baseOutputPath)代替context.write(key, value); 在MapClass或Reduce中使用,输出时也会有默认的文件part-m-00*或part-r-00*,不过这些文件是无内容的,大小为0. 而且只有part-m-00*会传给Reduce。 注意:multipleOutputs.write(key, value, baseOutputPath)方法的第三个……
实例详解hadoop中实现java网络爬虫
这一篇网络爬虫的实现就要联系上大数据了。在前两篇java实现网络爬虫和heritrix实现网络爬虫的基础上,这一次是要完整的做一次数据的收集、数据上传、数据分析、数据结果读取、数据可视化。 需要用到 Cygwin:一个在windows平台上运行的类UNIX模拟环境,直接网上搜索下载,并且安装; Hadoop:配置Hadoop环境,实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS,用来将收集的数据直接上传保存到HDFS,然后用MapReduce分析; Eclipse:编写代码,需要导入hadoop的jar包,以可以创建MapReduce项目; Jsoup:html的解析jar包,结合正则表达式能更好的解析网页源码; ----- 目录: 1、配置Cygwin 2、配置Hadoo……
Hadoop上Data Locality的详解
Hadoop上Data Locality的详解 Hadoop上的Data Locality是指数据与Mapper任务运行时数据的距离接近程度(Data Locality in Hadoop refers to the“proximity” of the data with respect to the Mapper tasks working on the data.) 1. why data locality is imporant? 当数据集存储在HDFS中时,它被划分为块并存储在Hadoop集群中的DataNode上。当在数据集执行MapReduce作业时,各个Mappers将处理这些块(输进行入分片处理)。如果Mapper不能从它执行的节点上获取数据,数据需要通过网络从具有这些数据的DataNode拷贝到执行Mapper任务的节点上(the data needs to be copied over the network from the DataNode which has the data to the DataNode which is executing the Mapper task)。假设一个MapReduce作业具……
hadoop上传文件功能实例代码
hdfs上的文件是手动执行命令从本地linux上传至hdfs的。在真实的运行环境中,我们不可能每次手动执行命令上传的,这样太过繁琐。那么,我们可以使用hdfs提供的Javaapi实现文件上传至hdfs,或者直接从ftp上传至hdfs。 然而,需要说明一点,之前笔者是要运行MR,都需要每次手动执行yarn jar,在实际的环境中也不可能每次手动执行。像我们公司是使用了索答的调度平台/任务监控平台,可以定时的以工作流执行我们的程序,包括普通java程序和MR。其实,这个调度平台就是使用了quartz。当然,这个调度平台也提供其它的一些功能,比如web展示、日志查看等,所以也不是免费的。 首先,给大家简单介绍一下hdfs。……
以上就是本次介绍的Hadoop电子书的全部相关内容,希望我们整理的资源能够帮助到大家,感谢大家对码农之家的支持。
上一篇:PHP从入门到精通
下一篇:21天精通微信小程序开发
展开 +
收起 -
码农之家
Copyright 2018-2020 www.xz577.com 码农之家
版权投诉 / 书籍推广 / 赞助:520161757@qq.com