标签分类
当前位置:首页 > 数据库电子书 > Hadoop电子书网盘下载
基于Hadoop的大数据分析和处理 基于Hadoop的大数据分析和处理
码小辫

码小辫 提供上传

资源
27
粉丝
50
喜欢
144
评论
9

    基于Hadoop的大数据分析和处理 PDF 完整原版

    Hadoop电子书
    • 发布时间:

    给大家带来的一篇关于Hadoop相关的电子书资源,介绍了关于Hadoop、大数据分析、处理方面的内容,本书是由电子工业出版社出版,格式为PDF,资源大小9.09 MB,魏祖宽编写,目前豆瓣、亚马逊、当当、京东等电子书综合评分为:8.3,更多相关的学习资源可以参阅 数据库电子书、等栏目。

    基于Hadoop的大数据分析和处理 PDF 下载

    下载地址:https://pan.baidu.com/s/1eCmqM_Vs2RofOmmjoiXH2

    分享码:whj9

    基于Hadoop的大数据分析和处理 PDF

    这书根据云计算技术和互联网大数据,详细介绍大数据处理和剖析的技术性,分成两一部分。*一部分详细介绍Hadoop基本知识,內容包含:Hadoop的详细介绍和集群服务器搭建、Hadoop的各分部式系统架构图、MapReduce以及运用、Hadoop的版本号特点及超进化。其次一部分以云计算技术为主题风格,详尽阐述运用Hadoop的数据分析和解决专用工具,及其NoSQL技术性,內容包含:云计算技术和Hadoop、Amazon服务项目中的MapReduce运用、Hadoop运用下的数据分析、NoSQL、HBase。这书不单纯性地叙述基础理论和定义,只是根据目实际的专用工具和技术性(Hadoop和NoSQL),运用很多具体实例,根据具体的实际操作和运用来机构大数据处理和剖析技术性,有益于用户从工程项目运用的视角开展具体把握和运用。合适有关技术专业的本科毕业、硕士研究生和前端工程师学习培训。

    目录

    • 第1章 Hadoop的介绍和集群构建 2
    • 1.1 Hadoop介绍 2
    • 1.1.1 云计算和Hadoop 2
    • 1.1.2 Hadoop的历史 4
    • 1.2 Hadoop构建案例 6
    • 1.2.1 欧美构建案例 6
    • 1.2.2 韩国构建案例 7
    • 1.3 构建Hadoop集群 8
    • 1.3.1 分布式文件系统 8
    • 1.3.2 构建Hadoop集群的准备事项 12
    • 1.3.3 构建伪分布式 17
    • 1.3.4 分布式集群(Cluster)构建 29
    • 1.4 Hadoop界面 36
    • 1.4.1 Hadoop分布式文件系统指令界面 36
    • 1.5 总结 40
    • 第2章 Hadoop分布式处理文件系统 41
    • 2.1 Hadoop分布式文件系统的设计 42
    • 2.2 概观Hadoop分布式文件系统的整体构造 43
    • 2.3 Namenode的角色 44
    • 2.3.1 元数据管理 44
    • 2.3.2 元数据的安全保管——Edits和Fslmage文件及Secondary Namenode 49
    • 2.3.3 Datanode管理 52
    • 2.4 Datanode的角色 59
    • 2.4.1 block管理 59
    • 2.4.2 数据的复制和过程 61
    • 2.4.3 Datanode添加 63
    • 2.5 总结 65
    • 第3章 大数据和MapReduce 67
    • 3.1 大数据的概要 68
    • 3.1.1 大数据的概念 69
    • 3.1.2 大数据的价值创造 69
    • 3.2 MapReduce 71
    • 3.2.1 MapReduce 示例:词频统计(Word Count) 71
    • 3.2.2 MapReduce开源代码:词频统计(Word Count)——Java基础 75
    • 3.2.3 MapReduce 开源代码:词频统计(Word Count)——Ruby语言基础 76
    • 3.3 MapReduce的结构 78
    • 3.3.1 通过案例了解MapReduce结构 79
    • 3.3.2 从结构性角度进行的MapReduce最优化方案 81
    • 3.4 MapReduce的容错性(Fault Tolerance) 85
    • 3.5 MapReduce的编程 86
    • 3.5.1 搜索 86
    • 3.5.2 排序 87
    • 3.5.3 倒排索引 87
    • 3.5.4 查找热门词 88
    • 3.5.5 合算数字 89
    • 3.6 构建Hadoop:通过MapReduce的案例介绍 90
    • 3.6.1 单词频率统计MapReduce的编程 91
    • 3.6.2 MapReduce—用户界面 95
    • 3.7 总结 99
    • 第4章 Hadoop版本特征及进化 101
    • 4.1 Hadoop 0.1x版本的API 103
    • 4.2 Hadoop附加功能(append) 107
    • 4.3 Hadoop安全相关功能 109
    • 4.4 Hadoop 2.0.0 alpha 111
    • 4.4.1 安装Hadoop 2.0.0 112
    • 4.4.2 Hadoop分布式文件系统的更改 120
    • 4.4.3 跨时代MapReduce框架:YARN 128
    • 4.5 总结 135
    • 第5章 云计算和Hadoop 137
    • 5.1 大规模Hadoop集群的构建和案例 138
    • 5.2 云基础设施服务的登场 139
    • 5.2.1 Amazon云服务 141
    • 5.3 在Amazon EC2中构建Hadoop集群 156
    • 5.3.1 Apache Whirr 156
    • 5.3.2 构建Hadoop 集群 157
    • 5.4 总结 160
    • 第6章 Amazon Elastic MapReduce的倍增利用 161
    • 6.1 Amazon EMR的活用 162
    • 6.1.1 Amazon EMR的概念 162
    • 6.1.2 Amazon EMR的构造 162
    • 6.1.3 Amazon EMR的特征 163
    • 6.1.4 Amazon EMR的 Job Flow和Step 164
    • 6.1.5 使用Amazon EMR前需要了解的事项 165
    • 6.1.6 Amazon EMR的实战运用 170
    • 6.2 总结 178
    • 第7章 Hadoop应用下的大数据分析 179
    • 7.1 Hadoop应用下的机器学习(Mahout) 180
    • 7.1.1 设置及编译 181
    • 7.1.2 K-means 聚类算法 183
    • 7.1.3 基于矢量相似度的协同过滤 188
    • 7.1.4 小结 194
    • 7.2 基于Hadoop的统计分析Rhive(R and Hive) 195
    • 7.2.1 R的设置及灵活运用 195
    • 7.2.2 Hive的设置及灵活运用 198
    • 7.2.3 RHive的设置及灵活运用 201
    • 7.2.4 小结 207
    • 7.3 利用Hadoop的图形数据处理Giraph 207
    • 7.4 总结 216
    • 第8章 数据中的DBMS,NoSQL 217
    • 8.1 NoSQL出现背景:大数据和Web 2.0 218
    • 8.1.1 基于Web 2.0的大数据的登场 218
    • 8.1.2 基于大数据的NoSQL的登场 221
    • 8.1.3 适合大数据和Web 2.0的数据库NoSQL 222
    • 8.2 NoSQL的定义和类别特征 226
    • 8.3 NoSQL数据模型概要和分类 229
    • 8.4 NoSQL数据模型化 231
    • 8.4.1 NoSQL数据模型化基本概念 232
    • 8.4.2 一般的NoSQL建模方法 234
    • 8.5 主要NoSQL的比较和选择 239
    • 8.6 总结 241
    • 第9章 Hbase:Hadoop中的NoSQL 243
    • 9.1 Hadoop生态界中的HBase 244
    • 9.2 HBase介绍 248
    • 9.3 HBase数据模型 250
    • 9.3.1 map 250
    • 9.3.2 持续性(persistent) 250
    • 9.3.3 分布性(distributed) 250
    • 9.3.4 排序性(sorted) 250
    • 9.3.5 多维性(multidimensional) 251
    • 9.3.6 稀疏性(sparse) 254
    • 9.4 HBase的数据库模式 255
    • 9.5 HBase构造 259
    • 9.6 HBase的构建及运行 261
    • 9.7 HBase的扩展——DuoBase中的HBase 264
    • 9.8 HBase的用户定义索引 266
    • 9.8.1 HBase用户定义索引—HFile格式的扩展 267
    • 9.8.2 HBase用户定义索引—Region的扩展 267
    • 9.9 总结 270

    上一篇:Spring学习指南  下一篇:Lua程序设计

    展开 +

    收起 -

    Hadoop 相关电子书
    学习笔记
    网友NO.315112

    基于Hadoop实现Knn算法

    Knn算法的核心思想是如果一个样本在特征空间中的K个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。Knn方法在类别决策时,只与极少量的相邻样本有关。由于Knn方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,Knn方法较其他方法更为合适。 Knn算法流程如下: 1. 计算当前测试数据与训练数据中的每条数据的距离 2. 圈定距离最近的K个训练对象,作为测试对象的近邻 3. 计算这K个训练对象中出现最多的那个类别,并将这个类别作为当前测试数据的类别 以上流程是Knn的大致流程,按照这个流程实现的MR效率并不高,可以在这之上进行优化。在这里只写,跟着这个流程走的MR实现过程。 Mapper的设计: 由于测试数据相比于训练数据来说,会小很多,因此将测试数据用Java API读取,放到内存中。所以,在setup中需要对测试数据进行初始化。在map中,计算当前测试数据与每条训练数据的距离,Mapper的值类型为:Object, Text, IntWritable,MyWritable。map输出键类型为IntWritable,存放当前测试数据的下标,输出值类型为……

    网友NO.657363

    Hadoop之NameNode Federation知识点总结

    一. 前言 1.NameNode架构的局限性 (1)Namespace(命名空间)的限制 由于NameNode在内存中存储所有的元数据(metadata),因此单个NameNode所能存储的对象(文件+块)数目受到NameNode所在JVM的heap size的限制。50G的heap能够存储20亿(200million)个对象,这20亿个对象支持4000个DataNode,12PB的存储(假设文件平均大小为40MB)。随着数据的飞速增长,存储的需求也随之增长。单个DataNode从4T增长到36T,集群的尺寸增长到8000个DataNode。存储的需求从12PB增长到大于100PB。 (2)隔离问题 由于HDFS仅有一个NameNode,无法隔离各个程序,因此HDFS上的一个实验程序就很有可能影响整个HDFS上运行的程序。 (3)性能的瓶颈 由于是单个NameNode的HDFS架构,因此整个HDFS文件系统的吞吐量受限于单个NameNode的吞吐量。 2.HDFS Federation架构设计,如图所示 能不能有多个NameNode HDFS Federation架构设计 二.实现 NameNode HA是为了解决NameNode可用性的问题,而NameNode Federation则主要是为了解决NameNode扩展性,隔离性,以及单个NameNode性能方面的问题。NameNode Federation架构如下: NameNode Federation使用了多个命名空间,这些命名空间互相独立,自制(其实是对元数据的水平切分),而集群中所有DataNode向所有NameNode都进行注册,而一个块池(block pool)有属于同一个命名空间的数据块组成,……

    网友NO.501660

    Hadoop多Job并行处理的实例详解

    Hadoop多Job并行处理的实例详解 有关Hadoop多Job任务并行处理,经过测试,配置如下: 首先做如下配置: 1、修改mapred-site.xml添加调度器配置: property namemapred.jobtracker.taskScheduler/name valueorg.apache.hadoop.mapred.FairScheduler/value/property 2、添加jar文件地址配置: property namehadoopTest.jar/name value所生成jar的地址/value/property Java基本代码如下: // 获取各个Job,有关Job的创建,这里就不贴上来了。Job job_base = (Job) 。。。;Job job_avg = (Job) 。。。;Job job_runCount = (Job) 。。。;Job job_activeUser = (Job) ....;job_base.setJarByClass(CapuseDateTimerTask.class);job_avg.setJarByClass(CapuseDateTimerTask.class);job_runCount.setJarByClass(CapuseDateTimerTask.class);job_activeUser.setJarByClass(CapuseDateTimerTask.class);// 执行完job_base才开始并行以下三个Job;if (job_base.waitForCompletion(true)) {FileUtil.hdfsFileHandle(jobBase);// 并行Jobjob_avg.submit();job_runCount.submit();job_activeUser.submit();}boolean bln1 = job_avg.isComplete();boolean bln2 = job_runCount.isComplete();boolean bln3 = job_activeUser.isComplete();// 计算Job是否完成while (!bln1 || !bln2 || !bln3) {bln1 = job_avg.isComplete();bln2 = job_runCount.isComplete();bln3 = job_activeUser.isComplete();} 最后将这些代码组装至Main方法,使用Hadoop执行命令运行: hadoop jar jar包名称 方法入口所在的类 如: hadoop jar hadoopTest.jar ch03.test Test 可以通过50……

    网友NO.199041

    Eclipse+Maven构建Hadoop项目的方法步骤

    Maven 翻译为”专家”、”内行”,是 Apache 下的一个纯 Java 开发的开源项目。基于项目对象模型(Project Object Model 缩写:POM)概念,Maven利用一个中央信息片断能管理一个项目的构建、报告和文档等步骤。Maven 是一个项目管理工具,可以对 Java 项目进行构建、依赖管理。 在开发一些大型项目的时候,需要用到各种各样的开源包jar,为了方便管理及加载jar,使用maven开发项目可以节省大量时间且方便项目移动至新的开发环境。 开发环境 系统:MacOS 10.14.1 Hadoop:2.7.0 Java:1.8.0 Eclipse:4.6.2 Maven: 3.3.9 Maven安装 我使用的这个版本的Eclipse已经自带了Maven插件,不需要在自行安装,因此我也没有实际操作,本文就不介绍如何配置。 至于怎么知道自己使用的Eclipse是否自带有Maven,可以在Eclipse-Preference-Maven-Installations查看是否有Maven及版本号。或者直接新建项目查看是否有Maven选项。 构建Hadoop环境 创建Maven项目 打开Eclipse,File-new-project,选择Maven,然后下一步next 选择Creat a simple project,然后下一步next 输入Group id和artifact id。然后finish。 groupid和artifactId被统称为“坐标”是为了保证项目唯一性而提出的,如果你要把你项目弄到maven本地仓库去,你想要找到你的项目就必须根据这两个id去查找。 groupId一般分为多个段,这里我只说两段,第一段为域……

    Copyright 2018-2019 xz577.com 码农之家

    版权责任说明