标签分类 热门分类
当前位置:首页 > 程序设计电子书 > Hadoop电子书网盘下载
Hadoop大数据挖掘从入门到进阶实战 Hadoop大数据挖掘从入门到进阶实战
修身从修心开始

修身从修心开始 提供上传

资源
48
粉丝
5
喜欢
77
评论
4

    Hadoop大数据挖掘从入门到进阶实战 PDF 影印版

    Hadoop电子书
    • 发布时间:

    给大家带来的一篇关于Hadoop相关的电子书资源,介绍了关于Hadoop、大数据、Hadoop实战方面的内容,本书是由机械工业出版社出版,格式为PDF,资源大小214.4 MB,邓杰编写,目前豆瓣、亚马逊、当当、京东等电子书综合评分为:7.4,更多相关的学习资源可以参阅 程序设计电子书、等栏目。

  • Hadoop大数据挖掘从入门到进阶实战 PDF 下载
  • 下载地址:https://pan.baidu.com/s/1DmrFI_XlMHr4BL9OSnywd
  • 分享码:9nr7
  • Hadoop大数据挖掘从入门到进阶实战

    Hadoop大数据挖掘从入门到进阶实战

    内容介绍

    本书采用“理论 实战”的形式编写,全面介绍了Hadoop大数据挖掘的相关知识。本书共分为13章,涵盖的主要内容有:集群及开发环境搭建;快速构建一个Hadoop项目并线上运行;Hadoop套件实战;Hive编程——使用SQL提交MapReduce任务到Hadoop集群;游戏玩家的用户行为分析——特征提取;Hadoop平台管理与维护;Hadoop异常处理解决方案;初识Hadoop核心源码;Hadoop通信机制和内部协议;Hadoop分布式文件系统剖析;ELK实战案例——游戏应用实时日志分析平台;Kafka实战案例——实时处理游戏用户数据;Hadoop拓展——Kafka剖析。本书不但适合刚入门的初学者系统学习Hadoop的各种基础语法和开发技巧,而且也适合有多年开发经验的开发者进阶提高。另外,本书也适合社会培训机构和相关院校作为教材或者教学参考书。

    目录

    • 前言
    • 第1章 集群及开发环境搭建1
    • 1.1 环境准备1
    • 1.1.1 基础软件下载1
    • 1.1.2 准备Linux操作系统2
    • 1.2 安装Hadoop4
    • 1.2.1 基础环境配置4
    • 1.2.2 Zookeeper部署7
    • 1.2.3 Hadoop部署9
    • 1.2.4 效果验证21
    • 1.2.5 集群架构详解24
    • 1.3 Hadoop版Hello World25
    • 1.3.1 Hadoop Shell介绍25
    • 1.3.2 WordCount初体验27
    • 1.4 开发环境28
    • 1.4.1 搭建本地开发环境28
    • 1.4.2 运行及调试预览31
    • 1.5 小结34
    • 第2章 实战:快速构建一个Hadoop项目并线上运行35
    • 2.1 构建一个简单的项目工程35
    • 2.1.1 构建Java Project结构工程35
    • 2.1.2 构建Maven结构工程36
    • 2.2 操作分布式文件系统(HDFS)39
    • 2.2.1 基本的应用接口操作39
    • 2.2.2 在高可用平台上的使用方法42
    • 2.3 利用IDE提交MapReduce作业43
    • 2.3.1 在单点上的操作43
    • 2.3.2 在高可用平台上的操作46
    • 2.4 编译应用程序并打包51
    • 2.4.1 编译Java Project工程并打包51
    • 2.4.2 编译Maven工程并打包55
    • 2.5 部署与调度58
    • 2.5.1 部署应用58
    • 2.5.2 调度任务59
    • 2.6 小结60
    • 第3章 Hadoop套件实战61
    • 3.1 Sqoop——数据传输工具61
    • 3.1.1 背景概述61
    • 3.1.2 安装及基本使用62
    • 3.1.3 实战:在关系型数据库与分布式文件系统之间传输数据64
    • 3.2 Flume——日志收集工具66
    • 3.2.1 背景概述67
    • 3.2.2 安装与基本使用67
    • 3.2.3 实战:收集系统日志并上传到分布式文件系统(HDFS)上72
    • 3.3 HBase——分布式数据库74
    • 3.3.1 背景概述74
    • 3.3.2 存储架构介绍75
    • 3.3.3 安装与基本使用75
    • 3.3.4 实战:对HBase业务表进行增、删、改、查操作79
    • 3.4 Zeppelin——数据集分析工具85
    • 3.4.1 背景概述85
    • 3.4.2 安装与基本使用85
    • 3.4.3 实战:使用解释器操作不同的数据处理引擎88
    • 3.5 Drill——低延时SQL查询引擎92
    • 3.5.1 背景概述93
    • 3.5.2 安装与基本使用93
    • 3.5.3 实战:对分布式文件系统(HDFS)使用SQL进行查询95
    • 3.5.4 实战:使用SQL查询HBase数据库99
    • 3.5.5 实战:对数据仓库(Hive)使用类实时统计、查询操作101
    • 3.6 Spark——实时流数据计算104
    • 3.6.1 背景概述104
    • 3.6.2 安装部署及使用105
    • 3.6.3 实战:对接Kafka消息数据,消费、计算及落地108
    • 3.7 小结114
    • 第4章 Hive编程——使用SQL提交MapReduce任务到Hadoop集群115
    • 4.1 环境准备与Hive初识115
    • 4.1.1 背景介绍115
    • 4.1.2 基础环境准备116
    • 4.1.3 Hive结构初识116
    • 4.1.4 Hive与关系型数据库(RDBMS)118
    • 4.2 安装与配置Hive118
    • 4.2.1 Hive集群基础架构119
    • 4.2.2 利用HAProxy实现Hive Server负载均衡120
    • 4.2.3 安装分布式Hive集群123
    • 4.3 可编程方式126
    • 4.3.1 数据类型126
    • 4.3.2 存储格式128
    • 4.3.3 基础命令129
    • 4.3.4 Java编程语言操作数据仓库(Hive)131
    • 4.3.5 实践Hive Streaming134
    • 4.4 运维和监控138
    • 4.4.1 基础命令138
    • 4.4.2 监控工具Hive Cube140
    • 4.5 小结143
    • 第5章 游戏玩家的用户行为分析——特征提取144
    • 5.1 项目应用概述144
    • 5.1.1 场景介绍144
    • 5.1.2 平台架构与数据采集145
    • 5.1.3 准备系统环境和软件147
    • 5.2 分析与设计148
    • 5.2.1 整体分析148
    • 5.2.2 指标与数据源分析149
    • 5.2.3 整体设计151
    • 5.3 技术选型153
    • 5.3.1 套件选取简述154
    • 5.3.2 套件使用简述154
    • 5.4 编码实践157
    • 5.4.1 实现代码157
    • 5.4.2 统计结果处理163
    • 5.4.3 应用调度169
    • 5.5 小结174
    • 第6章 Hadoop平台管理与维护175
    • 6.1 Hadoop分布式文件系统(HDFS)175
    • 6.1.1 HDFS特性175
    • 6.1.2 基础命令详解176
    • 6.1.3 解读NameNode Standby179
    • 6.2 Hadoop平台监控182
    • 6.2.1 Hadoop日志183
    • 6.2.2 常用分布式监控工具187
    • 6.3 平台维护196
    • 6.3.1 安全模式196
    • 6.3.2 节点管理198
    • 6.3.3 HDFS快照200
    • 6.4 小结203
    • 第7章 Hadoop异常处理解决方案204
    • 7.1 定位异常204
    • 7.1.1 跟踪日志204
    • 7.1.2 分析异常信息208
    • 7.1.3 阅读开发业务代码209
    • 7.2 解决问题的方式210
    • 7.2.1 搜索关键字211
    • 7.2.2 查看Hadoop JIRA212
    • 7.2.3 阅读相关源码213
    • 7.3 实战案例分析216
    • 7.3.1 案例分析1:启动HBase失败216
    • 7.3.2 案例分析2:HBase表查询失败219
    • 7.3.3 案例分析3:Spark的临时数据不自动清理222
    • 7.4 小结223
    • 第8章 初识Hadoop核心源码224
    • 8.1 基础准备与源码编译224
    • 8.1.1 准备环境224
    • 8.1.2 加载源码228
    • 8.1.3 编译源码230
    • 8.2 初识Hadoop 2233
    • 8.2.1 Hadoop的起源233
    • 8.2.2 Hadoop 2源码结构图234
    • 8.2.3 Hadoop模块包235
    • 8.3 MapReduce框架剖析236
    • 8.3.1 第一代MapReduce框架236
    • 8.3.2 第二代MapReduce框架238
    • 8.3.3 两代MapReduce框架的区别239
    • 8.3.4 第二代MapReduce框架的重构思路240
    • 8.4 序列化241
    • 8.4.1 序列化的由来242
    • 8.4.2 Hadoop序列化243
    • 8.4.3 Writable实现类245
    • 8.5 小结247
    • 第9章 Hadoop通信机制和内部协议248
    • 9.1 Hadoop RPC概述248
    • 9.1.1 通信模型248
    • 9.1.2 Hadoop RPC特点250
    • 9.2 Hadoop R

    上一篇:Service Mesh实战:基于Linkerd和Kubernetes的微服务实践  下一篇:HyperLedger Fabric开发实战:快速掌握区块链技术

    展开 +

    收起 -

     
    Hadoop 相关电子书
    关于Hadoop的学习笔记
    网友NO.179356

    在Hadoop集群环境中为MySQL安装配置Sqoop的教程

    Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。 Sqoop中一大亮点就是可以通过hadoop的mapreduce把数据从关系型数据库中导入数据到HDFS。 一、安装sqoop 1、下载sqoop压缩包,并解压 压缩包分别是:sqoop-1.2.0-CDH3B4.tar.gz,hadoop-0.20.2-CDH3B4.tar.gz, Mysql JDBC驱动包mysql-connector-java-5.1.10-bin.jar [root@node1 ~]# ll drwxr-xr-x 15 root root 4096 Feb 22 2011 hadoop-0.20.2-CDH3B4-rw-r--r-- 1 root root 724225 Sep 15 06:46 mysql-connector-java-5.1.10-bin.jardrwxr-xr-x 11 root root 4096 Feb 22 2011 sqoop-1.2.0-CDH3B4 2、将sqoop-1.2.0-CDH3B4拷贝到/home/hadoop目录下,并将Mysql JDBC驱动包和hadoop-0.20.2-CDH3B4下的hadoop-core-0.20.2-CDH3B4.jar至sqoop-1.2.0-CDH3B4/lib下,最后修改一下属主。 [root@node1 ~]# cp mysql-connector-java-5.1.10-bin.jar sqoop-1.2.0-CDH3B4/lib[root@node1 ~]# cp hadoop-0.20.2-CDH3B4/hadoop-core-0.20.2-CDH3B4.jar sqoop-1.2.0-CDH3B4/lib[root@node1 ~]# chown -R hadoop:hadoop sqoop-1.2.0-CDH3B4[root@node1 ~]# mv sqoop-1.2.0-CDH3B4 /home/hadoop[root@node1 ~]# ll /home/hadoop total 35748-rw-rw-r-- 1 hadoop hadoop 343 Sep 15 05:13 derby.logdrwxr-xr-x 13 hadoop hadoop 4096 Sep 14 16:16 hadoop-0.20.2drwxr-xr-x 9 hadoop hadoop 4096 Sep 14 20:21 hive-0.10.0-rw-r--r-- 1 hadoop hadoop 36524……

    网友NO.261749

    基于Hadoop实现Knn算法

    Knn算法的核心思想是如果一个样本在特征空间中的K个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。Knn方法在类别决策时,只与极少量的相邻样本有关。由于Knn方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,Knn方法较其他方法更为合适。 Knn算法流程如下: 1. 计算当前测试数据与训练数据中的每条数据的距离 2. 圈定距离最近的K个训练对象,作为测试对象的近邻 3. 计算这K个训练对象中出现最多的那个类别,并将这个类别作为当前测试数据的类别 以上流程是Knn的大致流程,按照这个流程实现的MR效率并不高,可以在这之上进行优化。在这里只写,跟着这个流程走的MR实现过程。 Mapper的设计: 由于测试数据相比于训练数据来说,会小很多,因此将测试数据用Java API读取,放到内存中。所以,在setup中需要对测试数据进行初始化。在map中,计算当前测试数据与每条训练数据的距离,Mapper的值类型为:Object, Text, IntWritable,MyWritable。map输出键类型为IntWritable,存放当前测试数据的下标,输出值类型为……

    网友NO.312364

    Hadoop之NameNode Federation知识点总结

    一. 前言 1.NameNode架构的局限性 (1)Namespace(命名空间)的限制 由于NameNode在内存中存储所有的元数据(metadata),因此单个NameNode所能存储的对象(文件+块)数目受到NameNode所在JVM的heap size的限制。50G的heap能够存储20亿(200million)个对象,这20亿个对象支持4000个DataNode,12PB的存储(假设文件平均大小为40MB)。随着数据的飞速增长,存储的需求也随之增长。单个DataNode从4T增长到36T,集群的尺寸增长到8000个DataNode。存储的需求从12PB增长到大于100PB。 (2)隔离问题 由于HDFS仅有一个NameNode,无法隔离各个程序,因此HDFS上的一个实验程序就很有可能影响整个HDFS上运行的程序。 (3)性能的瓶颈 由于是单个NameNode的HDFS架构,因此整个HDFS文件系统的吞吐量受限于单个NameNode的吞吐量。 2.HDFS Federation架构设计,如图所示 能不能有多个NameNode HDFS Federation架构设计 二.实现 NameNode HA是为了解决NameNode可用性的问题,而NameNode Federation则主要是为了解决NameNode扩展性,隔离性,以及单个NameNode性能方面的问题。NameNode Federation架构如下: NameNode Federation使用了多个命名空间,这些命名空间互相独立,自制(其实是对元数据的水平切分),而集群中所有DataNode向所有NameNode都进行注册,而一个块池(block pool)有属于同一个命名空间的数据块组成,……

    网友NO.102996

    Eclipse+Maven构建Hadoop项目的方法步骤

    Maven 翻译为”专家”、”内行”,是 Apache 下的一个纯 Java 开发的开源项目。基于项目对象模型(Project Object Model 缩写:POM)概念,Maven利用一个中央信息片断能管理一个项目的构建、报告和文档等步骤。Maven 是一个项目管理工具,可以对 Java 项目进行构建、依赖管理。 在开发一些大型项目的时候,需要用到各种各样的开源包jar,为了方便管理及加载jar,使用maven开发项目可以节省大量时间且方便项目移动至新的开发环境。 开发环境 系统:MacOS 10.14.1 Hadoop:2.7.0 Java:1.8.0 Eclipse:4.6.2 Maven: 3.3.9 Maven安装 我使用的这个版本的Eclipse已经自带了Maven插件,不需要在自行安装,因此我也没有实际操作,本文就不介绍如何配置。 至于怎么知道自己使用的Eclipse是否自带有Maven,可以在Eclipse-Preference-Maven-Installations查看是否有Maven及版本号。或者直接新建项目查看是否有Maven选项。 构建Hadoop环境 创建Maven项目 打开Eclipse,File-new-project,选择Maven,然后下一步next 选择Creat a simple project,然后下一步next 输入Group id和artifact id。然后finish。 groupid和artifactId被统称为“坐标”是为了保证项目唯一性而提出的,如果你要把你项目弄到maven本地仓库去,你想要找到你的项目就必须根据这两个id去查找。 groupId一般分为多个段,这里我只说两段,第一段为域……

    Copyright 2018-2020 xz577.com 码农之家

    电子书资源由网友、会员提供上传,本站记录提供者的基本信息及资源来路

    鸣谢: “ 码小辫 ” 公众号提供回调API服务、“ 脚本CDN ”提供网站加速(本站寻求更多赞助支持)

    版权投诉 / 书籍推广 / 赞助:520161757@qq.com

    上传资源(网友、会员均可提供)

    查看最新会员资料及资源信息