当前位置:首页 > 数据库 >
《企业大数据处理:Spark、Druid、Flume与Kafka应用实践》电子书封面

企业大数据处理:Spark、Druid、Flume与Kafka应用实践

  • 发布时间:2020年05月09日 09:20:41
  • 作者:肖冠宇
  • 大小:53.3 MB
  • 类别:大数据电子书
  • 格式:PDF
  • 版本:扫描超清版
  • 评分:8.1

    企业大数据处理:Spark、Druid、Flume与Kafka应用实践 PDF 扫描超清版

      给大家带来的一篇关于大数据相关的电子书资源,介绍了关于大数据处理、Spark、Druid、Flume、Kafka方面的内容,本书是由机械工业出版社出版,格式为PDF,资源大小53.3 MB,肖冠宇编写,目前豆瓣、亚马逊、当当、京东等电子书综合评分为:7.7。

      内容介绍

      企业大数据处理》分成三绝大多数,共九章。第壹一部分(第1章)关键介绍了企业大数据系统软件的早期准备工作,包含怎样搭建公司大数据处理系统的手机软件自然环境和集群自然环境。第二一部分(第二~7章)最先介绍了Spark的基本原理,Spark2.0版本的SparkSQL、StructuredStreaming基本原理和操作方法,及其Spark的多种多样提升方法;随后,介绍了Druid的基本原理、集群的构建过程、数据信息摄取过程,及其在查寻过程中怎样完成Druid查寻API;然后介绍了系统日志搜集系统软件Flume的基础架构和重要部件,及其层次系统日志搜集架构的设计方案与实践活动;后介绍了分布式系统消息队列Kafka的基础架构和集群构建过程,及其应用Java語言完成手机客户端API的详尽过程。第三一部分(第八~9章)关键介绍了公司大数据处理的2个具体运用实例,分别是根据Druid搭建多维度数据统计分析服务平台和根据JMX指标值的视频监控系统。

      目录

      • Contents?目  录
      • 前 言
      • 第一部分 准备工作
      • 第1章 基础环境准备 2
      • 1.1 软件环境准备 2
      • 1.2 集群环境准备 4
      • 1.2.1 Zookeeper集群部署 4
      • 1.2.2 Hadoop部署 6
      • 1.3 小结 15
      • 第二部分 核心技术
      • 第2章 Spark详解 18
      • 2.1 Spark概述 18
      • 2.1.1 Spark概述 18
      • 2.1.2 Shuff?le详解 25
      • 2.2 Spark SQL 29
      • 2.2.1 SparkSession 29
      • 2.2.2 DataFrame 30
      • 2.2.3 DataSet 35
      • 2.3 Structured Streaming 35
      • 2.3.1 数据源 36
      • 2.3.2 输出到外部存储 38
      • 2.3.3 WordCount示例 40
      • 2.4 Spark优化 42
      • 2.4.1 数据优化 42
      • 2.4.2 代码优化 44
      • 2.4.3 参数优化 46
      • 2.5 小结 48
      • 第3章 Druid原理及部署 49
      • 3.1 架构设计 49
      • 3.1.1 节点类型 49
      • 3.1.2 Segment介绍 57
      • 3.1.3 容错处理 59
      • 3.1.4 路由节点 60
      • 3.2 集群部署 63
      • 3.2.1 集群规划 63
      • 3.2.2 配置安装 64
      • 3.3 小结 72
      • 第4章 Druid数据摄入 73
      • 4.1 模式设计 73
      • 4.1.1 设计概述 73
      • 4.1.2 数据解析 75
      • 4.1.3 Segment分区 79
      • 4.1.4 模式更改 81
      • 4.2 批量数据摄入 81
      • 4.3 流数据摄入 87
      • 4.3.1 Tranquility 88
      • 4.3.2 StreamPush 91
      • 4.3.3 从Kafka中摄取数据 92
      • 4.4 数据更新 94
      • 4.5 小结 95
      • 第5章 Druid客户端 96
      • 5.1 涉及组件 96
      • 5.1.1 查询相关 96
      • 5.1.2 过滤器 99
      • 5.1.3 聚合粒度 101
      • 5.1.4 聚合器 105
      • 5.2 查询类型 109
      • 5.2.1 时间序列查询 109
      • 5.2.2 TopN查询 111
      • 5.2.3 分组查询 113
      • 5.2.4 元数据查询 117
      • 5.2.5 搜索查询 121
      • 5.3 查询API 125
      • 5.3.1 RESTful介绍 125
      • 5.3.2 Jersey客户端 126
      • 5.4 小结 129
      • 第6章 日志收集 130
      • 6.1 Flume介绍 130
      • 6.1.1 基本架构 131
      • 6.2 Flume应用实践 144
      • 6.2.1 拦截器、选择器实践 144
      • 6.2.2 负载均衡、故障转移实践 149
      • 6.2.3 设计与实践 150
      • 6.3 小结 154
      • 第7章 分布式消息队列 155
      • 7.1 Kafka介绍 155
      • 7.1.1 基本架构 155
      • 7.1.2 高吞吐的实现 157
      • 7.1.3 高可用的实现 160
      • 7.2 安装部署 161
      • 7.2.1 Broker配置参数 161
      • 7.2.2 分布式部署 162
      • 7.3 客户端API 163
      • 7.3.1 Producer API 164
      • 7.3.2 Consumer API 165
      • 7.4 小结 169
      • 第三部分 项目实践
      • 第8章 数据平台 172
      • 8.1 需求分析 172
      • 8.2 功能实现 173
      • 8.2.1 架构设计 173
      • 8.2.2 关键功能实现 175
      • 8.3 小结 184
      • 第9章 监控系统 185
      • 9.1 Inf?luxDB 185
      • 9.1.1 Inf?luxDB简介 186
      • 9.1.2 Inf?luxDB安装 186
      • 9.1.3 Inf?luxDB操作 188
      • 9.1.4 Inf?luxDB客户端 191
      • 9.2 JMXTrans 192
      • 9.2.1 JMXTrans介绍 192
      • 9.2.2 JMXTrans安装 194
      • 9.2.3 JMXTrans使用 195
      • 9.3 Grafana 198
      • 9.3.1 Grafana安装 198
      • 9.3.2 Grafana使用 199
      • 9.4 小结 208

      学习笔记

      如何为Spark Application指定不同的JDK版本详解

      前言 随着企业内部业务系统越来越多,基于JVM的服务,通常情况线上环境可能会有多套JDK跑不同的服务。大家都知道基于高版本的Java规范编写的服务跑在低版本的JVM上会出现: java.lang.UnsupportedClassVersionError 的异常。 Spark 2.2开始移除了对Java 7的支持,大多数情况下,我们的Spark Application是和Hadoop系统公用的JDK,如果Hadoop依赖的JDK版本是7,那我们基于JDK 8编写的Application跑在上面就会出问题。 该文主要介绍在不同的场景下,如何为Spark Application指定不同的JDK版本。 集群已部署了指定的JDK版本 假设集群中每个节点JDK的部署路径为:/usr/java/jdk1.8 Spark提供了 spark.executorEnv.[EnvironmentVariableName] 配置,可以用来给……

      Spring Boot与Spark、Cassandra系统集成开发示例

      本文演示以Spark作为分析引擎,Cassandra作为数据存储,而使用Spring Boot来开发驱动程序的示例。 1.前置条件 安装Spark(本文使用Spark-1.5.1,如安装目录为/opt/spark) 安装Cassandra(3.0+) 创建keyspace CREATE KEYSPACE hfcb WITH REPLICATION = { 'class' : 'SimpleStrategy', 'replication_factor' : 3 }; 创建table CREATE TABLE person ( id text PRIMARY KEY, first_name text, last_name text); 插入测试数据 insert into person (id,first_name,last_name) values('1','wang','yunfei');insert into person (id,first_name,last_name) values('2','peng','chao');insert into person (id,first_name,last_name) values('3','li','jian');insert into person (id,first_name,last_name) values('4','zhang','jie');insert into person (id,first_name,last_name) values('5','liang','wei');……

      将string类型的数据类型转换为spark rdd时报错的解决方法

      在将string类型的数据类型转换为spark rdd时,一直报这个错, StructType can not accept object %r in type %s” % (obj, type(obj))) ...s = str(tree)y = str(YESTERDAY)list0 = [s, y]outRes = self.sc.parallelize(list0)df_tree = outRes.toDF("model: string, dt: string").registerTempTable("temp")... 查了半天的资料,问了不少同事都没能解决掉这个bug。最后终于google到一个类似的case,终于把问题解决。记录一下! ...s = str(tree)y = str(YESTERDAY)list0 = [s, y]outRes = self.sc.parallelize([list0])df_tree = outRes.toDF("model: string, dt: string").registerTempTable("temp")... 上面的问题办法是,将 sc.parallelize([list0]) 中的 list0 再转成一个整体 list ,问题即可解决。 总结 以上就是这篇文章的全部内容了,……

      spark dataframe 将一列展开,把该列所有值都变成新列的方法

      The original dataframe 需求:hour代表一天的24小时,现在要将hour列展开,每一个小时都作为一个列 实现: val pivots = beijingGeoHourPopAfterDrop.groupBy("geoHash").pivot("hour").sum("countGeoPerHour").na.fill(0) 并且统计了对应的countGeoPerHour的和,如果有些行没有这个新列对应的数据,将用null填充 The new dataframe 以上这篇spark dataframe 将一列展开,把该列所有值都变成新列的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持码农之家。 ……

      Java和scala实现 Spark RDD转换成DataFrame的两种方法小结

      一:准备数据源 在项目下新建一个student.txt文件,里面的内容为: 1,zhangsan,20 2,lisi,21 3,wanger,19 4,fangliu,18 二:实现 Java版: 1.首先新建一个student的Bean对象,实现序列化和toString()方法,具体代码如下: package com.cxd.sql;import java.io.Serializable;@SuppressWarnings("serial")public class Student implements Serializable { String sid; String sname; int sage; public String getSid() { return sid; } public void setSid(String sid) { this.sid = sid; } public String getSname() { return sname; } public void setSname(String sname) { this.sname = sname; } public int getSage() { return sage; } public void setSage(int sage) { this.sage = sage; } @Override public String toString() { return "Student [sid=" + sid + ", sname=" + sname + ", sage=……

      以上就是本次介绍的大数据电子书的全部相关内容,希望我们整理的资源能够帮助到大家,感谢大家对码农之家的支持。

      上一篇:零起点Python足彩大数据与机器学习实盘分析

      下一篇:Head First JavaScript程序设计

      展开 +

      收起 -

      • 《企业大数据处理:Spark、Druid、Flume与Kafka应用实践》PDF下载

      大数据相关电子书
      Hadoop大数据实战权威指南
      Hadoop大数据实战权威指南 高质量版

      大数据贵在落实! 本书是一本讲解大数据实战的图书,按照深入分析组件原理、充分展示搭建过程、详细指导应用开发编写。全书分为三篇,第一篇为大数据的基本概念和技术,主要介绍大数

      立即下载
      大数据智能:互联网时代的机器学习和自然语言处理技术
      大数据智能:互联网时代的机器学习和自然语言处理技术

      本书是一本介绍大数据智能分析的科普书籍, 旨在让更多的人了解和学习互联网时代的机器学习和自 然语言处理技术,以期让大数据技术更好地为我们的生产和生活服务。 全书包括大数据智能基础和大数据智能应用两个部分,共 8 章。大数据智能基础部分有三章:第 1 章 以深度学习为例介绍大数据智能的计算框架;第 2 章以知识图谱为例介绍大数据智能的知识库;第 3 章介 绍大数据背后的计算处理系统。 大数据智能应用部分有 5 章: 第 4 章介绍智能

      立即下载
      大数据架构师指南
      大数据架构师指南 高清版

      如果你是一名IT工程师,首席技术官(CTO)希望 你在一周内提交一份公司未来IT系统基础架构的初步 建议;如果你是一位IT营销人员,客户需要你在一周 内向他汇报未来大数据系统的大致技术方向

      立即下载
      大数据搜索引擎原理分析及编程实现
      大数据搜索引擎原理分析及编程实现 原书完整版

      本书向读者提供了一套完整的大数据时代背景下的搜索引擎解决方案,详尽地介绍了搜索引擎的技术架构、算法体系及取得的效果,以模块化的方式进行组织

      立即下载
      决战大数据:驾驭未来商业的利器
      决战大数据:驾驭未来商业的利器 清晰版 立即下载
      数据即未来:大数据王者之道
      数据即未来:大数据王者之道 超清版

      作者布瑞恩•戈德西结合自己的亲身经历,讲述了数据科学从项目准备、解决方案构建到项目交付的全部过程,并以案例的形式深入浅出地讲解了在开展数据科学项目的过程中可能遇到的各

      立即下载
      大数据分析Excel Power BI全方位应用
      大数据分析Excel Power BI全方位应用 高清版

      随著电脑技术的发展,资料存储量呈现倍增成长,以资料採矿为核心的Business Intelligence(BI)显然成为IT和其他行业的必争之地,同时市场潮流Big Data让巨量资料分析变得更重要,商业智慧也顺理成

      立即下载
      云计算中的大数据技术与应用
      云计算中的大数据技术与应用 高清版

      云计算中的大数据技术与应用 系统阐述了物联网、云计算的最新技术进展和应用案例。首先从物联网、云计算的定义入手,分析物联网和云计算面临的挑战。其次对物联网和云计算分别做了深

      立即下载
      MongoDB大数据处理权威指南
      MongoDB大数据处理权威指南 全书完整版

      MongoDB大数据处理权威指南(第3版)对于MongoDB3干了细致升级,展现MongoDB的全部最新消息特点,包含2.2版导入的集聚架构、2.4版导入的哈希数据库索引及其3.2版本号的WiredTiger,还新列入Node.js和P

      立即下载
      Hadoop大数据开发案例教程与项目实战
      Hadoop大数据开发案例教程与项目实战 高清版

      Hadoop大数据开发案例教程与项目实战 是一本Hadoop学习入门参考书,全书共11章,分为基础篇和提高篇两部分。基础篇包括靠前~6章,具体包括Hadoop概述、Hadoop基础环境配置、分布式存储HDFS、计

      立即下载
      读者留言
      王果

      王果 提供上传

      资源
      32
      粉丝
      48
      喜欢
      177
      评论
      1

      Copyright 2018-2020 xz577.com 码农之家

      本站所有电子书资源不再提供下载地址,只分享来路

      版权投诉 / 书籍推广 / 赞助:QQ:520161757