给大家带来的一篇关于大数据相关的电子书资源,介绍了关于大数据处理、Spark、Druid、Flume、Kafka方面的内容,本书是由机械工业出版社出版,格式为PDF,资源大小53.3 MB,肖冠宇编写,目前豆瓣、亚马逊、当当、京东等电子书综合评分为:7.8。
《企业大数据处理》分成三绝大多数,共九章。第壹一部分(第1章)关键介绍了企业大数据系统软件的早期准备工作,包含怎样搭建公司大数据处理系统的手机软件自然环境和集群自然环境。第二一部分(第二~7章)最先介绍了Spark的基本原理,Spark2.0版本的SparkSQL、StructuredStreaming基本原理和操作方法,及其Spark的多种多样提升方法;随后,介绍了Druid的基本原理、集群的构建过程、数据信息摄取过程,及其在查寻过程中怎样完成Druid查寻API;然后介绍了系统日志搜集系统软件Flume的基础架构和重要部件,及其层次系统日志搜集架构的设计方案与实践活动;后介绍了分布式系统消息队列Kafka的基础架构和集群构建过程,及其应用Java語言完成手机客户端API的详尽过程。第三一部分(第八~9章)关键介绍了公司大数据处理的2个具体运用实例,分别是根据Druid搭建多维度数据统计分析服务平台和根据JMX指标值的视频监控系统。
如何为Spark Application指定不同的JDK版本详解
前言 随着企业内部业务系统越来越多,基于JVM的服务,通常情况线上环境可能会有多套JDK跑不同的服务。大家都知道基于高版本的Java规范编写的服务跑在低版本的JVM上会出现: java.lang.UnsupportedClassVersionError 的异常。 Spark 2.2开始移除了对Java 7的支持,大多数情况下,我们的Spark Application是和Hadoop系统公用的JDK,如果Hadoop依赖的JDK版本是7,那我们基于JDK 8编写的Application跑在上面就会出问题。 该文主要介绍在不同的场景下,如何为Spark Application指定不同的JDK版本。 集群已部署了指定的JDK版本 假设集群中每个节点JDK的部署路径为:/usr/java/jdk1.8 Spark提供了 spark.executorEnv.[EnvironmentVariableName] 配置,可以用来给……
Spring Boot与Spark、Cassandra系统集成开发示例
本文演示以Spark作为分析引擎,Cassandra作为数据存储,而使用Spring Boot来开发驱动程序的示例。 1.前置条件 安装Spark(本文使用Spark-1.5.1,如安装目录为/opt/spark) 安装Cassandra(3.0+) 创建keyspace CREATE KEYSPACE hfcb WITH REPLICATION = { 'class' : 'SimpleStrategy', 'replication_factor' : 3 }; 创建table CREATE TABLE person ( id text PRIMARY KEY, first_name text, last_name text); 插入测试数据 insert into person (id,first_name,last_name) values('1','wang','yunfei');insert into person (id,first_name,last_name) values('2','peng','chao');insert into person (id,first_name,last_name) values('3','li','jian');insert into person (id,first_name,last_name) values('4','zhang','jie');insert into person (id,first_name,last_name) values('5','liang','wei');……
将string类型的数据类型转换为spark rdd时报错的解决方法
在将string类型的数据类型转换为spark rdd时,一直报这个错, StructType can not accept object %r in type %s” % (obj, type(obj))) ...s = str(tree)y = str(YESTERDAY)list0 = [s, y]outRes = self.sc.parallelize(list0)df_tree = outRes.toDF("model: string, dt: string").registerTempTable("temp")... 查了半天的资料,问了不少同事都没能解决掉这个bug。最后终于google到一个类似的case,终于把问题解决。记录一下! ...s = str(tree)y = str(YESTERDAY)list0 = [s, y]outRes = self.sc.parallelize([list0])df_tree = outRes.toDF("model: string, dt: string").registerTempTable("temp")... 上面的问题办法是,将 sc.parallelize([list0]) 中的 list0 再转成一个整体 list ,问题即可解决。 总结 以上就是这篇文章的全部内容了,……
spark dataframe 将一列展开,把该列所有值都变成新列的方法
The original dataframe 需求:hour代表一天的24小时,现在要将hour列展开,每一个小时都作为一个列 实现: val pivots = beijingGeoHourPopAfterDrop.groupBy("geoHash").pivot("hour").sum("countGeoPerHour").na.fill(0) 并且统计了对应的countGeoPerHour的和,如果有些行没有这个新列对应的数据,将用null填充 The new dataframe 以上这篇spark dataframe 将一列展开,把该列所有值都变成新列的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持码农之家。 ……
Java和scala实现 Spark RDD转换成DataFrame的两种方法小结
一:准备数据源 在项目下新建一个student.txt文件,里面的内容为: 1,zhangsan,20 2,lisi,21 3,wanger,19 4,fangliu,18 二:实现 Java版: 1.首先新建一个student的Bean对象,实现序列化和toString()方法,具体代码如下: package com.cxd.sql;import java.io.Serializable;@SuppressWarnings("serial")public class Student implements Serializable { String sid; String sname; int sage; public String getSid() { return sid; } public void setSid(String sid) { this.sid = sid; } public String getSname() { return sname; } public void setSname(String sname) { this.sname = sname; } public int getSage() { return sage; } public void setSage(int sage) { this.sage = sage; } @Override public String toString() { return "Student [sid=" + sid + ", sname=" + sname + ", sage=……
以上就是本次介绍的大数据电子书的全部相关内容,希望我们整理的资源能够帮助到大家,感谢大家对码农之家的支持。
展开 +
收起 -
大数据贵在落实! 本书是一本讲解大数据实战的图书,按照深入分析组件原理、充分展示搭建过程、详细指导应用开发编写。全书分为三篇,第一篇为大数据的基本概念和技术,主要介绍大数
立即下载如果你是一名IT工程师,首席技术官(CTO)希望 你在一周内提交一份公司未来IT系统基础架构的初步 建议;如果你是一位IT营销人员,客户需要你在一周 内向他汇报未来大数据系统的大致技术方向
立即下载作者布瑞恩•戈德西结合自己的亲身经历,讲述了数据科学从项目准备、解决方案构建到项目交付的全部过程,并以案例的形式深入浅出地讲解了在开展数据科学项目的过程中可能遇到的各
立即下载云计算中的大数据技术与应用 系统阐述了物联网、云计算的最新技术进展和应用案例。首先从物联网、云计算的定义入手,分析物联网和云计算面临的挑战。其次对物联网和云计算分别做了深
立即下载王果
Copyright 2018-2020 www.xz577.com 码农之家
版权投诉 / 书籍推广 / 赞助:520161757@qq.com