当前位置:首页 > 程序设计 >
《Spark Streaming技术内幕及源码剖析》电子书封面

Spark Streaming技术内幕及源码剖析

  • 发布时间:2019年11月27日 22:15:37
  • 作者:王家林 夏阳
  • 大小:204 MB
  • 类别:Spark电子书
  • 格式:PDF
  • 版本:完整版
  • 评分:8.2

    Spark Streaming技术内幕及源码剖析 PDF 完整版

      给大家带来的一篇关于Spark相关的电子书资源,介绍了关于Spark、Streaming、技术内幕、源码剖析方面的内容,本书是由清华大学出版社出版,格式为PDF,资源大小204 MB,王家林 夏阳编写,目前豆瓣、亚马逊、当当、京东等电子书综合评分为:8.1。

      内容介绍

      本书以大数据处理引擎Spark的稳定版本1.6.x为基础,从应用案例、原理、源码、流程、调 优等多个角度剖析Spark上的实时计算框架Spark Streaming。在勾勒出Spark Streaming架构轮廓的 基础上,从基本源码开始进行剖析,由浅入深地引导已具有Spark和Spark Streaming基础技术知识 的读者进行Spark Streaming的进阶学习,理解Spark Streaming的原理和运行机制,为流数据处理 的决策和应用提供了技术参考;结合Spark Streaming的深入应用的需要,对Spark Streaming的性 能调优进行了分析,也对Spark Streaming功能的改造和扩展提供了指导。 本书适合大数据领域CTO、架构师、高级软件工程师,尤其是Spark领域已有Spark Streaming 基础知识的从业人员阅读,也可供需要深入学习Spark、Spark Streaming的高校研究生和高年级本科生参考。

      目录

      • 第1章 Spark Streaming应用概述······1
      • 1.1 Spark Streaming应用案例 ·······2
      • 1.2 Spark Streaming应用剖析 ·····13
      • 第2章 Spark Streaming基本原理····15
      • 2.1 Spark Core简介 ··················16
      • 2.2 Spark Streaming设计思想 ·····26
      • 2.3 Spark Streaming整体架构 ·····30
      • 2.4 编程接口 ·························33
      • 第3章 Spark Streaming运行流程详解·············39
      • 3.1 从StreamingContext的初始化到启动 ··········40
      • 3.2 数据接收 ·························54
      • 3.3 数据处理 ·························91
      • 3.4 数据清理 ························115
      • 3.5 容错机制 ························127
      • 3.5.1 容错原理 ·························128
      • 3.5.2 Driver容错机制 ·················152
      • 3.5.3 Executor容错机制 ··············161
      • 3.6 No Receiver方式 ···············167
      • 3.7 输出不重复 ·····················175
      • 3.8 消费速率的动态控制 ·········176
      • 3.9 状态操作 ························189
      • 3.10 窗口操作 ·······················212
      • 3.11 页面展示 ·······················216
      • 3.12 Spark Streaming应用程序的停止··········227
      • 第4章Spark Streaming 性能调优机制···········237
      • 4.1 并行度解析 ·····················238
      • 4.1.1 数据接收的并行度 ·············238
      • 4.1.2 数据处理的并行度 ·············240
      • 4.2 内存······························240
      • 4.3 序列化 ···························240
      • 4.4 Batch Interval ···················241
      • 4.5 Task ·······························242
      • 4.6 JVM GC ·························242
      • 第5章Spark 2.0中的流计算··········245
      • 5.1 连续应用程序 ··················246
      • 5.2 无边界表unbounded table ····248
      • 5.3 增量输出模式 ··················249
      • 5.4 API简化 ··························250
      • 5.5 其他改进 ························250

      学习笔记

      Spark Streaming算子开发代码讲解

      Spark Streaming算子开发实例 transform算子开发 transform操作应用在DStream上时,可以用于执行任意的RDD到RDD的转换操作,还可以用于实现DStream API中所没有提供的操作,比如说,DStreamAPI中并没有提供将一个DStream中的每个batch,与一个特定的RDD进行join的操作,DStream中的join算子只能join其他DStream,但是我们自己就可以使用transform操作来实现该功能。 实例:黑名单用户实时过滤 package StreamingDemoimport org.apache.log4j.{Level, Logger}import org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}/** * 实时黑名单过滤 */object TransformDemo { def main(args: Array[String]): Unit = { //设置日志级别 Logger.getLogger(org).setLevel(Level.WARN) va……

      Spark学习笔记Spark Streaming的使用

      1. Spark Streaming Spark Streaming是一个基于Spark Core之上的实时计算框架,可以从很多数据源消费数据并对数据进行处理 Spark Streaing中有一个最基本的抽象叫DStream(代理),本质上就是一系列连续的RDD,DStream其实就是对RDD的封装 DStream可以认为是一个RDD的工厂,该DStream里面生产都是相同业务逻辑的RDD,只不过是RDD里面要读取数据的不相同 在一个批次的处理时间间隔里, DStream只产生一个RDD DStream就相当于一个"模板", 我们可以根据这个"模板"来处理一段时间间隔之内产生的这个rdd,以此为依据来构建rdd的DAG 2. 当下比较流行的实时计算引擎 吞吐量 编程语言 处理速度 生态 Storm 较低 clojure 非常快(亚秒) 阿里(JStorm) ……

      spark能跑Python么

      spark能跑Python么? spark是可以跑Python程序的。python编写好的算法,或者扩展库的,比如sklearn都可以在spark上跑。直接使用spark的mllib也是可以的,大部分算法都有。 Spark 是一个通用引擎,可用它来完成各种各样的运算,包括 SQL 查询、文本处理、机器学习等。 本次实验是搭有spark环境的linux下跑的,spark版本为1.6.1,相当于在在spark本地执行,spark文件放在/opt/moudles/spark-1.6.1/(代码中会看到) 编写python测试程序 #test.py文件# -*- coding:utf-8 -*-import osimport sys#配置环境变量并导入pysparkos.environ['SPARK_HOME'] = r'/opt/moudles/spark-1.6.1'sys.path.append(/opt/moudles/spark-1.6.1/python)sys.path.append(/opt/moudles/spark-1.6.1/python/lib/py4j-0.9-src.zi……

      详解Java编写并运行spark应用程序的方法

      我们首先提出这样一个简单的需求: 现在要分析某网站的访问日志信息,统计来自不同IP的用户访问的次数,从而通过Geo信息来获得来访用户所在国家地区分布状况。这里我拿我网站的日志记录行示例,如下所示: 121.205.198.92 - - [21/Feb/2014:00:00:07 +0800] "GET /archives/417.html HTTP/1.1" 200 11465 "http://shiyanjun.cn/archives/417.html/" "Mozilla/5.0 (Windows NT 5.1; rv:11.0) Gecko/20100101 Firefox/11.0"121.205.198.92 - - [21/Feb/2014:00:00:11 +0800] "POST /wp-comments-post.php HTTP/1.1" 302 26 "http://shiyanjun.cn/archives/417.html/" "Mozilla/5.0 (Windows NT 5.1; rv:23.0) Gecko/20100101 Firefox/23.0"121.205.198.92 - - [21/Feb/2014:00:00:12 +0800] "GET /archives/417.html/ HTTP/1.1" 301 26 "http://shiyanjun.cn/archi……

      以上就是本次介绍的Spark电子书的全部相关内容,希望我们整理的资源能够帮助到大家,感谢大家对码农之家的支持。

      上一篇:自己动手做iOS App:从设计开发到上架App Store

      下一篇:DevOps:原理、方法与实践

      展开 +

      收起 -

      • 《Spark Streaming技术内幕及源码剖析》PDF下载

      Spark相关电子书
      Spark编程基础:Scala版
      Spark编程基础:Scala版 超清版

      这书是厦门大学创作者精英团队长期性经验交流的结晶体,是在厦门大学《 大数据技术原理与应用 》新手入门互联网大数据教材内容的基本之中撰写的。为了保证实例教程品质,在编著出版纸

      立即下载
      大数据Spark企业级实战
      大数据Spark企业级实战 完整影印版

      Spark是现如今互联网大数据行业最活跃性、最受欢迎、最高效率的互联网大数据通用性测算服务平台,是Apache手机软件慈善基金会下全部开源网站项目中几大*开源网站项目之首。 在OneStacktoru

      立即下载
      Spark大数据分析:核心概念、技术及实践
      Spark大数据分析:核心概念、技术及实践 高清版

      Spark大数据分析:核心概念、技术及实践 是关于大数据和Spark的一个简明手册。它将助你学习如何用Spark来完成很多大数据分析任务,其中覆盖了高效利用Spark所需要知道的重要主题:如何使用

      立即下载
      Spark机器学习
      Spark机器学习 原书第2版

      spark机器学习入门与进阶实战 Spark项目管理委员会成员作品 注重技术实践 通过大量实例演示如何创建有用的机器学习系统

      立即下载
      Spark技术内幕:深入解析Spark内核架构设计与实现原理
      Spark技术内幕:深入解析Spark内核架构设计与实现原理 高清版

      Spark是不断壮大的大数据分析解决方案家族中备受关注的新增成员。它不仅为分布式数据集的处理提供一个有效框架,而且以高效的方式处理分布式数据集。它支持实时处理、流处理和批处理,

      立即下载
      Spark核心技术与高级应用
      Spark核心技术与高级应用 高清版

      Spark核心技术与高级应用 是Spark领域少有的专注于核心原理与深度应用的著作,由科大讯飞和百分点科技的4位大数据专家撰写。不仅细致介绍了Spark的程序开发、编程模型、作业执行解析等基础

      立即下载
      Spark大数据处理技术
      Spark大数据处理技术 高清版

      《Spark大数据处理技术》 以Spark 0.9版本为基础进行编写,是一本全面介绍Spark及Spark生态圈相关技术的书籍,是国内首本深入介绍Spark原理和架构的技术书籍。主要内容有Spark基础功能介绍及内部

      立即下载
      基于Hadoop与Spark的大数据开发实战
      基于Hadoop与Spark的大数据开发实战 原书影印版

      1、选取知识点核心实用,以互联网 实现终身学习 2、以企业需求为设计导向,以任务驱动为讲解方式 3、以案例为主线组织知识点,以实战项目来提升技术 4、充分考虑学习者的认知曲线,由浅入深,边讲边练

      立即下载
      读者留言
      royal007a

      royal007a 提供上传

      资源
      49
      粉丝
      36
      喜欢
      315
      评论
      16

      Copyright 2018-2020 xz577.com 码农之家

      本站所有电子书资源不再提供下载地址,只分享来路

      版权投诉 / 书籍推广 / 赞助:QQ:520161757