当前位置:主页 > 程序设计 > Spark pdf电子书下载
高清扫描反馈 / 投诉

Spark内核机制解析及性能调优 PDF 高清扫描版

2020-06-04 08:36:46 类别:Spark

  • 更新:2020-06-04 08:36:46
  • 大小:167.5 MB
  • 出版:机械工业出版社
  • 作者:王家林
  • 类别:Spark
  • 格式:PDF

网盘下载 本地下载

扫二维码手机浏览

资源介绍

本站精选了一篇Spark相关的 PDF电子书资料,由机械工业出版社出版,作者是王家林,介绍了关于Spark、内核机制、性能调优方面,格式为PDF,资源大小167.5 MB,目前在Spark类资源综合评分为:9.2分。

Spark内核机制解析及性能调优致力于Spark内核的深入解析,带领读者掌握Spark内核的各个关键知识点。具体内容由详细讲述RDD提供的功能以及内部实现的机制开始,通过源码引导读者深入理解Spark的集群部署的内部机制、Spark内部调度的机制、Executor的内部机制、Shuffle的内部机制,进而讲述Tungsten的内部机制,接着又进一步深入分析了SparkStreaming的内部机制。本书的后部分,是任何Spark应用者都非常关注的Spark性能调优的内容。本书可以使读者对Spark内核有更深入彻底的理解,从而实现对Spark系统深度调优、Spark生产环境下故障的定位和排除、Spark的二次开发和系统高级运维。本书的每章开篇均有重点介绍以引导读者有目的有重点的阅读或查阅。

本书适合于对大数据开发有兴趣的在校学生。同时,对有分布式计算框架应用经验的人员,本书也可以作为Spark源码解析的参考书籍。

目录

  • 第1章RDD功能解析
  • 第2章RDD的运行机制
  • 第3章部署模式(Deploy)解析
  • 第4章Spark调度器(Scheduler)运行机制
  • 第5章执行器(Executor)
  • 第6章Spark的存储模块(Storage)
  • 第7章Shuffle机制
  • 第8章钨丝计划(Project Tungsten)
  • 第9章性能优化

以上就是本次关于书籍资源的介绍和部分内容,我们还整理了以往更新的其它相关电子书资源内容,可以在下方直接下载,关于相关的资源我们在下方做了关联展示,需要的朋友们也可以参考下。


下载地址

下载地址:网盘下载

学习心得

14小时36分钟前回答

java-spark中各种常用算子的写法示例

Spark的算子的分类 从大方向来说,Spark 算子大致可以分为以下两类: 1)Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。 Transformation 操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会真正触发运算。 2)Action 行动算子:这类算子会触发 SparkContext 提交 Job 作业。 Action 算子会触发……

16小时52分钟前回答

PyCharm搭建Spark开发环境实现第一个pyspark程序

一, PyCharm搭建Spark开发环境 Windows7, Java1.8.0_74, Scala 2.12.6, Spark 2.2.1, Hadoop2.7.6 通常情况下,Spark开发是基于Linux集群的,但这里作为初学者并且囊中羞涩,还是在windows环境下先学习吧。 参照这个配置本地的Spark环境。 之后就是配置PyCharm用来开发Spark。本人在这里浪费了不少时间,因为百度出来的无非就以下两种方式: 1.在程序中设置环境变量 import osimport sysos.environ[SPARK_HOME] = C:\xx……

19小时19分钟前回答

PyCharm搭建Spark开发环境的实现步骤

1.安装好JDK 下载并安装好jdk-12.0.1_windows-x64_bin.exe,配置环境变量: 新建系统变量JAVA_HOME,值为Java安装路径 新建系统变量CLASSPATH,值为 .;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar;(注意最前面的圆点) 配置系统变量PATH,添加 %JAVA_HOME%bin;%JAVA_HOME%jrebin 在CMD中输入:java或者java -version,不显示不是内部命令等,说明安装成功。 2.安装Hadoop,并配置环境变量 下载hadoop: https://www.apache.or……

20小时34分钟前回答

浅谈DataFrame和SparkSql取值误区

1、DataFrame返回的不是对象。 2、DataFrame查出来的数据返回的是一个dataframe数据集。 3、DataFrame只有遇见Action的算子才能执行 4、SparkSql查出来的数据返回的是一个dataframe数据集。 原始数据 scala val parquetDF = sqlContext.read.parquet("hdfs://hadoop14:9000/yuhui/parquet/part-r-00004.gz.parquet")df: org.apache.spark.sql.DataFrame = [timestamp: string, appkey: string, app_version: string, channel: string, lang: string, os_type: string, os_ver……

8小时35分钟前回答

python有spark库么

从这个名字pyspark就可以看出来,它是由python和spark组合使用的. 相信你此时已经电脑上已经装载了hadoop,spark,python3. Spark提供了一个Python_Shell,即pyspark,从而可以以交互的方式使用Python编写Spark程序。 (推荐学习:Python视频教程) pyspark里最核心的模块是SparkContext(简称sc),最重要的数据载体是RDD。 RDD就像一个NumPy array或者一个Pandas Series,可以视作一个有序的item集合。只不过这些……

欢迎发表评论:

联系我们

邮件联系:3522365@qq.com

QQ联系:3522365