反馈 / 投诉
-
Spark内核机制解析及性能调优 PDF 高清扫描版
2020-06-04 08:36:46 类别:Spark
-
扫二维码手机浏览
资源介绍
本站精选了一篇Spark相关的 PDF电子书资料,由机械工业出版社出版,作者是王家林,介绍了关于Spark、内核机制、性能调优方面,格式为PDF,资源大小167.5 MB,目前在Spark类资源综合评分为:9.2分。
Spark内核机制解析及性能调优致力于Spark内核的深入解析,带领读者掌握Spark内核的各个关键知识点。具体内容由详细讲述RDD提供的功能以及内部实现的机制开始,通过源码引导读者深入理解Spark的集群部署的内部机制、Spark内部调度的机制、Executor的内部机制、Shuffle的内部机制,进而讲述Tungsten的内部机制,接着又进一步深入分析了SparkStreaming的内部机制。本书的后部分,是任何Spark应用者都非常关注的Spark性能调优的内容。本书可以使读者对Spark内核有更深入彻底的理解,从而实现对Spark系统深度调优、Spark生产环境下故障的定位和排除、Spark的二次开发和系统高级运维。本书的每章开篇均有重点介绍以引导读者有目的有重点的阅读或查阅。
本书适合于对大数据开发有兴趣的在校学生。同时,对有分布式计算框架应用经验的人员,本书也可以作为Spark源码解析的参考书籍。
目录
- 第1章RDD功能解析
- 第2章RDD的运行机制
- 第3章部署模式(Deploy)解析
- 第4章Spark调度器(Scheduler)运行机制
- 第5章执行器(Executor)
- 第6章Spark的存储模块(Storage)
- 第7章Shuffle机制
- 第8章钨丝计划(Project Tungsten)
- 第9章性能优化
以上就是本次关于书籍资源的介绍和部分内容,我们还整理了以往更新的其它相关电子书资源内容,可以在下方直接下载,关于相关的资源我们在下方做了关联展示,需要的朋友们也可以参考下。
下载地址
下载地址:网盘下载
Spark相关资源
学习心得
欢迎发表评论:
- 最新更新
-
1
Java编程实战宝典 PDF电子书
类别:Java编程
-
2
自然语言处理原理与技术实现 PDF电子书
类别:自然语言
-
3
Vert.x应用开发实例教程 PDF电子书
类别:Vert.x
-
4
深入理解php:高级技巧、面向对象与核心技术(第3版) PDF电子书
类别:php
-
5
PHP经典实例(第3版) PDF电子书
类别:PHP实例
-
6
Django开发宝典 PDF电子书
类别:Django
-
7
Learning PHP设计模式 PDF电子书
类别:PHP编程
-
8
Java高并发编程详解:多线程与架构设计 PDF电子书
类别:Java编程
-
9
教孩子学编程:Python语言版 PDF电子书
类别:儿童编程
- 资料推荐
-
- 01-15信息安全原理与技术(第2版) 课后答案
- 12-10《嵌入式系统设计大学教程》习题答案,教案
- 01-13《从实践中学习手机抓包与数据分析》配书资源
- 10-15python学习宝典 编程资源
- 12-04计算机维护与维修(第3版) 课后答案
- 01-21微型计算机接口技术 PDF电子书
- 07-03白帽子讲浏览器安全 PDF电子书
- 08-17编译原理 课后答案
- 05-14《Adobe XD CC 2018经典教程(彩色版)》素材,文件
- 10-19《Flash CS3中文版动画制作基础》素材
java-spark中各种常用算子的写法示例
Spark的算子的分类 从大方向来说,Spark 算子大致可以分为以下两类: 1)Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。 Transformation 操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会真正触发运算。 2)Action 行动算子:这类算子会触发 SparkContext 提交 Job 作业。 Action 算子会触发……
PyCharm搭建Spark开发环境实现第一个pyspark程序
一, PyCharm搭建Spark开发环境 Windows7, Java1.8.0_74, Scala 2.12.6, Spark 2.2.1, Hadoop2.7.6 通常情况下,Spark开发是基于Linux集群的,但这里作为初学者并且囊中羞涩,还是在windows环境下先学习吧。 参照这个配置本地的Spark环境。 之后就是配置PyCharm用来开发Spark。本人在这里浪费了不少时间,因为百度出来的无非就以下两种方式: 1.在程序中设置环境变量 import osimport sysos.environ[SPARK_HOME] = C:\xx……
PyCharm搭建Spark开发环境的实现步骤
1.安装好JDK 下载并安装好jdk-12.0.1_windows-x64_bin.exe,配置环境变量: 新建系统变量JAVA_HOME,值为Java安装路径 新建系统变量CLASSPATH,值为 .;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar;(注意最前面的圆点) 配置系统变量PATH,添加 %JAVA_HOME%bin;%JAVA_HOME%jrebin 在CMD中输入:java或者java -version,不显示不是内部命令等,说明安装成功。 2.安装Hadoop,并配置环境变量 下载hadoop: https://www.apache.or……
浅谈DataFrame和SparkSql取值误区
1、DataFrame返回的不是对象。 2、DataFrame查出来的数据返回的是一个dataframe数据集。 3、DataFrame只有遇见Action的算子才能执行 4、SparkSql查出来的数据返回的是一个dataframe数据集。 原始数据 scala val parquetDF = sqlContext.read.parquet("hdfs://hadoop14:9000/yuhui/parquet/part-r-00004.gz.parquet")df: org.apache.spark.sql.DataFrame = [timestamp: string, appkey: string, app_version: string, channel: string, lang: string, os_type: string, os_ver……
python有spark库么
从这个名字pyspark就可以看出来,它是由python和spark组合使用的. 相信你此时已经电脑上已经装载了hadoop,spark,python3. Spark提供了一个Python_Shell,即pyspark,从而可以以交互的方式使用Python编写Spark程序。 (推荐学习:Python视频教程) pyspark里最核心的模块是SparkContext(简称sc),最重要的数据载体是RDD。 RDD就像一个NumPy array或者一个Pandas Series,可以视作一个有序的item集合。只不过这些……