当前位置:首页 > 程序设计 >
《Spark编程基础:Scala版》电子书封面

Spark编程基础:Scala版

  • 发布时间:2019年10月30日 11:08:06
  • 作者:林子雨 赖永炫 陶继平
  • 大小:18.7 MB
  • 类别:Spark编程电子书
  • 格式:PDF
  • 版本:超清版
  • 评分:9.1

    Spark编程基础:Scala版 PDF 超清版

      给大家带来的一篇关于Spark编程相关的电子书资源,介绍了关于Spark、编程基础、Scala方面的内容,本书是由人民邮电出版社出版,格式为PDF,资源大小18.7 MB,林子雨 赖永炫 陶继平编写,目前豆瓣、亚马逊、当当、京东等电子书综合评分为:9.8。

      内容介绍

      Spark编程基础:Scala版 PDF

      这书是厦门大学创作者精英团队长期性经验交流的结晶体,是在厦门大学《大数据技术原理与应用》新手入门互联网大数据教材内容的基本之中撰写的。为了保证实例教程品质,在编著出版纸版教材内容以前,试验室早已于2016年10月根据试验室官方网站免费发帖共享资源了简化版的Spark在线教程和有关教育资源,另外,该在线教程也早已用以厦门大学电子信息科学系硕士生的大数据课程课堂教学,并变成全国高校大数据课程教师研修沟通交流班的讲课內容。试验室依据用户对免费在线Spark实例教程的很多意见反馈及其课堂教学实践活动中发觉的难题,对Spark在线教程开展了数次调整和健全,全部这种早期提前准备工作中,都为纸版教材内容的编著出版拿下了牢靠的基本。 一往无前,在互联网大数据高山上开拓学习培训近道 填沟削坎,为如何快速学习Spark 技术性铺平道路 从入门到精通,合理减少Spark 技术培训门坎 資源全方位,搭建多方位一站式在线客服管理体系 

      这书以Scala做为开发设计Spark手机应用程序的程序语言,系统软件详细介绍了Spark编写程序的基本知识。本书共8章,內容包含云计算技术简述、Scala言语基本、Spark的设计方案与运作原理、Spark自然环境构建和使用说明、RDD编写程序、Spark SQL、Spark Streaming、Spark MLlib等。

      目录

      • 第1章大数据技术概述1
      • 1.1 大数据的概念与关键技术2
      • 1.1.1大数据的概念2
      • 1.1.2大数据关键技术2
      • 1.2 代表性大数据技术4
      • 1.2.1Hadoop4
      • 1.2.2Spark8
      • 1.2.3Flink10
      • 1.2.4Beam11
      • 1.3 编程语言的选择12
      • 1.4 在线资源13
      • 1.5 本章小结14
      • 1.6 习题14
      • 实验1 Linux系统的安装和常用命令15
      • 一、实验目的15
      • 二、实验平台15
      • 三、实验内容和要求15
      • 四、实验报告16
      • 第2章Scala语言基础17
      • 2.1 Scala语言概述18
      • 2.1.1计算机的缘起18
      • 2.1.2编程范式19
      • 2.1.3Scala简介20
      • 2.1.4Scala的安装21
      • 2.1.5HelloWorld21
      • 2.2 Scala基础知识23
      • 2.2.1基本数据类型和变量23
      • 2.2.2输入/输出26
      • 2.2.3控制结构28
      • 2.2.4数据结构31
      • 2.3 面向对象编程基础37
      • 2.3.1类37
      • 2.3.2对象42
      • 2.3.3继承47
      • 2.3.4参数化类型50
      • 2.3.5特质52
      • 2.3.6模式匹配55
      • 2.3.7包58
      • 2.4 函数式编程基础59
      • 2.4.1函数的定义与使用60
      • 2.4.2高阶函数61
      • 2.4.3闭包62
      • 2.4.4偏应用函数和Curry化62
      • 2.4.5针对容器的操作64
      • 2.4.6函数式编程实例69
      • 2.5 本章小结70
      • 2.6 习题70
      • 实验2 Scala编程初级实践71
      • 一、实验目的71
      • 二、实验平台71
      • 三、实验内容和要求72
      • 四、实验报告75
      • 第3章Spark的设计与运行原理76
      • 3.1 概述77
      • 3.2 Spark生态系统78
      • 3.3 Spark运行架构79
      • 3.3.1基本概念79
      • 3.3.2架构设计80
      • 3.3.3Spark运行基本流程81
      • 3.3.4RDD的设计与运行原理82
      • 3.4 Spark的部署方式91
      • 3.5 本章小结92
      • 3.6 习题93
      • 第4章Spark环境搭建和使用方法94
      • 4.1 安装Spark95
      • 4.1.1基础环境95
      • 4.1.2下载安装文件95
      • 4.1.3配置相关文件96
      • 4.1.4Spark和Hadoop的交互97
      • 4.2 在spark-shell中运行代码97
      • 4.2.1spark-shell命令98
      • 4.2.2启动spark-shell99
      • 4.3 开发Spark独立应用程序99
      • 4.3.1安装编译打包工具100
      • 4.3.2编写Spark应用程序代码101
      • 4.3.3编译打包101
      • 4.3.4通过spark-submit运行程序104
      • 4.4 Spark集群环境搭建104
      • 4.4.1集群概况105
      • 4.4.2搭建Hadoop集群105
      • 4.4.3在集群中安装Spark106
      • 4.4.4配置环境变量106
      • 4.4.5Spark的配置106
      • 4.4.6启动Spark集群107
      • 4.4.7关闭Spark集群107
      • 4.5 在集群上运行Spark应用程序108
      • 4.5.1启动Spark集群108
      • 4.5.2采用独立集群管理器108
      • 4.5.3采用Hadoop YARN管理器109
      • 4.6 本章小结110
      • 4.7 习题111
      • 实验3 Spark和Hadoop的安装111
      • 一、实验目的111
      • 二、实验平台111
      • 三、实验内容和要求111
      • 四、实验报告112
      • 第5章RDD编程113
      • 5.1 RDD编程基础114
      • 5.1.1RDD创建114
      • 5.1.2RDD操作115
      • 5.1.3持久化121
      • 5.1.4分区122
      • 5.1.5一个综合实例126
      • 5.2 键值对RDD128
      • 5.2.1键值对RDD的创建128
      • 5.2.2常用的键值对转换操作129
      • 5.2.3一个综合实例133
      • 5.3 数据读写134
      • 5.3.1文件数据读写135
      • 5.3.2读写HBase数据137
      • 5.4 综合实例141
      • 5.4.1求TOP值141
      • 5.4.2文件排序143
      • 5.4.3二次排序144
      • 5.5 本章小结146
      • 实验4 RDD编程初级实践146
      • 一、实验目的146
      • 二、实验平台146
      • 三、实验内容和要求146
      • 四、实验报告148
      • 第6章Spark SQL149
      • 6.1 Spark SQL简介150
      • 6.1.1从Shark说起150
      • 6.1.2Spark SQL架构151
      • 6.1.3为什么推出Spark SQL152
      • 6.2 DataFrame概述152
      • 6.3 DataFrame的创建153
      • 6.4 DataFrame的保存154
      • 6.5 DataFrame的常用操作155
      • 6.6 从RDD转换得到DataFrame156
      • 6.6.1利用反射机制推断RDD模式157
      • 6.6.2使用编程方式定义RDD模式158
      • 6.7 使用Spark SQL读写数据库160
      • 6.7.1通过JDBC连接数据库160
      • 6.7.2连接Hive读写数据162
      • 6.8 本章小结166
      • 6.9 习题166
      • 实验5 Spark SQL编程初级实践167
      • 一、实验目的167
      • 二、实验平台167
      • 三、实验内容和要求167
      • 四、实验报告168
      • 第7章Spark Streaming169
      • 7.1 流计算概述170
      • 7.1.1静态数据和流数据170
      • 7.1.2批量计算和实时计算171
      • 7.1.3流计算概念171
      • 7.1.4流计算框架172
      • 7.1.5流计算处理流程173
      • 7.2 Spark Streaming174
      • 7.2.1Spark Streaming设计174
      • 7.2.2Spark Streaming与Storm的对比175
      • 7.2.3从“Hadoop+Storm”架构转向Spark架构176
      • 7.3 DStream操作概述177
      • 7.3.1Spark Streaming工作机制177
      • 7.3.2编写Spark Streaming程序的基本步骤178
      • 7.3.3创建StreamingContext对象178
      • 7.4 基本输入源179
      • 7.4.1文件流179
      • 7.4.2套接字流181
      • 7.4.3RDD队列流186
      • 7.5 高级数据源187
      • 7.5.1Kafka简介188
      • 7.5.2Kafka准备工作188
      • 7.5.3Spark准备工作189
      • 7.5.4编写Spark Streaming程序使用Kafka数据源190
      • 7.6 转换操作194
      • 7.6.1DStream无状态转换操作194
      • 7.6.2DStream有状态转换操作195
      • 7.7 输出操作199
      • 7.7.1把DStream输出到文本文件中199
      • 7.7.2把DStream写入到关系数据库中200
      • 7.8 本章小结202
      • 7.9 习题202
      • 实验6Spark Streaming编程初级实践203
      • 一、实验目的203
      • 二、实验平台203
      • 三、实验内容和要求203
      • 四、实验报告204
      • 第8章Spark MLlib205
      • 8.1 基于大数据的机器学习206
      • 8.2 机器学习库MLlib概述207
      • 8.3 基本数据类型208
      • 8.3.1本地向量208
      • 8.3.2标注点208
      • 8.3.3本地矩阵209
      • 8.4 机器学习流水线210
      • 8.4.1流水线的概念210
      • 8.4.2流水线工作过程211
      • 8.5 特征提取、转换和选择212
      • 8.5.1特征提取213
      • 8.5.2特征转换215
      • 8.5.3特征选择220
      • 8.5.4局部敏感哈希221
      • 8.6 分类算法222
      • 8.6.1逻辑斯蒂回归分类器222
      • 8.6.2决策树分类器226
      • 8.7 聚类算法229
      • 8.7.1K-Means聚类算法230
      • 8.7.2GMM聚类算法232
      • 8.8 协同过滤算法234
      • 8.8.1推荐算法的原理235
      • 8.8.2ALS算法235
      • 8.9 模型选择和超参数调整239
      • 8.9.1模型选择工具239
      • 8.9.2用交叉验证选择模型240
      • 8.10 本章小结242
      • 8.11 习题242
      • 实验7Spark机器学习库MLlib编程实践243
      • 一、实验目的243
      • 二、实验平台243
      • 三、实验内容和要求243
      • 四、实验报告244
      • 参考文献245

      学习笔记

      Python搭建Spark分布式集群环境

      前言 Apache Spark 是一个新兴的大数据处理通用引擎,提供了分布式的内存抽象。Spark 最大的特点就是快,可比 Hadoop MapReduce 的处理速度快 100 倍。本文没有使用一台电脑上构建多个虚拟机的方法来模拟集群,而是使用三台电脑来搭建一个小型分布式集群环境安装。 本教程采用Spark2.0以上版本(比如Spark2.0.2、Spark2.1.0等)搭建集群,同样适用于搭建Spark1.6.2集群。 安装Hadoop并搭建好Hadoop集群环境 Spark分布式集群的安装环境,需要事先配置好Hadoop的分布式集群环境。 安装Spark 这里采用3台机器(节点)作为实例来演示如何搭建Spark集群,其中1台机器(节点)作为Master节点,另外两台机器(节点)作为Slave节点(……

      java-spark中各种常用算子的写法示例

      Spark的算子的分类 从大方向来说,Spark 算子大致可以分为以下两类: 1)Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。 Transformation 操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会真正触发运算。 2)Action 行动算子:这类算子会触发 SparkContext 提交 Job 作业。 Action 算子会触发 Spark 提交作业(Job),并将数据输出 Spark系统。 从小方向来说,Spark 算子大致可以分为以下三类: 1)Value数据类型的Transformation算子,这种变换并不触发提交作业,针对处理的数据项是Value型的数据。 2)Key-Value数据类型的Transf……

      PyCharm搭建Spark开发环境实现第一个pyspark程序

      一, PyCharm搭建Spark开发环境 Windows7, Java1.8.0_74, Scala 2.12.6, Spark 2.2.1, Hadoop2.7.6 通常情况下,Spark开发是基于Linux集群的,但这里作为初学者并且囊中羞涩,还是在windows环境下先学习吧。 参照这个配置本地的Spark环境。 之后就是配置PyCharm用来开发Spark。本人在这里浪费了不少时间,因为百度出来的无非就以下两种方式: 1.在程序中设置环境变量 import osimport sysos.environ['SPARK_HOME'] = 'C:\xxx\spark-2.2.1-bin-hadoop2.7'sys.path.append('C:\xxx\spark-2.2.1-bin-hadoop2.7\python') 2.在Edit Configuration中添加环境变量 不过还是没有解决程序中代码自动补全。 想了半天,观察到spark提供的pyspark很像单独的安装包,应该可以考虑将pyspark包放到p……

      java 中Spark中将对象序列化存储到hdfs

      java 中Spark中将对象序列化存储到hdfs 摘要: Spark应用中经常会遇到这样一个需求: 需要将JAVA对象序列化并存储到HDFS, 尤其是利用MLlib计算出来的一些模型, 存储到hdfs以便模型可以反复利用. 下面的例子演示了Spark环境下从Hbase读取数据, 生成一个word2vec模型, 存储到hdfs. 废话不多说, 直接贴代码了. spark1.4 + hbase0.98 import org.apache.spark.storage.StorageLevelimport scala.collection.JavaConverters._import java.io.Fileimport java.io.FileInputStreamimport java.io.FileOutputStreamimport java.io.ObjectInputStreamimport java.io.ObjectOutputStreamimport java.net.URIimport java.util.Dateimport org.ansj.library.UserDefineLibraryimport org.ansj.splitWord.analysis.NlpAnalysisimport org.ansj.splitWord.analysis.ToA……

      以上就是本次介绍的Spark编程电子书的全部相关内容,希望我们整理的资源能够帮助到大家,感谢大家对码农之家的支持。

      上一篇:Python贝叶斯分析

      下一篇:App架构师实践指南

      展开 +

      收起 -

      • 《Spark编程基础:Scala版》PDF下载

      码小辫

      重要!版权问题,本电子书取消了本地下载!

      需要的朋友可以关注左边的微信号,发送 电子书名关键字 (例如:python 算法……)

      如果找不到可以联系小辫(微信:maxiaobian1024)

      Spark编程相关电子书
      数据算法:Hadoop/Spark大数据处理技巧
      数据算法:Hadoop/Spark大数据处理技巧 高清版

      数据算法:Hadoop/Spark大数据处理技巧 介绍了很多基本设计模式、优化技术和数据挖掘及机器学习解决方案,以解决生物信息学、基因组学、统计和社交网络分析等领域的很多问题。这本书还概

      立即下载
      Spark SQL入门与实践指南
      Spark SQL入门与实践指南 超清完整版 立即下载
      Spark:大数据集群计算的生产实践
      Spark:大数据集群计算的生产实践 完整超清版

      这书对于spark从认证性自然环境迁移到实际上生产环境时候碰到的各种各样难题得出了实际上的协助,包含了开发设计及维护保养生产级Spark运用的各种各样方式 、组件与有用实践活动。本书分

      立即下载
      大数据Spark企业级实战
      大数据Spark企业级实战 完整影印版

      Spark是现如今互联网大数据行业最活跃性、最受欢迎、最高效率的互联网大数据通用性测算服务平台,是Apache手机软件慈善基金会下全部开源网站项目中几大*开源网站项目之首。 在OneStacktoru

      立即下载
      基于Hadoop与Spark的大数据开发实战
      基于Hadoop与Spark的大数据开发实战 原书影印版

      1、选取知识点核心实用,以互联网 实现终身学习 2、以企业需求为设计导向,以任务驱动为讲解方式 3、以案例为主线组织知识点,以实战项目来提升技术 4、充分考虑学习者的认知曲线,由浅入深,边讲边练

      立即下载
      Spark MLlib机器学习:算法、源码及实战详解
      Spark MLlib机器学习:算法、源码及实战详解 高清扫描版

      《Spark MLlib机器学习:算法、源码及实战详解》以Spark 1.4.1版本源码为切入点,全面并且深入地解析Spark MLlib模块,着力于探索分布式机器学习的底层实现。 《Spark MLlib机器学习:算法、源码及

      立即下载
      Hadoop+Spark生态系统操作与实战指南
      Hadoop+Spark生态系统操作与实战指南 原书影印版

      本书帮助读者快速上手Hadoop+Spark,全面解析Hadoop和Spark生态系统,通过实际操作,快速学习Hadoop+Spark大数据技术,使得读者了解当今互联网应用极为广泛的集群技术

      立即下载
      Spark大数据商业实战三部曲
      Spark大数据商业实战三部曲 超清扫描版

      本书基于Spark 2.2.X,以Spark商业案例实战和Spark在生产环境下几乎所有类型的性能调优为核心,循序渐进地全面解析了Spark 2.2,完全全面,欢迎下载

      立即下载
      读者留言
      码农之家

      码农之家 提供上传

      资源
      42
      粉丝
      13
      喜欢
      322
      评论
      15

      Copyright 2018-2020 www.xz577.com 码农之家

      投诉 / 推广 / 赞助:QQ:520161757