标签分类
当前位置:首页 > 程序设计电子书 > Spark编程电子书网盘下载
Spark编程基础:Scala版

Spark编程基础:Scala版 超清版电子书

官方价: 38

更 新:

Spark编程基础:Scala版 (pdf、epub、mobi、azw3)下载

下载地址:https://pan.baidu.com/s/1JwAN4WYoTka7lLeYAOp8R

分享码:cmp1

给大家带来的一篇关于Spark编程相关的电子书资源,介绍了关于Spark、编程基础、Scala方面的内容,本书是由人民邮电出版社出版,格式根据源资源分为PDF、epub、mobi、azw3其中一种或多种格式,资源大小18.7 MB,林子雨 赖永炫 陶继平编写,目前豆瓣、亚马逊、当当、京东等电子书综合评分为:8.4,更多相关的学习资源可以参阅 程序设计电子书、等栏目。

Spark编程基础:Scala版 PDF

这书是厦门大学创作者精英团队长期性经验交流的结晶体,是在厦门大学《大数据技术原理与应用》新手入门互联网大数据教材内容的基本之中撰写的。为了保证实例教程品质,在编著出版纸版教材内容以前,试验室早已于2016年10月根据试验室官方网站免费发帖共享资源了简化版的Spark在线教程和有关教育资源,另外,该在线教程也早已用以厦门大学电子信息科学系硕士生的大数据课程课堂教学,并变成全国高校大数据课程教师研修沟通交流班的讲课內容。试验室依据用户对免费在线Spark实例教程的很多意见反馈及其课堂教学实践活动中发觉的难题,对Spark在线教程开展了数次调整和健全,全部这种早期提前准备工作中,都为纸版教材内容的编著出版拿下了牢靠的基本。 一往无前,在互联网大数据高山上开拓学习培训近道 填沟削坎,为如何快速学习Spark 技术性铺平道路 从入门到精通,合理减少Spark 技术培训门坎 資源全方位,搭建多方位一站式在线客服管理体系 

这书以Scala做为开发设计Spark手机应用程序的程序语言,系统软件详细介绍了Spark编写程序的基本知识。本书共8章,內容包含云计算技术简述、Scala言语基本、Spark的设计方案与运作原理、Spark自然环境构建和使用说明、RDD编写程序、Spark SQL、Spark Streaming、Spark MLlib等。

目录

  • 第1章大数据技术概述1
  • 1.1 大数据的概念与关键技术2
  • 1.1.1大数据的概念2
  • 1.1.2大数据关键技术2
  • 1.2 代表性大数据技术4
  • 1.2.1Hadoop4
  • 1.2.2Spark8
  • 1.2.3Flink10
  • 1.2.4Beam11
  • 1.3 编程语言的选择12
  • 1.4 在线资源13
  • 1.5 本章小结14
  • 1.6 习题14
  • 实验1 Linux系统的安装和常用命令15
  • 一、实验目的15
  • 二、实验平台15
  • 三、实验内容和要求15
  • 四、实验报告16
  • 第2章Scala语言基础17
  • 2.1 Scala语言概述18
  • 2.1.1计算机的缘起18
  • 2.1.2编程范式19
  • 2.1.3Scala简介20
  • 2.1.4Scala的安装21
  • 2.1.5HelloWorld21
  • 2.2 Scala基础知识23
  • 2.2.1基本数据类型和变量23
  • 2.2.2输入/输出26
  • 2.2.3控制结构28
  • 2.2.4数据结构31
  • 2.3 面向对象编程基础37
  • 2.3.1类37
  • 2.3.2对象42
  • 2.3.3继承47
  • 2.3.4参数化类型50
  • 2.3.5特质52
  • 2.3.6模式匹配55
  • 2.3.7包58
  • 2.4 函数式编程基础59
  • 2.4.1函数的定义与使用60
  • 2.4.2高阶函数61
  • 2.4.3闭包62
  • 2.4.4偏应用函数和Curry化62
  • 2.4.5针对容器的操作64
  • 2.4.6函数式编程实例69
  • 2.5 本章小结70
  • 2.6 习题70
  • 实验2 Scala编程初级实践71
  • 一、实验目的71
  • 二、实验平台71
  • 三、实验内容和要求72
  • 四、实验报告75
  • 第3章Spark的设计与运行原理76
  • 3.1 概述77
  • 3.2 Spark生态系统78
  • 3.3 Spark运行架构79
  • 3.3.1基本概念79
  • 3.3.2架构设计80
  • 3.3.3Spark运行基本流程81
  • 3.3.4RDD的设计与运行原理82
  • 3.4 Spark的部署方式91
  • 3.5 本章小结92
  • 3.6 习题93
  • 第4章Spark环境搭建和使用方法94
  • 4.1 安装Spark95
  • 4.1.1基础环境95
  • 4.1.2下载安装文件95
  • 4.1.3配置相关文件96
  • 4.1.4Spark和Hadoop的交互97
  • 4.2 在spark-shell中运行代码97
  • 4.2.1spark-shell命令98
  • 4.2.2启动spark-shell99
  • 4.3 开发Spark独立应用程序99
  • 4.3.1安装编译打包工具100
  • 4.3.2编写Spark应用程序代码101
  • 4.3.3编译打包101
  • 4.3.4通过spark-submit运行程序104
  • 4.4 Spark集群环境搭建104
  • 4.4.1集群概况105
  • 4.4.2搭建Hadoop集群105
  • 4.4.3在集群中安装Spark106
  • 4.4.4配置环境变量106
  • 4.4.5Spark的配置106
  • 4.4.6启动Spark集群107
  • 4.4.7关闭Spark集群107
  • 4.5 在集群上运行Spark应用程序108
  • 4.5.1启动Spark集群108
  • 4.5.2采用独立集群管理器108
  • 4.5.3采用Hadoop YARN管理器109
  • 4.6 本章小结110
  • 4.7 习题111
  • 实验3 Spark和Hadoop的安装111
  • 一、实验目的111
  • 二、实验平台111
  • 三、实验内容和要求111
  • 四、实验报告112
  • 第5章RDD编程113
  • 5.1 RDD编程基础114
  • 5.1.1RDD创建114
  • 5.1.2RDD操作115
  • 5.1.3持久化121
  • 5.1.4分区122
  • 5.1.5一个综合实例126
  • 5.2 键值对RDD128
  • 5.2.1键值对RDD的创建128
  • 5.2.2常用的键值对转换操作129
  • 5.2.3一个综合实例133
  • 5.3 数据读写134
  • 5.3.1文件数据读写135
  • 5.3.2读写HBase数据137
  • 5.4 综合实例141
  • 5.4.1求TOP值141
  • 5.4.2文件排序143
  • 5.4.3二次排序144
  • 5.5 本章小结146
  • 实验4 RDD编程初级实践146
  • 一、实验目的146
  • 二、实验平台146
  • 三、实验内容和要求146
  • 四、实验报告148
  • 第6章Spark SQL149
  • 6.1 Spark SQL简介150
  • 6.1.1从Shark说起150
  • 6.1.2Spark SQL架构151
  • 6.1.3为什么推出Spark SQL152
  • 6.2 DataFrame概述152
  • 6.3 DataFrame的创建153
  • 6.4 DataFrame的保存154
  • 6.5 DataFrame的常用操作155
  • 6.6 从RDD转换得到DataFrame156
  • 6.6.1利用反射机制推断RDD模式157
  • 6.6.2使用编程方式定义RDD模式158
  • 6.7 使用Spark SQL读写数据库160
  • 6.7.1通过JDBC连接数据库160
  • 6.7.2连接Hive读写数据162
  • 6.8 本章小结166
  • 6.9 习题166
  • 实验5 Spark SQL编程初级实践167
  • 一、实验目的167
  • 二、实验平台167
  • 三、实验内容和要求167
  • 四、实验报告168
  • 第7章Spark Streaming169
  • 7.1 流计算概述170
  • 7.1.1静态数据和流数据170
  • 7.1.2批量计算和实时计算171
  • 7.1.3流计算概念171
  • 7.1.4流计算框架172
  • 7.1.5流计算处理流程173
  • 7.2 Spark Streaming174
  • 7.2.1Spark Streaming设计174
  • 7.2.2Spark Streaming与Storm的对比175
  • 7.2.3从“Hadoop+Storm”架构转向Spark架构176
  • 7.3 DStream操作概述177
  • 7.3.1Spark Streaming工作机制177
  • 7.3.2编写Spark Streaming程序的基本步骤178
  • 7.3.3创建StreamingContext对象178
  • 7.4 基本输入源179
  • 7.4.1文件流179
  • 7.4.2套接字流181
  • 7.4.3RDD队列流186
  • 7.5 高级数据源187
  • 7.5.1Kafka简介188
  • 7.5.2Kafka准备工作188
  • 7.5.3Spark准备工作189
  • 7.5.4编写Spark Streaming程序使用Kafka数据源190
  • 7.6 转换操作194
  • 7.6.1DStream无状态转换操作194
  • 7.6.2DStream有状态转换操作195
  • 7.7 输出操作199
  • 7.7.1把DStream输出到文本文件中199
  • 7.7.2把DStream写入到关系数据库中200
  • 7.8 本章小结202
  • 7.9 习题202
  • 实验6Spark Streaming编程初级实践203
  • 一、实验目的203
  • 二、实验平台203
  • 三、实验内容和要求203
  • 四、实验报告204
  • 第8章Spark MLlib205
  • 8.1 基于大数据的机器学习206
  • 8.2 机器学习库MLlib概述207
  • 8.3 基本数据类型208
  • 8.3.1本地向量208
  • 8.3.2标注点208
  • 8.3.3本地矩阵209
  • 8.4 机器学习流水线210
  • 8.4.1流水线的概念210
  • 8.4.2流水线工作过程211
  • 8.5 特征提取、转换和选择212
  • 8.5.1特征提取213
  • 8.5.2特征转换215
  • 8.5.3特征选择220
  • 8.5.4局部敏感哈希221
  • 8.6 分类算法222
  • 8.6.1逻辑斯蒂回归分类器222
  • 8.6.2决策树分类器226
  • 8.7 聚类算法229
  • 8.7.1K-Means聚类算法230
  • 8.7.2GMM聚类算法232
  • 8.8 协同过滤算法234
  • 8.8.1推荐算法的原理235
  • 8.8.2ALS算法235
  • 8.9 模型选择和超参数调整239
  • 8.9.1模型选择工具239
  • 8.9.2用交叉验证选择模型240
  • 8.10 本章小结242
  • 8.11 习题242
  • 实验7Spark机器学习库MLlib编程实践243
  • 一、实验目的243
  • 二、实验平台243
  • 三、实验内容和要求243
  • 四、实验报告244
  • 参考文献245

上一篇:Python数据结构与算法分析  下一篇:Netty、Redis、Zookeeper高并发实战

展开 +

收起 -

Spark编程 相关电子书
Spark编程 学习笔记
网友NO.945892

Python搭建Spark分布式集群环境

前言 Apache Spark 是一个新兴的大数据处理通用引擎,提供了分布式的内存抽象。Spark 最大的特点就是快,可比 Hadoop MapReduce 的处理速度快 100 倍。本文没有使用一台电脑上构建多个虚拟机的方法来模拟集群,而是使用三台电脑来搭建一个小型分布式集群环境安装。 本教程采用Spark2.0以上版本(比如Spark2.0.2、Spark2.1.0等)搭建集群,同样适用于搭建Spark1.6.2集群。 安装Hadoop并搭建好Hadoop集群环境 Spark分布式集群的安装环境,需要事先配置好Hadoop的分布式集群环境。 安装Spark 这里采用3台机器(节点)作为实例来演示如何搭建Spark集群,其中1台机器(节点)作为Master节点,另外两台机器(节点)作为Slave节点(即作为Worker节点),主机名分别为Slave01和Slave02。 在Master节点机器上,访问Spark官方下载地址,按照如下图下载。 下载完成后,执行如下命令: sudo tar -zxf ~/下载/spark-2.0.2-bin-without-hadoop.tgz -C /usr/local/cd /usr/localsudo mv ./spark-2.0.2-bin-without-hadoop/ ./sparksudo chown -R hadoop ./spark 配置环境变量 在Mster节点主机的终端中执行如下命令: vim ~/.bashrc 在.bashrc添加如下配置: export SPARK_HOME=/usr/local/sparkexport PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin 执行如下命令使得配置立即生效: source ~/.bashrc Spark配置 在Master节点主机上进行如下操作: 配置slaves文件……

网友NO.935729

java-spark中各种常用算子的写法示例

Spark的算子的分类 从大方向来说,Spark 算子大致可以分为以下两类: 1)Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。 Transformation 操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会真正触发运算。 2)Action 行动算子:这类算子会触发 SparkContext 提交 Job 作业。 Action 算子会触发 Spark 提交作业(Job),并将数据输出 Spark系统。 从小方向来说,Spark 算子大致可以分为以下三类: 1)Value数据类型的Transformation算子,这种变换并不触发提交作业,针对处理的数据项是Value型的数据。 2)Key-Value数据类型的Transfromation算子,这种变换并不触发提交作业,针对处理的数据项是Key-Value型的数据对。 3)Action算子,这类算子会触发SparkContext提交Job作业。 引言 通常写spark的程序用scala比较方便,毕竟spark的源码就是用scala写的。然而,目前java开发者特别多,尤其进行数据对接、上线服务的时候,这时候,就需要掌握一些spark在java中的使用方法了 一、map map在进行数据处理、转换的时候,不能更常用了 在使用map之前 首先要定义一个转换的函数 格式如下: FunctionString, LabeledPoint transForm = new FunctionString, LabeledPoint() {//String是某一行的输入类型 Label……

网友NO.541540

PyCharm搭建Spark开发环境实现第一个pyspark程序

一, PyCharm搭建Spark开发环境 Windows7, Java1.8.0_74, Scala 2.12.6, Spark 2.2.1, Hadoop2.7.6 通常情况下,Spark开发是基于Linux集群的,但这里作为初学者并且囊中羞涩,还是在windows环境下先学习吧。 参照这个配置本地的Spark环境。 之后就是配置PyCharm用来开发Spark。本人在这里浪费了不少时间,因为百度出来的无非就以下两种方式: 1.在程序中设置环境变量 import osimport sysos.environ['SPARK_HOME'] = 'C:\xxx\spark-2.2.1-bin-hadoop2.7'sys.path.append('C:\xxx\spark-2.2.1-bin-hadoop2.7\python') 2.在Edit Configuration中添加环境变量 不过还是没有解决程序中代码自动补全。 想了半天,观察到spark提供的pyspark很像单独的安装包,应该可以考虑将pyspark包放到python的安装目录下,这样也就自动添加到之前所设置的pythonpath里了,应该就能实现pyspark的代码补全提示。 将spark下的pyspark包放到python路径下(注意,不是spark下的python!) 最后,实现了pyspark代码补全功能。 二.第一个pyspark程序 作为小白,只能先简单用下python+pyspark了。 数据:Air Quality in Madrid (2001-2018) 需求:根据历史数据统计出每个月平均指标值 import osimport refrom pyspark.sql import SparkSessionif __name__ == "__main__": spark = SparkSession.builder.getOrCreate() df_array = [] years = [] air_quality_data_folder = "C:/xxx/spark/air-quality-madrid/csvs_per_year" for file in os.list……

网友NO.213516

java 中Spark中将对象序列化存储到hdfs

java 中Spark中将对象序列化存储到hdfs 摘要: Spark应用中经常会遇到这样一个需求: 需要将JAVA对象序列化并存储到HDFS, 尤其是利用MLlib计算出来的一些模型, 存储到hdfs以便模型可以反复利用. 下面的例子演示了Spark环境下从Hbase读取数据, 生成一个word2vec模型, 存储到hdfs. 废话不多说, 直接贴代码了. spark1.4 + hbase0.98 import org.apache.spark.storage.StorageLevelimport scala.collection.JavaConverters._import java.io.Fileimport java.io.FileInputStreamimport java.io.FileOutputStreamimport java.io.ObjectInputStreamimport java.io.ObjectOutputStreamimport java.net.URIimport java.util.Dateimport org.ansj.library.UserDefineLibraryimport org.ansj.splitWord.analysis.NlpAnalysisimport org.ansj.splitWord.analysis.ToAnalysisimport org.apache.hadoop.fs.FSDataInputStreamimport org.apache.hadoop.fs.FSDataOutputStreamimport org.apache.hadoop.fs.FileSystemimport org.apache.hadoop.fs.FileUtilimport org.apache.hadoop.fs.Pathimport org.apache.hadoop.hbase.client._import org.apache.hadoop.hbase.{HBaseConfiguration, HTableDescriptor, TableName}import org.apache.hadoop.hbase.filter.FilterListimport org.apache.hadoop.hbase.filter.PageFilterimport org.apache.hadoop.hbase.filter.RegexStringComparatorimport org.apache.hadoop.hbase.filter.SingleColumnValueFilterimport org.apache.hadoop.hbase.filter.CompareFilter.CompareOpimport org.apache.hadoop.hbase.mapreduce.TableInputFormatimport org.apache.hadoop.hbase.protobuf.Pro……

码小辫

码小辫 发起

资源
25
粉丝
10
喜欢
264
评论
17

    Copyright 2018-2019 xz577.com 码农之家

    版权责任说明