当前位置:首页 > 行业软件及应用 >
《Spark零基础实战》电子书封面

Spark零基础实战

  • 发布时间:2020年05月22日 22:59:42
  • 作者:王家林,孔祥瑞
  • 大小:91.0 MB
  • 类别:Spark电子书
  • 格式:PDF
  • 版本:高清扫描版
  • 评分:7.8

    Spark零基础实战 PDF 高清扫描版

      给大家带来的一篇关于Spark相关的电子书资源,介绍了关于Spark基础、Spark实战方面的内容,本书是由化学工业出版社出版,格式为PDF,资源大小91.0 MB,王家林,孔祥瑞编写,目前豆瓣、亚马逊、当当、京东等电子书综合评分为:7.4。

      内容介绍

      Spark是业内认可的近些年发展趋势快、受认知度的一体化多样化的大数据建筑科学,能够另外考虑不一样业务场景和不一样数据信息经营规模的大数据测算的必须。

      Spark零基础实战最先根据编码实战的方法对学习培训Spark前务必把握的Scala內容开展讲解,并融合Spark源代码的阅读文章来协助读者如何快速学习Scala函数式编程与面向对象编程极致融合的程序编写造型艺术,然后对Hadoop和Spark群集安裝布署及其Spark在不一样集成化开发工具的开发设计实战做出了详尽的讲解,随后根据很多的实战实例来讲解Spark关键RDD程序编写并深层破译RDD的登陆密码,而且根据实战的方法详细说明了TopN在SparkRDD中的完成,以便让读者完全掌握Spark,这书用了很多的篇数详尽破译了Spark的可扩展性、核心构架、管理机制等內容。

      Spark零基础实战这本书定坐落于零基础的学生,还可以做为有一定大数据Hadoop工作经验的从业人员及其对大数据十分很感兴趣的学员的本Spark新手入门书藉。

      目录

      • 第1章Scala光速入门1
      • 第2章Scala面向对象彻底精通及Spark源码阅读19
      • 第3章Scala函数式编程彻底精通及Spark源码阅读30
      • 第4章Scala模式匹配、类型系统彻底精通与Spark源码阅读58
      • 第5章Scala隐式转换等彻底精通及Spark源码阅读66
      • 第6章并发编程及Spark源码阅读71
      • 第7章源码编译83
      • 第8章Hadoop分布式集群环境搭建101
      • 第9章精通Spark集群搭建与测试127
      • 第10章Scala IDE开发Spark程序实战解析146
      • 第11章实战详解IntelliJ IDEA下的Spark程序开发165
      • 第12章Spark简介184
      • 第13章Spark RDD解密200
      • 第14章Spark程序之分组TopN开发实战解析219
      • 第15章MasterHA工作原理解密238
      • 第16章Spark内核架构解密248
      • 第17章Spark运行原理实战解析260

      学习笔记

      pyspark操作MongoDB的方法步骤

      如何导入数据 数据可能有各种格式,虽然常见的是HDFS,但是因为在Python爬虫中数据库用的比较多的是MongoDB,所以这里会重点说说如何用spark导入MongoDB中的数据。 当然,首先你需要在自己电脑上安装spark环境,简单说下,在这里下载spark,同时需要配置好JAVA,Scala环境。 这里建议使用Jupyter notebook,会比较方便,在环境变量中这样设置 PYSPARK_DRIVER_PYTHON=jupyter PYSPARK_DRIVER_PYTHON_OPTS=notebook ./bin/pyspark 如果你的环境中有多个Python版本,同样可以制定你想要使用的解释器,我这里是python36,根据需求修改。 PYSPARK_PYTHON=/usr/bin/python36 pyspark对mongo数据库的基本操作 (• . •) 有几点需要注意的: 不要安装最新的……

      java 中Spark中将对象序列化存储到hdfs

      java 中Spark中将对象序列化存储到hdfs 摘要: Spark应用中经常会遇到这样一个需求: 需要将JAVA对象序列化并存储到HDFS, 尤其是利用MLlib计算出来的一些模型, 存储到hdfs以便模型可以反复利用. 下面的例子演示了Spark环境下从Hbase读取数据, 生成一个word2vec模型, 存储到hdfs. 废话不多说, 直接贴代码了. spark1.4 + hbase0.98 import org.apache.spark.storage.StorageLevelimport scala.collection.JavaConverters._import java.io.Fileimport java.io.FileInputStreamimport java.io.FileOutputStreamimport java.io.ObjectInputStreamimport java.io.ObjectOutputStreamimport java.net.URIimport java.util.Dateimport org.ansj.library.UserDefineLibraryimport org.ansj.splitWord.analysis.NlpAnalysisimport org.ansj.splitWord.analysis.ToA……

      spark dataframe 将一列展开,把该列所有值都变成新列的方法

      The original dataframe 需求:hour代表一天的24小时,现在要将hour列展开,每一个小时都作为一个列 实现: val pivots = beijingGeoHourPopAfterDrop.groupBy("geoHash").pivot("hour").sum("countGeoPerHour").na.fill(0) 并且统计了对应的countGeoPerHour的和,如果有些行没有这个新列对应的数据,将用null填充 The new dataframe 以上这篇spark dataframe 将一列展开,把该列所有值都变成新列的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持码农之家。 ……

      基于Spark实现随机森林代码

      本文实例为大家分享了基于Spark实现随机森林的具体代码,供大家参考,具体内容如下 public class RandomForestClassficationTest extends TestCase implements Serializable{ /** * */ private static final long serialVersionUID = 7802523720751354318L; class PredictResult implements Serializable{ /** * */ private static final long serialVersionUID = -168308887976477219L; double label; double prediction; public PredictResult(double label,double prediction){ this.label = label; this.prediction = prediction; } @Override public String toString(){ return this.label + " : " + this.prediction ; } } public void test_randomForest() throws JAXBException{ SparkConf sparkConf = new SparkConf(); sparkConf.setAppName("RandomForest"); sparkConf.setMaster("local"); SparkContext sc = ……

      初识Spark入门

      1. Spark简介 2009年,Spark诞生于伯克利大学的AMPLab实验室。最出Spark只是一个实验性的项目,代码量非常少,属于轻量级的框架。 2010年,伯克利大学正式开源了Spark项目。 2013年6月,Spark成为了Apache基金会下的项目,进入高速发展期。第三方开发者贡献了大量的代码,活跃度非常高 2014年2月,Spark以飞快的速度称为了Apache的顶级项目,同时大数据公司Cloudera宣称加大Spark框架的投入来取代MapReduce 2014年4月,大数据公司MapR投入Spark阵营, Apache Mahout放弃MapReduce,将使用Spark作为计算引擎。 2014年5月,Spark 1.0.0 发布。 2015年~,Spark在国内IT行业变得愈发火爆,越来越多的公司开始重点部署或者使用Spark来替代MR2、……

      以上就是本次介绍的Spark电子书的全部相关内容,希望我们整理的资源能够帮助到大家,感谢大家对码农之家的支持。

      上一篇:跟阿铭学Linux

      下一篇:OpenStack部署实践

      展开 +

      收起 -

      下载地址:百度网盘下载
      Spark相关电子书
      大数据Spark企业级实战
      大数据Spark企业级实战 完整影印版

      Spark是现如今互联网大数据行业最活跃性、最受欢迎、最高效率的互联网大数据通用性测算服务平台,是Apache手机软件慈善基金会下全部开源网站项目中几大*开源网站项目之首。 在OneStacktoru

      立即下载
      Spark SQL内核剖析
      Spark SQL内核剖析 扫描版 立即下载
      Spark MLlib机器学习实践
      Spark MLlib机器学习实践 完整第2版

      这是一本细致介绍Spark MLlib程序设计的图书,入门简单,示例丰富,内容由浅而深,采取实例和理论相结合的方式,讲解细致直观,适合Spark MLlib初学者、大数据分析和挖掘人员

      立即下载
      Spark内核设计的艺术:架构设计与实现
      Spark内核设计的艺术:架构设计与实现 高清影印版

      细化到方法级,提炼出多个流程图,立体呈现Spark 2.1.0架构与实现精髓,包含架构、环境、调度、存储、计算、部署、API七大核心设计,想要学习Scala、Spark语言的开发人员

      立即下载
      Spark机器学习
      Spark机器学习 原书第2版

      spark机器学习入门与进阶实战 Spark项目管理委员会成员作品 注重技术实践 通过大量实例演示如何创建有用的机器学习系统

      立即下载
      Hadoop+Spark生态系统操作与实战指南
      Hadoop+Spark生态系统操作与实战指南 原书影印版

      本书帮助读者快速上手Hadoop+Spark,全面解析Hadoop和Spark生态系统,通过实际操作,快速学习Hadoop+Spark大数据技术,使得读者了解当今互联网应用极为广泛的集群技术

      立即下载
      Spark大数据分析技术与实战
      Spark大数据分析技术与实战 高清版

      大数据技术新手阅读; 做为高等学校计算机相关技术专业的研究生学习参考文献; 全部想要对大数据技术有一定的掌握并要想将大数据技术运用于做好本职工作的阅读者阅读。 Spark做为下一代

      立即下载
      深度实践Spark机器学习
      深度实践Spark机器学习 高质量扫描版

      本书系统讲解Spark机器学习技术、原理、算法和组件,以及构建Spark机器学习系统的方法、流程、标准和规范,介绍了Spark的深度学习框架TensorFlowOnSpark,以及如何借助它实现卷积神经网络和循环神经网络

      立即下载
      Hadoop&Spark大数据开发实战
      Hadoop&Spark大数据开发实战 高质量版 立即下载
      Spark:大数据集群计算的生产实践
      Spark:大数据集群计算的生产实践 完整超清版

      这书对于spark从认证性自然环境迁移到实际上生产环境时候碰到的各种各样难题得出了实际上的协助,包含了开发设计及维护保养生产级Spark运用的各种各样方式 、组件与有用实践活动。本书分

      立即下载
      读者留言
      Mr.邹鹤轩

      Mr.邹鹤轩 提供上传

      资源
      46
      粉丝
      12
      喜欢
      110
      评论
      15

      Copyright 2018-2020 www.xz577.com 码农之家

      版权投诉 / 书籍推广 / 赞助:520161757@qq.com