当前位置:首页 > 计算机理论 >
《大数据Spark企业级实战》电子书封面

大数据Spark企业级实战

  • 发布时间:2019年08月30日 08:15:57
  • 作者:Spark亚太研究院 王
  • 大小:139.6 MB
  • 类别:Spark电子书
  • 格式:PDF
  • 版本:完整影印版
  • 评分:8.4

    Spark推荐

    大数据Spark企业级实战 PDF 完整影印版

      给大家带来的一篇关于Spark相关的电子书资源,介绍了关于大数据、Spark、企业实战方面的内容,本书是由电子工业出版社出版,格式为PDF,资源大小139.6 MB,Spark亚太研究院 王编写,目前豆瓣、亚马逊、当当、京东等电子书综合评分为:9.9分

      Tags:

      内容介绍

      大数据Spark企业级实战 PDF

      Spark是现如今互联网大数据行业最活跃性、最受欢迎、最高效率的互联网大数据通用性测算服务平台,是Apache手机软件慈善基金会下全部开源网站项目中几大*开源网站项目之首。

      在“One Stack to rule them all”核心理念的引导下,Spark应用场景RDD取得成功地搭建起了大数据处理的集成化解决方法,将MapReduce、Streaming、SQL、Machine Learning、Graph Processing等互联网大数据测算实体模型一致到1个技术性堆栈中,开发人员应用相同的API实际操作Spark中的全部作用;至关重要的是Spark的Spark SQL、MLLib、GraphX、Spark Streaming等几大子架构中间能够 在运行内存中极致的无缝拼接集成化并能够 相互之间实际操作相互的统计数据,这不但打造出了Spark在现如今互联网大数据测算行业别的一切测算架构都无可匹敌的优点,更促使Spark已经加快变成大数据处理管理中心*的和惟一的测算服务平台。

      互联网大数据Spark企业级实战》详尽分析了企业级Spark开发设计需要的基本上全部技术性內容,包含Spark的架构模式、Spark的集群服务器构建、Spark核心的分析、Spark SQL、MLLib、GraphX、Spark Streaming、Tachyon、SparkR、Spark多编程语言、Spark疑难问题及调优等,而且融合Spark源代码细腻的分析了Spark核心和几大子架构,最终在附则中出示了的Spark的编程语言Scala迅速新手入门实战內容,学习培训完该书就能担任绝大部分的企业级Spark开发设计必须。

      《互联网大数据Spark企业级实战》从零开始上坡,彻底从公司解决大数据业务情景的视角去往,应用场景实战编码来机构內容,针对一位互联网大数据发烧友而言,《互联网大数据Spark企业级实战》內容能够 协助您一站式服务地进行从零开始上坡到开展Spark企业级开发设计所必须的所有具体内容和实战必须。

      目录

      • 第1章 Spark编程模型 1
      • 1.1 Spark:一体化、多元化的高速
      • 大数据通用计算平台和库 1
      • 1.1.1 为什么需要使用Spark 5
      • 1.1.2 Spark技术生态系统简介 9
      • 1.2 Spark大数据处理框架 20
      • 1.2.1 Spark速度为何如此之快 20
      • 1.2.2 RDD:分布式函数式编程 24
      • 1.3 Spark子框架解析 28
      • 1.3.1 图计算框架Spark GraphX 28
      • 1.3.2 实时流处理框架(Spark Streaming) 41
      • 1.3.3 交互式SQL处理框架Spark SQL 46
      • 1.3.4 机器学习框架(Spark MLlib) 49
      • 第2章 构建Spark分布式集群 55
      • 2.1 搭建Hadoop单机版本和伪分布式开发环境 55
      • 2.1.1 开发Hadoop需要的基本软件 56
      • 2.1.2 安装每个软件 58
      • 2.1.3 配置Hadoop单机模式并运行Wordcount示例 76
      • 2.1.3 配置Hadoop伪分布模式并运行Wordcount示例 84
      • 2. 2 搭建 Hadoop分布式集群的 92
      • 2.2.1 在VMWare 中准备第二、第三台运行Ubuntu系统的机器 92
      • 2.2.2 按照配置伪分布式模式的方式配置新创建运行Ubuntu系统的机器 93
      • 2.2.3 配置Hadoop分布式集群环境 94
      • 2.2.4 测试Hadoop分布式集群环境 105
      • 2.3 Spark集群的动手搭建 108
      • 2.3.1 Spark集群需要的软件 108
      • 2.3.2 安装每个软件 110
      • 2.3.3 启动并查看集群的状况 116
      • 2.4 构建Hadoop单机版本和伪分布式环境 120
      • 2.4.1 通过Spark的shell测试Spark的工作 121
      • 2.4.2 使用Spark的cache机制观察一下效率的提升 125
      • 第3章 Spark开发环境及其测试 129
      • 3.1 搭建和设置IDEA开发环境 129
      • 3.1.1 构建Spark的IDE开发环境 129
      • 3.1.2 配置Spark的IDE开发环境 132
      • 3.2 测试IDEA环境 146
      • 3.3 实战:在IDEA中开发代码,并运行在Spark集群中 148
      • 第4章 Spark RDD与编程API实战 159
      • 4.1 深度解析Spark RDD 159
      • 4.2 Transformation Operations动手实战 165
      • 4.3 Action Operations动手实战 175
      • 4.4 Spark API综合实战 179
      • 第5章 Spark运行模式深入解析 191
      • 5.1 Spark运行模式概述 192
      • 5.1.1 Spark的运行模式列表 196
      • 5.1.2 Spark的基本工作流程 197
      • 5.2 Standalone模式 201
      • 5.2.1 部署及程序运行 202
      • 5.2.2 内部实现原理 206
      • 5.3 Yarn-Cluster模式 234
      • 5.3.1 部署及程序运行 235
      • 5.3.2 内部实现原理 237
      • 5.4 Yarn-Client模式 243
      • 5.4.1 部署及运行程序 243
      • 5.4.2 内部实现原理 244
      • 第6章 Spark内核解析 247
      • 6.1 Spark内核初探 247
      • 6.1.1 Spark内核核心术语解析 247
      • 6.1.2 Spark集群概览 250
      • 6.1.3 Spark核心组件 251
      • 6.1.4 Spark任务调度系统初见 252
      • 6.2 Spark内核核心源码解读 256
      • 6.2.1 SparkContext核心源码解析初体验 256
      • 6.2.2 TaskSceduler启动源码解析初体验 260
      • 6.2.3 DAGScheduler源码解读初体验 261
      • 6.2.4 Spark的Web监控页面 262
      • 6.3 以RDD的count操作为例触发Job全生命周期源码研究 263
      • 6.4 Akka驱动下的Driver、Master、Worker 276
      • 6.4.1 Driver中的AppClient源码解析 276
      • 6.4.2 AppClient注册Master 279
      • 6.4.3 Worker中Executor启动过程源代码解析 282
      • 第7章 GraphX大规模图计算与图挖掘实战 287
      • 7.1 Spark GraphX概览 288
      • 7.2 Spark GraphX设计实现的核心原理 291
      • 7.3 Table operator和Graph Operator 295
      • 7.4 Vertices、edges、triplets 296
      • 7.5 以最原始的方式构建graph 299
      • 7.6 动手编写第一个Graph代码实例并进行Vertices、edges、triplets操作 299
      • 7.7 在Spark集群上使用文件中的数据加载成为graph并进行操作 310

      以上就是本次介绍的Spark电子书的全部相关内容,希望我们整理的资源能够帮助到大家,感谢大家对码农之家的支持。

      上一篇:软件性能测试过程详解与案例剖析

      下一篇:Python3智能数据分析快速入门

      展开 +

      收起 -

      下载地址:百度网盘下载
      Spark 相关电子书
      Spark机器学习
      Spark机器学习 PDF 原书第2版

      spark机器学习入门与进阶实战 Spark项目管理委员会成员作品 注重技术实践 通过大量实例演示如何创建有用的机器学习系统

      立即下载
      PySpark实战指南
      PySpark实战指南 PDF 完整版

      本书是一本Pyspark的实用参考指南,深度挖掘Python+Spark的强大功能,介绍了如何使用Python调用Spark新特性、处理结构化及非结构化数据、使用PySpark中基本可用数据类型等内容

      立即下载
      Spark与Hadoop大数据分析
      Spark与Hadoop大数据分析 PDF 超清影印版

      这本书系统讲解了利用Hadoop和Spark及其生态系统里的一系列工具进行大数据分析的方法,配套详细的实现示例,是快速掌握大数据分析基础架构及其实施方法的详实参考

      立即下载
      深度实践Spark机器学习
      深度实践Spark机器学习 PDF 超清版

      本书系统讲解Spark机器学习技术、原理、算法和组件,以及构建Spark机器学习系统的方法、流程、标准和规范,介绍了Spark的深度学习框架TensorFlowOnSpark,以及如何借助它实现卷积神经网络和循环神经网络

      立即下载
      数据算法:Hadoop/Spark大数据处理技巧
      数据算法:Hadoop/Spark大数据处理技巧 PDF 高清版

      数据算法:Hadoop/Spark大数据处理技巧 介绍了很多基本设计模式、优化技术和数据挖掘及机器学习解决方案,以解决生物信息学、基因组学、统计和社交网络分析等领域的很多问题。这本书还概

      立即下载
      Hadoop+Spark生态系统操作与实战指南
      Hadoop+Spark生态系统操作与实战指南 PDF 原书影印版

      本书帮助读者快速上手Hadoop+Spark,全面解析Hadoop和Spark生态系统,通过实际操作,快速学习Hadoop+Spark大数据技术,使得读者了解当今互联网应用极为广泛的集群技术

      立即下载
      基于Hadoop与Spark的大数据开发实战
      基于Hadoop与Spark的大数据开发实战 PDF 原书影印版

      1、选取知识点核心实用,以互联网 实现终身学习 2、以企业需求为设计导向,以任务驱动为讲解方式 3、以案例为主线组织知识点,以实战项目来提升技术 4、充分考虑学习者的认知曲线,由浅入深,边讲边练

      立即下载
      Spark内核设计的艺术:架构设计与实现
      Spark内核设计的艺术:架构设计与实现 PDF 高清影印版

      细化到方法级,提炼出多个流程图,立体呈现Spark 2.1.0架构与实现精髓,包含架构、环境、调度、存储、计算、部署、API七大核心设计,想要学习Scala、Spark语言的开发人员

      立即下载
      循序渐进学Spark
      循序渐进学Spark PDF 原书影印版

      本书是引导读者深度学习Spark的技术指南,旨在用合理的结构和精炼的内容让读者用短的时间掌握Spark技术的核心内容,欢迎下载阅读

      立即下载
      Python+Spark2.0+Hadoop机器学习与大数据实战
      Python+Spark2.0+Hadoop机器学习与大数据实战 PDF 原书扫描版

      本书从浅显易懂的“大数据和机器学习”原理说明入手,讲述大数据和机器学习的基本概念,浅显易懂的原理介绍加上Step by Step 实机操作、范例程序详细解说,实现降低机器学习与大数据技术

      立即下载
      Spark大数据商业实战三部曲
      Spark大数据商业实战三部曲 PDF 超清扫描版

      本书基于Spark 2.2.X,以Spark商业案例实战和Spark在生产环境下几乎所有类型的性能调优为核心,循序渐进地全面解析了Spark 2.2,完全全面,欢迎下载

      立即下载
      读者心得
      137小时24分钟前回答

      Spark学习笔记之Spark SQL的具体使用

      1. Spark SQL是什么? 处理结构化数据的一个spark的模块 它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用 2. Spark SQL的特点 多语言的接口支持(java python scala) 统一的数据访问 完全兼容hive 支持标准的连接 3. 为什么学习SparkSQL? 我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduce的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。所有Spark SQL的应运而生,它是将Spark SQL转换成RDD,然后提交到集群执行,执行效率非常快! 4. DataFrame(数据框) 与RDD类似,DataFrame也是一个分布式数据容器 然而DataFrame更像传统数据库的二维表格,除了数据以外,还……

      42小时22分钟前回答

      浅谈PySpark SQL 相关知识介绍

      1 大数据简介 大数据是这个时代最热门的话题之一。但是什么是大数据呢?它描述了一个庞大的数据集,并且正在以惊人的速度增长。大数据除了体积(Volume)和速度(velocity)外,数据的多样性(variety)和准确性(veracity)也是大数据的一大特点。让我们详细讨论体积、速度、多样性和准确性。这些也被称为大数据的4V特征。 1.1 Volume 数据体积(Volume)指定要处理的数据量。对于大量数据,我们需要大型机器或分布式系统。计算时间随数据量的增加而增加。所以如果我们能并行化计算,最好使用分布式系统。数据可以是结构化数据、非结构化数据或介于两者之间的数据。如果我们有非结构化数据,那么情况就会变得更……

      51小时30分钟前回答

      详解IntelliJ IDEA创建spark项目的两种方式

      Intellij是进行scala开发的一个非常好用的工具,可以非常轻松查看scala源码,当然用它来开发Java也是很爽的,之前一直在用scala ide和eclipse,现在换成intellij简直好用到飞起,但是有些人不知道怎么用intellij去创建一个spark项目,这里介绍两种 1、选择File-new Project-Java-Scala,这里scala版本是2.11.8 2 .之后一路点击next,直到finish,创建完的项目见下图,这时候已经可以创建scala文件了,接下来就可以添加spark相关的jar包了,从官网下载http://spark.apache.org/downloads.html,我这里用的是spark-2.2.1-bin-hadoop2.7,你可以根据自己需要选择相应的版本,下载完压缩包后解压 3 . 选择File-Project Structure-Libraries,点击+,选择Java,选择之……

      19小时8分钟前回答

      pyspark.sql.DataFrame与pandas.DataFrame之间的相互转换实例

      代码如下,步骤流程在代码注释中可见: # -*- coding: utf-8 -*-import pandas as pdfrom pyspark.sql import SparkSessionfrom pyspark.sql import SQLContextfrom pyspark import SparkContext #初始化数据 #初始化pandas DataFramedf = pd.DataFrame([[1, 2, 3], [4, 5, 6]], index=['row1', 'row2'], columns=['c1', 'c2', 'c3']) #打印数据print df #初始化spark DataFramesc = SparkContext()if __name__ == "__main__": spark = SparkSession\ .builder\ .appName("testDataFrame")\ .getOrCreate() sentenceData = spark.createDataFrame([ (0.0, "I like Spark"), (1.0, "Pandas is useful"), (2.0, "They are coded by Python ")], ["label", "sentence"]) #显示数据sentenceData.select("label").show() #spark.DataFrame 转换成 pandas.DataFramesqlContest = SQLContext(sc)spark_df = sqlContest.create……

      码农之家

      乌学英 提供上传

      资源
      45
      粉丝
      20
      喜欢
      132
      评论
      12

      Copyright 2018-2021 www.xz577.com 码农之家

      版权投诉 / 书籍推广:520161757@qq.com