标签分类
当前位置:首页 > 数据库电子书 > Spark电子书网盘下载
Spark:大数据集群计算的生产实践 Spark:大数据集群计算的生产实践
码小辫

码小辫 提供上传

资源
11
粉丝
42
喜欢
248
评论
14

    Spark:大数据集群计算的生产实践 PDF 完整超清版

    Spark电子书
    • 发布时间:

    给大家带来的一篇关于Spark相关的电子书资源,介绍了关于Spark、大数据、生产实践方面的内容,本书是由电子工业出版社出版,格式为PDF,资源大小97.1 MB,Ilya Ganelin(伊利亚·甘列林编写,目前豆瓣、亚马逊、当当、京东等电子书综合评分为:8.5,更多相关的学习资源可以参阅 数据库电子书、等栏目。

    Spark:大数据集群计算的生产实践 PDF 下载

    下载地址:https://pan.baidu.com/s/103ssnfUgt_QielA-iJMpM

    分享码:9ia4

    Spark:大数据集群计算的生产实践 PDF

    这书对于spark从认证性自然环境迁移到实际上生产环境时候碰到的各种各样难题得出了实际上的协助,包含了开发设计及维护保养生产级Spark运用的各种各样方式 、组件与有用实践活动。本书分成6章,第1 ~ 2章协助用户深层次了解Spark的內部体制及其他们在生产工艺流程中的含意;第3章和第5章论述了对于配备主要参数的规律和衡量计划方案,用于调优Spark,改进性能,得到高可用性和容错性;第4章专业探讨Spark运用中的安全隐患;第6章则全方位详细介绍生产流,及其把一个运用迁移到一个生产工作流引擎里时所必须的各种各样组件,另外对Spark生态体系开展了整理。

    目录

    • 第1章 成功运行Spark job 1
    • 安装所需组件 2
    • -- 原生安装Spark Standalone集群 3
    • 分布式计算的发展史 3
    • -- 步入云时代 5
    • -- 理解资源管理 6
    • 使用各种类型的存储格式 9
    • -- 文本文件 11
    • -- Sequence文件 13
    • -- Avro文件 13
    • -- Parquet文件 13
    • 监控和度量的意义 14
    • -- Spark UI 14
    • -- Spark Standalone UI 17
    • -- Metrics REST API 17
    • -- Metrics System 18
    • -- 外部监控工具 18
    • 总结 19
    • 第2章 集群管理 21
    • 背景知识 23
    • Spark组件 26
    • -- Driver 27
    • -- workers与executors 28
    • -- 配置 30
    • Spark Standalone 33
    • -- 架构 34
    • -- 单节点设置场景 34
    • -- 多节点设置 36
    • YARN 36
    • -- 架构 38
    • -- 动态资源分配 41
    • -- 场景 43
    • Mesos 45
    • -- 安装 46
    • -- 架构 47
    • -- 动态资源分配 49
    • -- 基本安装场景 50
    • 比较 52
    • 总结 56
    • 第3章 性能调优 59
    • Spark 执行模型 60
    • 分区 62
    • -- 控制并行度 62
    • -- 分区器 64
    • shuffle数据 65
    • -- shuffle与数据分区 67
    • -- 算子与shuffle 70
    • -- shuffle并不总是坏事 75
    • 序列化 75
    • -- Kryo注册器 77
    • Spark缓存 77
    • -- SparkSQL 缓存 81
    • 内存管理 82
    • -- 垃圾回收 83
    • 共享变量 84
    • -- 广播变量 85
    • -- 累加器 87
    • 数据局部性 90
    • 总结 91
    • 第4章 安全 93
    • 架构 94
    • -- Security Manager 94
    • -- 设定配置 95
    • ACL 97
    • -- 配置 97
    • -- 提交job 98
    • -- Web UI 99
    • 网络安全 107
    • 加密 108
    • 事件日志 113
    • Kerberos 114
    • Apache Sentry 114
    • 总结 115
    • 第5章 容错或job执行 117
    • Spark job的生命周期 118
    • -- Spark master 119
    • -- Spark driver 122
    • -- Spark worker 124
    • -- job生命周期 124
    • job调度 125
    • -- 应用程序内部调度 125
    • -- 用外部工具进行调度 133
    • 容错 135
    • -- 内部容错与外部容错 136
    • -- SLA 137
    • -- RDD 138
    • -- Batch vs Streaming 145
    • -- 测试策略 148
    • -- 推荐配置 155
    • 总结 158
    • 第6章 超越Spark 159
    • 数据仓库 159
    • -- SparkSQL CLI 161
    • -- Thrift JDBC/ODBC服务器 162
    • -- Hive on Spark 162
    • 机器学习 164
    • -- DataFrame 165
    • -- MLlib和ML 167
    • -- Mahout on Spark 174
    • -- Hivemall On Spark 175
    • 外部的框架 176
    • -- Spark Package 177
    • -- XGBoost 179
    • -- spark-jobserver 179
    • 未来的工作 182
    • -- 与参数服务器集成 184
    • -- 深度学习 192
    • Spark在企业中的应用 200
    • -- 用Spark及Kafka收集用户活动日志 200
    • -- 用Spark做实时推荐 202
    • -- Twitter Bots的实时分类 204
    • 总结 205

    上一篇:PHP与jQuery开发实例  下一篇:云系统管理:大规模分布式系统设计与运营

    展开 +

    收起 -

    Spark 相关电子书
    关于Spark的学习笔记
    网友NO.917657

    浅谈DataFrame和SparkSql取值误区

    1、DataFrame返回的不是对象。 2、DataFrame查出来的数据返回的是一个dataframe数据集。 3、DataFrame只有遇见Action的算子才能执行 4、SparkSql查出来的数据返回的是一个dataframe数据集。 原始数据 scala val parquetDF = sqlContext.read.parquet("hdfs://hadoop14:9000/yuhui/parquet/part-r-00004.gz.parquet")df: org.apache.spark.sql.DataFrame = [timestamp: string, appkey: string, app_version: string, channel: string, lang: string, os_type: string, os_version: string, display: string, device_type: string, mac: string, network: string, nettype: string, suuid: string, register_days: int, country: string, area: string, province: string, city: string, event: string, use_interval_cat: string, use_duration_cat: string, use_interval: bigint, use_duration: bigint, os_upgrade_from: string, app_upgrade_from: string, page_name: string, event_name: string, error_type: string] 代码 package DataFrameimport org.apache.spark.sql.SQLContextimport org.apache.spark.{SparkConf, SparkContext}/** * Created by yuhui on 2016/6/14. */object DataFrameTest { def main(args: Array[String]) { DataFrameInto() } def DataFrameInto() { val conf = new SparkConf() val sc = new SparkContext(conf) val sqlContext = new SQLContext(sc) val df = sqlContext.read.parquet("hdfs://hadoop14:9000/yuhui/parquet") //df.map(line = printinfo(line.getString(0))) //df.foreach(line = printinfo(line.getString(0)+" , "+line.getString(14)+" , "+line.getString(15))) //df.select("timestamp","……

    网友NO.962921

    Spark随机森林实现票房预测

    前言 最近一段时间都在处理电影领域的数据, 而电影票房预测是电影领域数据建模中的一个重要模块, 所以我们针对电影数据做了票房预测建模. 前期工作 一开始的做法是将这个问题看待成回归的问题, 采用GBDT回归树去做. 训练了不同残差的回归树, 然后做集成学习. 考虑的影响因子分别有电影的类型, 豆瓣评分, 导演的 影响力, 演员的影响力, 电影的出品公司. 不过预测的结果并不是那么理想, 准确率为真实值的0.3+/-区间情况下的80%, 且波动性较大, 不容易解析. 后期的改进 总结之前的失败经验, 主要归纳了以下几点: 1.影响因子不够多, 难以建模 2.票房成绩的区间较大(一百万到10亿不等),分布不均匀, 大多数集中与亿级, 所以不适合采用回归方法解决. 3.数据样本量比较少, 不均匀, 预测百万级的电影较多, 影响预测结果 后期, 我们重新规范了数据的输入格式, 即影响因子, 具体如下: 第一行: 电影名字 第二行: 电影票房(也就是用于预测的, 以万为单位) 第三行: 电影类型 第四行: 片长(以分钟为单位) 第五行:上映时间(按月份) 第六行: 制式( 一般分为2D, 3D, IMAX) 第七行: 制作国家 第八行: 导演影响 (以导演的平均票房成绩为衡量, 以万为单位 ) 第九行: 演员影响 ( 以所有演员的平均票房成绩为衡量, 以万为单位 ) 第十行:制作公司影响 ( 以所有……

    网友NO.236587

    Spring Boot与Spark、Cassandra系统集成开发示例

    本文演示以Spark作为分析引擎,Cassandra作为数据存储,而使用Spring Boot来开发驱动程序的示例。 1.前置条件 安装Spark(本文使用Spark-1.5.1,如安装目录为/opt/spark) 安装Cassandra(3.0+) 创建keyspace CREATE KEYSPACE hfcb WITH REPLICATION = { 'class' : 'SimpleStrategy', 'replication_factor' : 3 }; 创建table CREATE TABLE person ( id text PRIMARY KEY, first_name text, last_name text); 插入测试数据 insert into person (id,first_name,last_name) values('1','wang','yunfei');insert into person (id,first_name,last_name) values('2','peng','chao');insert into person (id,first_name,last_name) values('3','li','jian');insert into person (id,first_name,last_name) values('4','zhang','jie');insert into person (id,first_name,last_name) values('5','liang','wei'); 2.spark-cassandra-connector安装 让Spark-1.5.1能够使用Cassandra作为数据存储,需要加上下面jar包的依赖(示例将包放置于 /opt/spark/managed-lib/ 目录,可任意): cassandra-clientutil-3.0.2.jarcassandra-driver-core-3.1.4.jarguava-16.0.1.jarcassandra-thrift-3.0.2.jar joda-convert-1.2.jarjoda-time-2.9.9.jarlibthrift-0.9.1.jarspark-cassandra-connector_2.10-1.5.1.jar 在 /opt/spark/conf 目录下,新建 spark-env.sh 文件,输入下面内容 SPARK_CLASSPATH=/opt/spark/managed-lib/* 3.Spring Boot应用开发 添加 spark-cassandra-connector 和 spark 依赖 dependency groupIdcom.datastax.spark/groupId artifactIdspark-cassandra-connector_2.10/artifactId version1.5.……

    网友NO.447689

    初识Spark入门

    1. Spark简介 2009年,Spark诞生于伯克利大学的AMPLab实验室。最出Spark只是一个实验性的项目,代码量非常少,属于轻量级的框架。 2010年,伯克利大学正式开源了Spark项目。 2013年6月,Spark成为了Apache基金会下的项目,进入高速发展期。第三方开发者贡献了大量的代码,活跃度非常高 2014年2月,Spark以飞快的速度称为了Apache的顶级项目,同时大数据公司Cloudera宣称加大Spark框架的投入来取代MapReduce 2014年4月,大数据公司MapR投入Spark阵营, Apache Mahout放弃MapReduce,将使用Spark作为计算引擎。 2014年5月,Spark 1.0.0 发布。 2015年~,Spark在国内IT行业变得愈发火爆,越来越多的公司开始重点部署或者使用Spark来替代MR2、Hive、Storm等传统的大数据并行计算框架 2. Spark是什么? Apache Spark™ is a unified analytics engine for large-scale data processing. 大规模数据集的统一分析引擎 Spark是一个基于内存的通用并行计算框架,目的是让数据分析更加快速 Spark包含了大数据领域常见的各种计算框架 spark core(离线计算) sparksql(交互式查询) spark streaming(实时计算) Spark MLlib (机器学习) Spark GraphX (图计算) 3. Spark能代替hadoop吗? ​ 不完全对 ​ 因为我们只能使用spark core代替mr做离线计算,数据的存储还是要依赖hdfs ​ Spark+Hadoop的组合,才是未来大数据领域最热门的组合,也是最有……

    Copyright 2018-2019 xz577.com 码农之家

    版权责任说明