当前位置:首页 > 数据库 >
《Spark大数据分析实战》电子书封面

Spark大数据分析实战

  • 发布时间:2020年05月21日 14:13:42
  • 作者:高彦杰 倪亚宇
  • 大小:31.9 MB
  • 类别:Spark电子书
  • 格式:PDF
  • 版本:高清版
  • 评分:7.8

    Spark大数据分析实战 PDF 高清版

      给大家带来的一篇关于Spark相关的电子书资源,介绍了关于Spark、大数据分析方面的内容,本书是由机械工业出版社出版,格式为PDF,资源大小31.9 MB,高彦杰 倪亚宇编写,目前豆瓣、亚马逊、当当、京东等电子书综合评分为:7.1。

      内容介绍

      Spark大数据分析实战》最先从技术性方面解读了Spark的体制、生态体系与开发设计有关的內容;随后从运用视角解读了日志分析系统、推荐算法、情感分析、协同过滤、搜索引擎、社交媒体剖析、新闻报道数据分析等好几个普遍的互联网大数据场景下的数据分析。在每一个场景中,最先是对场景开展抽象性与归纳,随后将Spark融进在其中构建数据分析算法与运用,最终融合别的开源网站或专用工具构建更加丰富多彩的数据分析生产流水线。

      这书一共11章:在其中第一~3章,关键详细介绍了Spark的基本要素、程序编写实体模型、开发设计与布署的方式;第四~11章,详尽详细说明了新闻热点数据分析系统、根据云服务平台的系统日志数据分析、情感分析系统软件、搜索引擎链接分析系统软件等的运用与算法等关键知识要点。

      目录

      • 前 言
      • 第1章 Spark简介 1
      • 1.1 初识Spark 1
      • 1.2 Spark生态系统BDAS 3
      • 1.3 Spark架构与运行逻辑 4
      • 1.4 弹性分布式数据集 6
      • 1.4.1 RDD简介 6
      • 1.4.2 RDD算子分类 8
      • 1.5 本章小结 17
      • 第2章 Spark开发与环境配置 18
      • 2.1 Spark应用开发环境配置 18
      • 2.1.1 使用Intellij开发Spark程序 18
      • 2.1.2 使用SparkShell进行交互式数据分析 23
      • 2.2 远程调试Spark程序 24
      • 2.3 Spark编译 26
      • 2.4 配置Spark源码阅读环境 29
      • 2.5 本章小结 29
      • 第3章 BDAS简介 30
      • 3.1 SQL on Spark 30
      • 3.1.1 为什么使用Spark SQL 31
      • 3.1.2 Spark SQL架构分析 32
      • 3.2 Spark Streaming 35
      • 3.2.1 Spark Streaming简介 35
      • 3.2.2 Spark Streaming架构 38
      • 3.2.3 Spark Streaming原理剖析 38
      • 3.3 GraphX 45
      • 3.3.1 GraphX简介 45
      • 3.3.2 GraphX的使用简介 45
      • 3.3.3 GraphX体系结构 48
      • 3.4 MLlib 50
      • 3.4.1 MLlib简介 50
      • 3.4.2 MLlib中的聚类和分类 52
      • 3.5 本章小结 57
      • 第4章 Lamda架构日志分析流水线 58
      • 4.1 日志分析概述 58
      • 4.2 日志分析指标 61
      • 4.3 Lamda架构 62
      • 4.4 构建日志分析数据流水线 64
      • 4.4.1 用Flume进行日志采集 64
      • 4.4.2 用Kafka将日志汇总 68
      • 4.4.3 用Spark Streaming进行实时日志分析 70
      • 4.4.4 Spark SQL离线日志分析 75
      • 4.4.5 用Flask将日志KPI可视化 78
      • 4.5 本章小结 81
      • 第5章 基于云平台和用户日志的推荐系统 82
      • 5.1 Azure云平台简介 82
      • 5.1.1 Azure网站模型 83
      • 5.1.2 Azure数据存储 84
      • 5.1.3 Azure Queue消息传递 84
      • 5.2 系统架构 85
      • 5.3 构建Node.js应用 86
      • 5.3.1 创建Azure Web应用 87
      • 5.3.2 构建本地Node.js网站 90
      • 5.3.3 发布应用到云平台 90
      • 5.4 数据收集与预处理 91
      • 5.4.1 通过JS收集用户行为日志 92
      • 5.4.2 用户实时行为回传到Azure Queue 94
      • 5.5 Spark Streaming实时分析用户日志 96
      • 5.5.1 构建Azure Queue的Spark Streaming Receiver 96
      • 5.5.2 Spark Streaming实时处理Azure Queue日志 97
      • 5.5.3 Spark Streaming数据存储于Azure Table 98
      • 5.6 MLlib离线训练模型 99
      • 5.6.1 加载训练数据 99
      • 5.6.2 使用rating RDD训练ALS模型 100
      • 5.6.3 使用ALS模型进行电影推荐 101
      • 5.6.4 评估模型的均方差 101
      • 5.7 本章小结 102
      • 第6章 Twitter情感分析 103
      • 6.1 系统架构 103
      • 6.2 Twitter数据收集 104
      • 6.2.1 设置 104
      • 6.2.2 Spark Streaming接收并输出Tweet 109
      • 6.3 数据预处理与Cassandra存储 111
      • 6.3.1 添加SBT依赖 111
      • 6.3.2 创建Cassandra Schema 112
      • 6.3.3 数据存储于Cassandra 112
      • 6.4 Spark Streaming热点Twitter分析 113
      • 6.5 Spark Streaming在线情感分析 115
      • 6.6 Spark SQL进行Twitter分析 118
      • 6.6.1 读取Cassandra数据 118
      • 6.6.2 查看JSON数据模式 118
      • 6.6.3 Spark SQL分析Twitter 119
      • 6.7 Twitter可视化 123
      • 6.8 本章小结 125
      • 第7章 热点新闻分析系统 126
      • 7.1 新闻数据分析 126
      • 7.2 系统架构 126
      • 7.3 爬虫抓取网络信息 127
      • 7.3.1 Scrapy简介 127
      • 7.3.2 创建基于Scrapy的新闻爬虫 128
      • 7.3.3 爬虫分布式化 133
      • 7.4 新闻文本数据预处理 134
      • 7.5 新闻聚类 135
      • 7.5.1 数据转换为向量(向量空间模型VSM) 135
      • 7.5.2 新闻聚类 136
      • 7.5.3 词向量同义词查询 138
      • 7.5.4 实时热点新闻分析 138
      • 7.6 Spark Elastic Search构建全文检索引擎 139
      • 7.6.1 部署Elastic Search 139
      • 7.6.2 用Elastic Search索引MongoDB数据 141
      • 7.6.3 通过Elastic Search检索数据 143
      • 7.7 本章小结 145
      • 第8章 构建分布式的协同过滤推荐系统 146
      • 8.1 推荐系统简介 146
      • 8.2 协同过滤介绍 147
      • 8.2.1 基于用户的协同过滤算法User-based CF 148
      • 8.2.2 基于项目的协同过滤算法Item-based CF 149
      • 8.2.3 基于模型的协同过滤推荐Model-based CF 150
      • 8.3 基于Spark的矩阵运算实现协同过滤算法 152
      • 8.3.1 Spark中的矩阵类型 152
      • 8.3.2 Spark中的矩阵运算 153
      • 8.3.3 实现User-based协同过滤的示例 153
      • 8.3.4 实现Item-based协同过滤的示例 154
      • 8.3.5 基于奇异值分解实现Model-based协同过滤的示例 155
      • 8.4 基于Spark的MLlib实现协同过滤算法 155
      • 8.4.1 MLlib的推荐算法工具 155
      • 8.4.2 MLlib协同过滤推荐示例 156
      • 8.5 案例:使用MLlib协同过滤实现电影推荐 157
      • 8.5.1 MovieLens数据集 157
      • 8.5.2 确定ZUI佳的协同过滤模型参数 158
      • 8.5.3 利用ZUI佳模型进行电影推荐 160
      • 8.6 本章小结 161
      • 第9章 基于Spark的社交网络分析 162
      • 9.1 社交网络介绍 162
      • 9.1.1 社交网络的类型 162
      • 9.1.2 社交网络的相关概念 163
      • 9.2 社交网络中社团挖掘算法 164
      • 9.2.1 聚类分析和K均值算法简介 165
      • 9.2.2 社团挖掘的衡量指标 165
      • 9.2.3 基于谱聚类的社团挖掘算法 166
      • 9.3 Spark中的K均值算法 168
      • 9.3.1 Spark中与K均值有关的对象和方法 168
      • 9.3.2 Spark下K均值算法示例 168
      • 9.4 案例:基于Spark的Facebook社团挖掘 169
      • 9.4.1 SNAP社交网络数据集介绍 169
      • 9.4.2 基于Spark的社团挖掘实现 170
      • 9.5 社交网络中的链路预测算法 172
      • 9.5.1 分类学习简介 172
      • 9.5.2 分类器的评价指标 173
      • 9.5.3 基于Logistic回归的链路预测算法 174
      • 9.6 Spark MLlib中的Logistic回归 174
      • 9.6.1 分类器相关对象 174
      • 9.6.2 模型验证对象 175
      • 9.6.3 基于Spark的Logistic回归示例 175
      • 9.7 案例:基于Spark的链路预测算法 177
      • 9.7.1 SNAP符号社交网络Epinions数据集 177
      • 9.7.2 基于Spark的链路预测算法 177
      • 9.8 本章小结 179
      • 第10章 基于Spark的大规模新闻主题分析 180
      • 10.1 主题模型简介 180
      • 10.2 主题模型LDA 181
      • 10.2.1 LDA模型介绍 181
      • 10.2.2 LDA的训练算法 183
      • 10.3 Spark中的LDA模型 185
      • 10.3.1 MLlib对LDA的支持 185
      • 10.3.2 Spark中LDA模型训练示例 186
      • 10.4 案例:Newsgroups新闻的主题分析 189
      • 10.4.1 Newsgroups数据集介绍 190
      • 10.4.2 交叉验证估计新闻的主题个数 190
      • 10.4.3 基于主题模型的文本聚类算法 193
      • 10.4.4 基于主题模型的文本分类算法 195
      • 10.5 本章小结 196
      • 第11章 构建分布式的搜索引擎 197
      • 11.1 搜索引擎简介 197
      • 11.2 搜索排序概述 198
      • 11.3 查询无关模型PageRank 199
      • 11.4 基于Spark的分布式PageRank实现 200
      • 11.4.1 PageRank的MapReduce实现 200
      • 11.4.2 Spark的分布式图模型GraphX 203
      • 11.4.3 基于GraphX的PageRank实现 203
      • 11.5 案例:GoogleWeb Graph的PageRank计算 204
      • 11.6 查询相关模型Ranking SVM 206
      • 11.7 Spark中支持向量机的实现 208
      • 11.7.1 Spark中的支持向量机模型 208
      • 11.7.2 使用Spark测试数据演示支持向量机的训练 209
      • 11.8 案例:基于MSLR数据集的查询排序 211
      • 11.8.1 Microsoft Learning to Rank数据集介绍 211
      • 11.8.2 基于Spark的Ranking SVM实现 212
      • 11.9 本章小结 213

      学习笔记

      DataFrame:通过SparkSql将scala类转为DataFrame的方法

      如下所示: import java.text.DecimalFormatimport com.alibaba.fastjson.JSONimport com.donews.data.AppConfigimport com.typesafe.config.ConfigFactoryimport org.apache.spark.sql.types.{StructField, StructType}import org.apache.spark.sql.{Row, SaveMode, DataFrame, SQLContext}import org.apache.spark.{SparkConf, SparkContext}import org.slf4j.LoggerFactory /** * Created by silentwolf on 2016/6/3. */ case class UserTag(SUUID: String, MAN: Float, WOMAN: Float, AGE10_19: Float, AGE20_29: Float, AGE30_39: Float, AGE40_49: Float, AGE50_59: Float, GAME: Float, MOVIE: Float, MUSIC: Float, ART: Float, POLITICS_NEWS: Float, FINANCIAL: Float, EDUCATION_TRAINING: Float, HEALTH_CARE: Float, TRAVEL: Float, AUTOMOBILE: Float, HOUSE_PROPERTY: Float, CLOTHING_ACCESSORIES: Float, BEAUTY: Float, IT: Float, BABY……

      java-spark中各种常用算子的写法示例

      Spark的算子的分类 从大方向来说,Spark 算子大致可以分为以下两类: 1)Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。 Transformation 操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会真正触发运算。 2)Action 行动算子:这类算子会触发 SparkContext 提交 Job 作业。 Action 算子会触发 Spark 提交作业(Job),并将数据输出 Spark系统。 从小方向来说,Spark 算子大致可以分为以下三类: 1)Value数据类型的Transformation算子,这种变换并不触发提交作业,针对处理的数据项是Value型的数据。 2)Key-Value数据类型的Transf……

      Python搭建Spark分布式集群环境

      前言 Apache Spark 是一个新兴的大数据处理通用引擎,提供了分布式的内存抽象。Spark 最大的特点就是快,可比 Hadoop MapReduce 的处理速度快 100 倍。本文没有使用一台电脑上构建多个虚拟机的方法来模拟集群,而是使用三台电脑来搭建一个小型分布式集群环境安装。 本教程采用Spark2.0以上版本(比如Spark2.0.2、Spark2.1.0等)搭建集群,同样适用于搭建Spark1.6.2集群。 安装Hadoop并搭建好Hadoop集群环境 Spark分布式集群的安装环境,需要事先配置好Hadoop的分布式集群环境。 安装Spark 这里采用3台机器(节点)作为实例来演示如何搭建Spark集群,其中1台机器(节点)作为Master节点,另外两台机器(节点)作为Slave节点(……

      pyspark.sql.DataFrame与pandas.DataFrame之间的相互转换实例

      代码如下,步骤流程在代码注释中可见: # -*- coding: utf-8 -*-import pandas as pdfrom pyspark.sql import SparkSessionfrom pyspark.sql import SQLContextfrom pyspark import SparkContext #初始化数据 #初始化pandas DataFramedf = pd.DataFrame([[1, 2, 3], [4, 5, 6]], index=['row1', 'row2'], columns=['c1', 'c2', 'c3']) #打印数据print df #初始化spark DataFramesc = SparkContext()if __name__ == "__main__": spark = SparkSession\ .builder\ .appName("testDataFrame")\ .getOrCreate() sentenceData = spark.createDataFrame([ (0.0, "I like Spark"), (1.0, "Pandas is useful"), (2.0, "They are coded by Python ")], ["label", "sentence"]) #显示数据sentenceData.select("label").show() #spark.DataFrame 转换成 pandas.DataFramesqlContest = SQLContext(sc)spark_df = sqlContest.create……

      Spark学习笔记Spark Streaming的使用

      1. Spark Streaming Spark Streaming是一个基于Spark Core之上的实时计算框架,可以从很多数据源消费数据并对数据进行处理 Spark Streaing中有一个最基本的抽象叫DStream(代理),本质上就是一系列连续的RDD,DStream其实就是对RDD的封装 DStream可以认为是一个RDD的工厂,该DStream里面生产都是相同业务逻辑的RDD,只不过是RDD里面要读取数据的不相同 在一个批次的处理时间间隔里, DStream只产生一个RDD DStream就相当于一个"模板", 我们可以根据这个"模板"来处理一段时间间隔之内产生的这个rdd,以此为依据来构建rdd的DAG 2. 当下比较流行的实时计算引擎 吞吐量 编程语言 处理速度 生态 Storm 较低 clojure 非常快(亚秒) 阿里(JStorm) ……

      以上就是本次介绍的Spark电子书的全部相关内容,希望我们整理的资源能够帮助到大家,感谢大家对码农之家的支持。

      上一篇:图说区块链:神一样的金融科技与未来社会

      下一篇:剑指Offer:名企面试官精讲典型编程题

      展开 +

      收起 -

      • 《Spark大数据分析实战》PDF下载

      Spark相关电子书
      Python+Spark2.0+Hadoop机器学习与大数据实战
      Python+Spark2.0+Hadoop机器学习与大数据实战 原书扫描版

      本书从浅显易懂的“大数据和机器学习”原理说明入手,讲述大数据和机器学习的基本概念,浅显易懂的原理介绍加上Step by Step 实机操作、范例程序详细解说,实现降低机器学习与大数据技术

      立即下载
      Hadoop+Spark生态系统操作与实战指南
      Hadoop+Spark生态系统操作与实战指南 原书影印版

      本书帮助读者快速上手Hadoop+Spark,全面解析Hadoop和Spark生态系统,通过实际操作,快速学习Hadoop+Spark大数据技术,使得读者了解当今互联网应用极为广泛的集群技术

      立即下载
      Spark大数据实例开发教程
      Spark大数据实例开发教程 高清版

      王家林、徐香玉等编著的《 Spark大数据实例开发教程 》是面向Spark开发者的一本实用参考书,书中结合实例系统地介绍了Spark的开发与使用。 本书包括5章内容,第1章为spark简介;第2章为 Spar

      立即下载
      PySpark实战指南
      PySpark实战指南 原书中文扫描版

      本书是一本Pyspark的实用参考指南,深度挖掘Python+Spark的强大功能,介绍了如何使用Python调用Spark新特性、处理结构化及非结构化数据、使用PySpark中基本可用数据类型等内容

      立即下载
      Spark技术内幕:深入解析Spark内核架构设计与实现原理
      Spark技术内幕:深入解析Spark内核架构设计与实现原理 高清版

      Spark是不断壮大的大数据分析解决方案家族中备受关注的新增成员。它不仅为分布式数据集的处理提供一个有效框架,而且以高效的方式处理分布式数据集。它支持实时处理、流处理和批处理,

      立即下载
      大数据Spark企业级实战
      大数据Spark企业级实战 完整影印版

      Spark是现如今互联网大数据行业最活跃性、最受欢迎、最高效率的互联网大数据通用性测算服务平台,是Apache手机软件慈善基金会下全部开源网站项目中几大*开源网站项目之首。 在OneStacktoru

      立即下载
      数据算法:Hadoop/Spark大数据处理技巧
      数据算法:Hadoop/Spark大数据处理技巧 高清版

      数据算法:Hadoop/Spark大数据处理技巧 介绍了很多基本设计模式、优化技术和数据挖掘及机器学习解决方案,以解决生物信息学、基因组学、统计和社交网络分析等领域的很多问题。这本书还概

      立即下载
      Spark MLlib机器学习:算法、源码及实战详解
      Spark MLlib机器学习:算法、源码及实战详解 高清扫描版

      《Spark MLlib机器学习:算法、源码及实战详解》以Spark 1.4.1版本源码为切入点,全面并且深入地解析Spark MLlib模块,着力于探索分布式机器学习的底层实现。 《Spark MLlib机器学习:算法、源码及

      立即下载
      深度实践Spark机器学习
      深度实践Spark机器学习 高质量扫描版

      本书系统讲解Spark机器学习技术、原理、算法和组件,以及构建Spark机器学习系统的方法、流程、标准和规范,介绍了Spark的深度学习框架TensorFlowOnSpark,以及如何借助它实现卷积神经网络和循环神经网络

      立即下载
      Spark与Hadoop大数据分析
      Spark与Hadoop大数据分析 超清影印版

      这本书系统讲解了利用Hadoop和Spark及其生态系统里的一系列工具进行大数据分析的方法,配套详细的实现示例,是快速掌握大数据分析基础架构及其实施方法的详实参考

      立即下载
      读者留言
      梁鸿煊

      梁鸿煊 提供上传

      资源
      30
      粉丝
      35
      喜欢
      66
      评论
      4

      Copyright 2018-2020 xz577.com 码农之家

      本站所有电子书资源不再提供下载地址,只分享来路

      版权投诉 / 书籍推广 / 赞助:QQ:520161757