
Spark大数据分析实战 PDF 高清版
- 大小:31.9 MB
- 类型:Spark
- 格式:PDF
- 热度:828
- 作者:高彦杰、倪亚宇
- 更新:2020-05-21 14:13:42

给网友朋友们带来一篇Spark相关的资料,介绍了关于Spark、大数据分析方面,格式为PDF,资源大小31.9 MB,目前在Spark类资源综合评分为:7.3分。
《 Spark大数据分析实战 》最先从技术性方面解读了Spark的体制、生态体系与开发设计有关的內容;随后从运用视角解读了日志分析系统、推荐算法、情感分析、协同过滤、搜索引擎、社交媒体剖析、新闻报道数据分析等好几个普遍的互联网大数据场景下的数据分析。在每一个场景中,最先是对场景开展抽象性与归纳,随后将Spark融进在其中构建数据分析算法与运用,最终融合别的开源网站或专用工具构建更加丰富多彩的数据分析生产流水线。 这书一共11章:在其中第一~3章,关键详细介绍了Spark的基本要素、程序编写实体模型、开发设计与布署的方式;第四~11章,详尽详细说明了新闻热点数据分析系统、根据云服务平台的系统日志数据分析、情感分析系统软件、搜索引擎链接分析系统软件等的运用与算法等关键知识要点。 目录 前 言 第1章 Spark简介 1 1.1 初识Spark 1 1.2 Spark生态系统BDAS 3 1.3 Spark架构与运行逻辑 4 1.4 弹性分布式数据集 6 1.4.1 RDD简介 6 1.4.2 RDD算子分类 8 1.5 本章小结 17 第2章 Spark开发与环境配置 18 2.1 Spark应用开发环境配置 18 2.1.1 使用Intellij开发Spark程序 18 2.1.2 使用SparkShell进行交互式数据分析 23 2.2 远程调试Spark程序 24 2.3 Spark编译 26 2.4 配置Spark源码阅读环境 29 2.5 本章小结 29 第3章 BDAS简介 30 3.1 SQL on Spark 30 3.1.1 为什么使用Spark SQL 31 3.1.2 Spark SQL架构分析 32 3.2 Spark Streaming 35 3.2.1 Spark Streaming简介 35 3.2.2 Spark Streaming架构 38 3.2.3 Spark Streaming原理剖析 38 3.3 GraphX 45 3.3.1 GraphX简介 45 3.3.2 GraphX的使用简介 45 3.3.3 GraphX体系结构 48 3.4 MLlib 50 3.4.1 MLlib简介 50 3.4.2 MLlib中的聚类和分类 52 3.5 本章小结 57 第4章 Lamda架构日志分析流水线 58 4.1 日志分析概述 58 4.2 日志分析指标 61 4.3 Lamda架构 62 4.4 构建日志分析数据流水线 64 4.4.1 用Flume进行日志采集 64 4.4.2 用Kafka将日志汇总 68 4.4.3 用Spark Streaming进行实时日志分析 70 4.4.4 Spark SQL离线日志分析 75 4.4.5 用Flask将日志KPI可视化 78 4.5 本章小结 81 第5章 基于云平台和用户日志的推荐系统 82 5.1 Azure云平台简介 82 5.1.1 Azure网站模型 83 5.1.2 Azure数据存储 84 5.1.3 Azure Queue消息传递 84 5.2 系统架构 85 5.3 构建Node.js应用 86 5.3.1 创建Azure Web应用 87 5.3.2 构建本地Node.js网站 90 5.3.3 发布应用到云平台 90 5.4 数据收集与预处理 91 5.4.1 通过JS收集用户行为日志 92 5.4.2 用户实时行为回传到Azure Queue 94 5.5 Spark Streaming实时分析用户日志 96 5.5.1 构建Azure Queue的Spark Streaming Receiver 96 5.5.2 Spark Streaming实时处理Azure Queue日志 97 5.5.3 Spark Streaming数据存储于Azure Table 98 5.6 MLlib离线训练模型 99 5.6.1 加载训练数据 99 5.6.2 使用rating RDD训练ALS模型 100 5.6.3 使用ALS模型进行电影推荐 101 5.6.4 评估模型的均方差 101 5.7 本章小结 102 第6章 Twitter情感分析 103 6.1 系统架构 103 6.2 Twitter数据收集 104 6.2.1 设置 104 6.2.2 Spark Streaming接收并输出Tweet 109 6.3 数据预处理与Cassandra存储 111 6.3.1 添加SBT依赖 111 6.3.2 创建Cassandra Schema 112 6.3.3 数据存储于Cassandra 112 6.4 Spark Streaming热点Twitter分析 113 6.5 Spark Streaming在线情感分析 115 6.6 Spark SQL进行Twitter分析 118 6.6.1 读取Cassandra数据 118 6.6.2 查看JSON数据模式 118 6.6.3 Spark SQL分析Twitter 119 6.7 Twitter可视化 123 6.8 本章小结 125 第7章 热点新闻分析系统 126 7.1 新闻数据分析 126 7.2 系统架构 126 7.3 爬虫抓取网络信息 127 7.3.1 Scrapy简介 127 7.3.2 创建基于Scrapy的新闻爬虫 128 7.3.3 爬虫分布式化 133 7.4 新闻文本数据预处理 134 7.5 新闻聚类 135 7.5.1 数据转换为向量(向量空间模型VSM) 135 7.5.2 新闻聚类 136 7.5.3 词向量同义词查询 138 7.5.4 实时热点新闻分析 138 7.6 Spark Elastic Search构建全文检索引擎 139 7.6.1 部署Elastic Search 139 7.6.2 用Elastic Search索引MongoDB数据 141 7.6.3 通过Elastic Search检索数据 143 7.7 本章小结 145 第8章 构建分布式的协同过滤推荐系统 146 8.1 推荐系统简介 146 8.2 协同过滤介绍 147 8.2.1 基于用户的协同过滤算法User-based CF 148 8.2.2 基于项目的协同过滤算法Item-based CF 149 8.2.3 基于模型的协同过滤推荐Model-based CF 150 8.3 基于Spark的矩阵运算实现协同过滤算法 152 8.3.1 Spark中的矩阵类型 152 8.3.2 Spark中的矩阵运算 153 8.3.3 实现User-based协同过滤的示例 153 8.3.4 实现Item-based协同过滤的示例 154 8.3.5 基于奇异值分解实现Model-based协同过滤的示例 155 8.4 基于Spark的MLlib实现协同过滤算法 155 8.4.1 MLlib的推荐算法工具 155 8.4.2 MLlib协同过滤推荐示例 156 8.5 案例:使用MLlib协同过滤实现电影
相关资源
-
网页设计与开发 HTML CSS JavaScript实例教程(第3版) 课后答案
本书从实用角度出发,详细讲解了HTML、CSS和JavaScript的基本语法和设计技巧;通过采用面向商业应用的真实案例进行讲解,增强学生对网站制作相关技术在实际开发中的应用技巧的理解;同时精选知名网站的典型页面进行赏析,加强学生对Web设计基本原则及页面布局技术的理解和应用;最后通过一个班级网站详细介绍了网站规划、设计、实现到发布的完整过程。本书不仅为各章配有习题和学生实验,还提供了具有 一定深度的配套实验教材,力求达到理论
大小:3.96 MB网页设计课后答案
-
《多媒体课件设计与制作实践教程》素材
内容简介 本书是与《多媒体课件设计与制作教程》配套的实验教材,用于辅助教师和学生进行教学实验和实践。 全书分为4章,分别与主教材的第2章~第5章相对应。主要内容包括多媒体素材制作(安排了3个实验)、Fireworks CS图像处理(安排了4个实验)、Flash CS3动画制作(安排了8个实验)、Dreamweaver CS3网页制作(安排了11个实验)。 本书可操作性较强,能够有效提高学生多媒体课件设计与制作的应用能力。 目录 第1章 多媒体素材制作 实验1 声音素材的处理 实验
大小:105.04 MB多媒体课件配套资源
-
数据库原理及应用 Access 2003 课后答案
《数据库原理及应用(Access 2003)》是2016年8月人民邮电出版社出版的图书,作者是段雪丽、邵芬红、史迎春。 本书以Access 2003关系数据库为背景,以学生成绩管理系统为实例导向,从数据库的基本概念和基本理论入手,全面介绍了Access 2003数据库以及数据库中各种对象(包括表、查询、窗体、报表、数据访问页、宏)的创建、模块与VBA数据库编程、数据库管理与维护,**后附有图书管理系统应用综合实例,使读者全面掌握Access 2003数据库应用系统的开发方法及
大小:1.37 MB数据库原理课后答案
-
《金属切削加工方法与设备》教案
内容介绍 本书是根据近年来高职高专教育教学改革精神,将传统教材《金属切削原理与刀具》、《金属切削机床》和《机械制造工艺学》中的部分相关内容有机地结合在一起编写而成。全书以零件典型表面的加工为主线,介绍零件典型表面的加工方法,及所用机床的使用与调整。还对机械加工常用工具和量具的结构、选用等知识作了介绍。 本书共分8章,内容包括绪论、金属切削过程的基本知识、外圆表面加工及设备、内圆表面加工及设备、螺纹的加工
大小:15.31 MB金属切削加工配套资源
-
地理信息系统教程 课后答案
《地理信息系统教程》是2007年高等教育出版社出版的图书,作者是汤国安。本书全面系统地阐释了地理信息系统的基础理论与应用发展。 随着各个领域对地理信息系统认识程度和认可程度的提高,应用需求大幅度增加,导致地理信息系统正向更深的应用层次发展,表现出从地理信息系统走向地理信息服务的趋势。《地理信息系统教程》是作者系统地总结了已有GIS学科的基本理论、实践与成果,特别是总结了作者近年来在国内外从事有关GIS科研与教学经
大小:1.4 MB信息系统课后答案
-
《Hive性能调优实战》源代码
本书是一本关于Apache Hive调优的书籍,旨在介绍如何进行Hive的调优,以及调优时如果使用的工具。本书在最开始会介绍Hive优化多面性,以及如何在众多的调优技巧中寻找一条调优的思路。接着介绍Hive安装,为了方便读者的练习,我们主要介绍Docker安装Hive的方式和使用cloudera提供工具Hive的方式。介绍完安装Hive方式,我们会继续介绍Hive在优化时涉及的Hadoop组件和Hive工具。最后会介绍如何监控Hive在运行时出现性能问题。本书适合对大数据开发感兴趣的爱好
大小:1.81 MBHive实战配套资源
-
《Java核心技术 卷II 高级特性(原书第9版)》源代码
《Java核心技术》又推出了新版第9版!可见这套书在广大Java程序员和爱好者中心的地位。本书覆盖面广,几乎囊括了Java标准版的所有方面。这一版增加了有关Java SE 7的内容,并且几乎重新编写了全书所有的示例程序,使得用户能够更加容易地掌握Java的精髓。 《Java核心技术,卷II:高级特性》面向的是已经熟读并掌握了《Java核心技术,卷I:基础知识》内容的读者,或者是已经对Java语言的基本特性相当熟悉的读者。卷II的内容包含了流和文件、XML、网络
大小:3.29 MBJava技术配套资源
-
《摄影师的后期课:滤镜实战篇》素材
内容简介 摄影师的后期课系列图书共有7本,多领域、全方位地讲解了数码摄影后期技术。本书是摄影师的后期课系列的滤镜实战篇。全书共分3篇23节,介绍了Photoshop内大量的系统滤镜特效、CameraRaw增效工具滤镜,以及强大的第三方NikCollection系列滤镜的使用方法和技巧。本书配有大量针对性很强的实战案例,以帮助读者巩固学习成果,并逐渐梳理和提升读者后期特效制作的创意思路和能力。本书附赠多媒体视频教学资料,可以帮助读者提高学习效率。本
大小:469.41 MB摄影配套资源
下载地址
相关声明: