给大家带来的一篇关于Spark相关的电子书资源,介绍了关于Spark、核心技术、案例实战方面的内容,本书是由电子工业出版社出版,格式为PDF,资源大小67.5 MB,郭景瞻编写,目前豆瓣、亚马逊、当当、京东等电子书综合评分为:7.8。
图解Spark:核心技术与案例实战以Spark 2.0 版本为基础进行编写,全面介绍了Spark 核心及其生态圈组件技术。主要内容包括Spark 生态圈、实战环境搭建、编程模型和内部重要模块的分析,重点介绍了消息通信框架、作业调度、容错执行、监控管理、存储管理以及运行框架,同时还介绍了Spark 生态圈相关组件,包括了Spark SQL 的即席查询、Spark Streaming 的实时流处理应用、MLbase/MLlib 的机器学习、GraphX 的图处理、SparkR 的数学计算和Alluxio 的分布式内存文件系统等。
本书从Spark 核心技术进行深入分析,重要章节会结合源代码解读其实现原理,围绕着技术原理介绍了相关典型实例,读者通过这些实例可以更加深入地理解Spark 的运行机制。另外本书还应用了大量的图表进行说明,通过这种方式让读者能够更加直观地理解Spark 相关原理。
详解Java编写并运行spark应用程序的方法
我们首先提出这样一个简单的需求: 现在要分析某网站的访问日志信息,统计来自不同IP的用户访问的次数,从而通过Geo信息来获得来访用户所在国家地区分布状况。这里我拿我网站的日志记录行示例,如下所示: 121.205.198.92 - - [21/Feb/2014:00:00:07 +0800] "GET /archives/417.html HTTP/1.1" 200 11465 "http://shiyanjun.cn/archives/417.html/" "Mozilla/5.0 (Windows NT 5.1; rv:11.0) Gecko/20100101 Firefox/11.0"121.205.198.92 - - [21/Feb/2014:00:00:11 +0800] "POST /wp-comments-post.php HTTP/1.1" 302 26 "http://shiyanjun.cn/archives/417.html/" "Mozilla/5.0 (Windows NT 5.1; rv:23.0) Gecko/20100101 Firefox/23.0"121.205.198.92 - - [21/Feb/2014:00:00:12 +0800] "GET /archives/417.html/ HTTP/1.1" 301 26 "http://shiyanjun.cn/archi……
详解IntelliJ IDEA创建spark项目的两种方式
Intellij是进行scala开发的一个非常好用的工具,可以非常轻松查看scala源码,当然用它来开发Java也是很爽的,之前一直在用scala ide和eclipse,现在换成intellij简直好用到飞起,但是有些人不知道怎么用intellij去创建一个spark项目,这里介绍两种 1、选择File-new Project-Java-Scala,这里scala版本是2.11.8 2 .之后一路点击next,直到finish,创建完的项目见下图,这时候已经可以创建scala文件了,接下来就可以添加spark相关的jar包了,从官网下载http://spark.apache.org/downloads.html,我这里用的是spark-2.2.1-bin-hadoop2.7,你可以根据自己需要选择相应的版本,下载完压缩包后解压 3 . 选择File-Project Structure-Libraries,点击+,选择Java,选择之……
DataFrame:通过SparkSql将scala类转为DataFrame的方法
如下所示: import java.text.DecimalFormatimport com.alibaba.fastjson.JSONimport com.donews.data.AppConfigimport com.typesafe.config.ConfigFactoryimport org.apache.spark.sql.types.{StructField, StructType}import org.apache.spark.sql.{Row, SaveMode, DataFrame, SQLContext}import org.apache.spark.{SparkConf, SparkContext}import org.slf4j.LoggerFactory /** * Created by silentwolf on 2016/6/3. */ case class UserTag(SUUID: String, MAN: Float, WOMAN: Float, AGE10_19: Float, AGE20_29: Float, AGE30_39: Float, AGE40_49: Float, AGE50_59: Float, GAME: Float, MOVIE: Float, MUSIC: Float, ART: Float, POLITICS_NEWS: Float, FINANCIAL: Float, EDUCATION_TRAINING: Float, HEALTH_CARE: Float, TRAVEL: Float, AUTOMOBILE: Float, HOUSE_PROPERTY: Float, CLOTHING_ACCESSORIES: Float, BEAUTY: Float, IT: Float, BABY……
基于Spark实现随机森林代码
本文实例为大家分享了基于Spark实现随机森林的具体代码,供大家参考,具体内容如下 public class RandomForestClassficationTest extends TestCase implements Serializable{ /** * */ private static final long serialVersionUID = 7802523720751354318L; class PredictResult implements Serializable{ /** * */ private static final long serialVersionUID = -168308887976477219L; double label; double prediction; public PredictResult(double label,double prediction){ this.label = label; this.prediction = prediction; } @Override public String toString(){ return this.label + " : " + this.prediction ; } } public void test_randomForest() throws JAXBException{ SparkConf sparkConf = new SparkConf(); sparkConf.setAppName("RandomForest"); sparkConf.setMaster("local"); SparkContext sc = ……
以上就是本次介绍的Spark电子书的全部相关内容,希望我们整理的资源能够帮助到大家,感谢大家对码农之家的支持。
下一篇:WebRTC权威指南
展开 +
收起 -
这书是厦门大学创作者精英团队长期性经验交流的结晶体,是在厦门大学《 大数据技术原理与应用 》新手入门互联网大数据教材内容的基本之中撰写的。为了保证实例教程品质,在编著出版纸
立即下载Spark是现如今互联网大数据行业最活跃性、最受欢迎、最高效率的互联网大数据通用性测算服务平台,是Apache手机软件慈善基金会下全部开源网站项目中几大*开源网站项目之首。 在OneStacktoru
立即下载Spark核心技术与高级应用 是Spark领域少有的专注于核心原理与深度应用的著作,由科大讯飞和百分点科技的4位大数据专家撰写。不仅细致介绍了Spark的程序开发、编程模型、作业执行解析等基础
立即下载41957720
Copyright 2018-2020 www.xz577.com 码农之家
版权投诉 / 书籍推广 / 赞助:520161757@qq.com