标签分类 热门分类
当前位置:首页 > 数据库电子书 > Spark电子书网盘下载
Spark大数据分析:核心概念、技术及实践 Spark大数据分析:核心概念、技术及实践
readboy2012

readboy2012 提供上传

资源
47
粉丝
8
喜欢
222
评论
10

    Spark大数据分析:核心概念、技术及实践 PDF 高清版

    Spark电子书
    • 发布时间:

    给大家带来的一篇关于Spark相关的电子书资源,介绍了关于Spark、大数据分析、核心概念、技术实践方面的内容,本书是由机械工业出版社出版,格式为PDF,资源大小88.3 MB,穆罕默德·古勒编写,目前豆瓣、亚马逊、当当、京东等电子书综合评分为:9.1,更多相关的学习资源可以参阅 数据库电子书、等栏目。

  • Spark大数据分析:核心概念、技术及实践 PDF 下载
  • 下载地址:https://pan.baidu.com/s/1npEdyZvgX-FClJCDEM2RK
  • 分享码:zo69
  • Spark大数据分析:核心概念、技术及实践

    Spark大数据分析:核心概念、技术及实践是关于大数据和Spark的一个简明手册。它将助你学习如何用Spark来完成很多大数据分析任务,其中覆盖了高效利用Spark所需要知道的重要主题:如何使用SparkShell进行交互式数据分析、如何编写Spark应用、如何在Spark中对大规模数据进行交互分析、如何使用SparkStreaming处理高速数据流、如何使用Spark进行机器学习、如何使用Spark进行图处理、如何使用集群管理员部署Spark、如何监控Spark应用等。本书还对其他配合Spark一起使用的大数据技术进行了介绍,包括HDFS、Avro、Parquet、Kafka、Cassandra、HBase、Mesos等。本书也对机器学习和图的概念进行了介绍。

    目录

    • 第1章 大数据技术一览1
    • 第2章 Scala编程16
    • 第3章 Spark Core33
    • 第4章 使用Spark shell进行交互式数据分析60
    • 第5章 编写Spark应用69
    • 第6章 Spark Streaming77
    • 第7章 Spark SQL99
    • 第8章 使用Spark进行机器学习146
    • 第9章 使用Spark进行图处理196
    • 第10章 集群管理员218
    • 第10章 监控

    上一篇:数据模型资源手册(卷3):数据模型通用模式  下一篇:深入分析GCC

    展开 +

    收起 -

     
    Spark 相关电子书
    关于Spark的学习笔记
    网友NO.330537

    python有spark库么

    从这个名字pyspark就可以看出来,它是由python和spark组合使用的. 相信你此时已经电脑上已经装载了hadoop,spark,python3. Spark提供了一个Python_Shell,即pyspark,从而可以以交互的方式使用Python编写Spark程序。 (推荐学习:Python视频教程) pyspark里最核心的模块是SparkContext(简称sc),最重要的数据载体是RDD。 RDD就像一个NumPy array或者一个Pandas Series,可以视作一个有序的item集合。只不过这些item并不存在driver端的内存里,而是被分割成很多个partitions,每个partition的数据存在集群的executor的内存中。 引入Python中pyspark工作模块 import pysparkfrom pyspark import SparkContext as scfrom pyspark import SparkConfconf=SparkConf().setAppName(miniProject).setMaster(local[*])sc=SparkContext.getOrCreate(conf)#任何Spark程序都是SparkContext开始的,SparkContext的初始化需要一个SparkConf对象,SparkConf包含了Spark集群配置的各种参数(比如主节点的URL)。初始化后,就可以使用SparkContext对象所包含的各种方法来创建和操作RDD和共享变量。Spark shell会自动初始化一个SparkContext(在Scala和Python下可以,但不支持Java)。#getOrCreate表明可以视情况新建session或利用已有的session SparkSession是Spark 2.0引入的新概念。 SparkSession为用户提供了统一的切入点,来让用户学习spark的各项功能。 在spark的早期版本中,SparkContext是spark的主……

    网友NO.842271

    DataFrame:通过SparkSql将scala类转为DataFrame的方法

    如下所示: import java.text.DecimalFormatimport com.alibaba.fastjson.JSONimport com.donews.data.AppConfigimport com.typesafe.config.ConfigFactoryimport org.apache.spark.sql.types.{StructField, StructType}import org.apache.spark.sql.{Row, SaveMode, DataFrame, SQLContext}import org.apache.spark.{SparkConf, SparkContext}import org.slf4j.LoggerFactory /** * Created by silentwolf on 2016/6/3. */ case class UserTag(SUUID: String, MAN: Float, WOMAN: Float, AGE10_19: Float, AGE20_29: Float, AGE30_39: Float, AGE40_49: Float, AGE50_59: Float, GAME: Float, MOVIE: Float, MUSIC: Float, ART: Float, POLITICS_NEWS: Float, FINANCIAL: Float, EDUCATION_TRAINING: Float, HEALTH_CARE: Float, TRAVEL: Float, AUTOMOBILE: Float, HOUSE_PROPERTY: Float, CLOTHING_ACCESSORIES: Float, BEAUTY: Float, IT: Float, BABY_PRODUCT: Float, FOOD_SERVICE: Float, HOME_FURNISHING: Float, SPORTS: Float, OUTDOOR_ACTIVITIES: Float, MEDICINE: Float ) object UserTagTable { val LOG = LoggerFactory.getLogger(UserOverviewFirst.getClass) val REP_HOME = s"${AppConfig.HDFS_MASTER}/${AppConfig.HDFS_REP}" def main(args: Array[String]) { var startTime = System.currentTimeMillis() val conf: com.typesafe.config.Config = ConfigFactory.load() val sc = new SparkContext() val sqlContext = new SQLContext(sc) var df1: DataFrame = null if (args.length == 0) { println("请输入: appkey , StartTime : 2016-04-10 ,StartEnd :2016-04-11") } else { var appkey = args(0) var lastdate = args(1) df1 = loadDataFrame(sqlContext, appkey, "20……

    网友NO.243634

    spark rdd转dataframe 写入mysql的实例讲解

    dataframe是在spark1.3.0中推出的新的api,这让spark具备了处理大规模结构化数据的能力,在比原有的RDD转化方式易用的前提下,据说计算性能更还快了两倍。spark在离线批处理或者实时计算中都可以将rdd转成dataframe进而通过简单的sql命令对数据进行操作,对于熟悉sql的人来说在转换和过滤过程很方便,甚至可以有更高层次的应用,比如在实时这一块,传入kafka的topic名称和sql语句,后台读取自己配置好的内容字段反射成一个class并利用出入的sql对实时数据进行计算,这种情况下不会spark streaming的人也都可以方便的享受到实时计算带来的好处。 下面的示例为读取本地文件成rdd并隐式转换成dataframe对数据进行查询,最后以追加的形式写入mysql表的过程,scala代码示例如下 import java.sql.Timestampimport org.apache.spark.sql.{SaveMode, SQLContext}import org.apache.spark.{SparkContext, SparkConf}object DataFrameSql { case class memberbase(data_date:Long,memberid:String,createtime:Timestamp,sp:Int)extends Serializable{ override def toString: String="%d\t%s\t%s\t%d".format(data_date,memberid,createtime,sp) } def main(args:Array[String]): Unit ={ val conf = new SparkConf() conf.setMaster("local[2]")// ---------------------- //参数 spark.sql.autoBroadcastJoinThreshold 设置某个表是否应该做broadcast,默认10M,设置为-1表示禁用 //spark.sql.codegen 是否预编译sql成……

    Copyright 2018-2020 xz577.com 码农之家

    电子书资源由网友、会员提供上传,本站记录提供者的基本信息及资源来路

    鸣谢: “ 码小辫 ” 公众号提供回调API服务、“ 脚本CDN ”提供网站加速(本站寻求更多赞助支持)

    版权投诉 / 书籍推广 / 赞助:520161757@qq.com

    上传资源(网友、会员均可提供)

    查看最新会员资料及资源信息