标签分类 热门分类
当前位置:首页 > 程序设计电子书 > Spark SQL电子书网盘下载
Spark SQL入门与实践指南 Spark SQL入门与实践指南
3315211

3315211 提供上传

资源
31
粉丝
31
喜欢
322
评论
10

    Spark SQL入门与实践指南 PDF 超清完整版

    Spark SQL电子书
    • 发布时间:

    给大家带来的一篇关于Spark SQL相关的电子书资源,介绍了关于Spark、SQL、入门、实践、指南方面的内容,本书是由清华大学出版社出版,格式为PDF,资源大小31.8 MB,纪涵、靖晓文、赵编写,目前豆瓣、亚马逊、当当、京东等电子书综合评分为:8.9,更多相关的学习资源可以参阅 程序设计电子书、等栏目。

  • Spark SQL入门与实践指南 PDF 下载
  • 下载地址:https://pan.baidu.com/s/1FkL6Gz7GuXDvcWxDKNo-j
  • 分享码:nee6
  • Spark SQL入门与实践指南 pdf

    (1)解读Spark SQL背景图专业知识、代码

    (2)根据1个工程项目案例让用户领略到Spark SQL强劲简单的逻辑思维能力

    (3)学习培训搭建1个互联网大数据具体运用的方式,提升工程项目逻辑思维

    (4)洞察Spark的调优方法以及观念,让Spark SQL程序流程高效率运作 

    Spark SQL是 Spark互联网大数据架构的部分,适用应用规范SQL查寻和HiveQL来读写能力统计数据,可用以结构化数据解决,并能够实行相近SQL的Spark数据统计,有利于开发者迅速地建立和运作Spark程序流程。本书分成4篇,共9章,*篇解读了Spark SQL 发展趋势历史时间和开发工具构建。第二篇解读了Spark SQL 案例,促使用户把握Spark SQL的新手入门实际操作,掌握Spark RDD、DataFrame和DataSet,并了解 DataFrame 各种各样实际操作。第三篇解读了根据WiFi电极的商业服务数据分析新项目,案例中包括数据收集、预备处理、储存、运用Spark SQL 发掘统计数据,一步步领着用户学习培训Spark SQL强劲的大数据挖掘作用。第四篇解读了Spark SQL 提升的专业知识。这书合适Spark新手、Spark数据统计分析工作人员及其Spark软件开发工作人员,也合适高等院校和培训机构有关技术专业的老师学生课堂教学参照。

    目录

    • 第一部分  入门篇
    • 第1章  初识Spark SQL 3
    • 1.1 Spark SQL的前世今生 3
    • 1.2 Spark SQL能做什么 4
    • 第2章  Spark安装、编程环境搭建以及打包提交 6
    • 2.1 Spark的简易安装 6
    • 2.2  准备编写Spark应用程序的IDEA环境 10
    • 2.3  将编写好的Spark应用程序打包成jar提交到Spark上 18
    • 第二部分  基础篇
    • 第3章  Spark上的RDD编程 23
    • 3.1 RDD基础 24
    • 3.1.1 创建RDD 24
    • 3.1.2 RDD转化操作、行动操作 24
    • 3.1.3 惰性求值 25
    • 3.1.4 RDD缓存概述 26
    • 3.1.5 RDD基本编程步骤 26
    • 3.2 RDD简单实例—wordcount 27
    • 3.3  创建RDD 28
    • 3.3.1 程序内部数据作为数据源 28
    • 3.3.2 外部数据源 29
    • 3.4 RDD操作 33
    • 3.4.1 转化操作 34
    • 3.4.2 行动操作 37
    • 3.4.3 惰性求值 38
    • 3.5  向Spark传递函数 39
    • 3.5.1 传入匿名函数 39
    • 3.5.2 传入静态方法和传入方法的引用 40
    • 3.5.3 闭包的理解 41
    • 3.5.4 关于向Spark传递函数与闭包的总结 42
    • 3.6  常见的转化操作和行动操作42
    • 3.6.1 基本RDD转化操作 43
    • 3.6.2 基本RDD行动操作 48
    • 3.6.3 键值对RDD 52
    • 3.6.4 不同类型RDD之间的转换 56
    • 3.7  深入理解RDD 57
    • 3.8 RDD 缓存、持久化 59
    • 3.8.1 RDD缓存 59
    • 3.8.2 RDD持久化 61
    • 3.8.3 持久化存储等级选取策略 63
    • 3.9 RDD checkpoint容错机制 64
    • 第4章  Spark SQL编程入门 66
    • 4.1 Spark SQL概述 66
    • 4.1.1 Spark SQL是什么 66
    • 4.1.2 Spark SQL通过什么来实现 66
    • 4.1.3 Spark SQL 处理数据的优势 67
    • 4.1.4 Spark SQL数据核心抽象——DataFrame 67
    • 4.2  SparkSQL编程入门示例 69
    • 4.2.1 程序主入口:SparkSession 69
    • 4.2.2 创建 DataFrame 70
    • 4.2.3 DataFrame基本操作 70
    • 4.2.4 执行SQL查询 72
    • 4.2.5 全局临时表 73
    • 4.2.6 Dataset 73
    • 4.2.7 将RDDs转化为DataFrame 75
    • 4.2.8 用户自定义函数 78
    • 第5章  Spark SQL的DataFrame操作大全 82
    • 5.1  由JSON文件生成所需的DataFrame对象 82
    • 5.2 DataFrame上的行动操作 84
    • 5.3 DataFrame上的转化操作 91
    • 5.3.1 where条件相关 92
    • 5.3.2 查询指定列 94
    • 5.3.3 思维开拓:Column的巧妙应用 99
    • 5.3.4 limit操作 102
    • 5.3.5 排序操作:order by和sort 103
    • 5.3.6 group by操作 106
    • 5.3.7 distinct、dropDuplicates去重操作 107
    • 5.3.8 聚合操作 109
    • 5.3.9 union合并操作 110
    • 5.3.10 join操作 111
    • 5.3.11 获取指定字段统计信息 114
    • 5.3.12 获取两个DataFrame中共有的记录 116
    • 5.3.13 获取一个DataFrame中有另一个DataFrame中没有的记录 116
    • 5.3.14 操作字段名 117
    • 5.3.15 处理空值列 118
    • 第6章  Spark SQL支持的多种数据源 121
    • 6.1  概述 121
    • 6.1.1 通用load/save 函数 121
    • 6.1.2 手动指定选项 123
    • 6.1.3 在文件上直接进行SQL查询 123
    • 6.1.4 存储模式 123
    • 6.1.5 持久化到表 124
    • 6.1.6 bucket、排序、分区操作 124
    • 6.2  典型结构化数据源 125
    • 6.2.1 Parquet 文件 125
    • 6.2.2 JSON 数据集 129
    • 6.2.3 Hive表 130
    • 6.2.4 其他数据库中的数据表 133
    • 第三部分  实践篇
    • 第7章  Spark SQL 工程实战之基于WiFi探针的商业大数据分析技术139
    • 7.1  功能需求 139
    • 7.1.1 数据收集 139
    • 7.1.2 数据清洗 140
    • 7.1.3 客流数据分析 141
    • 7.1.4 数据导出 142
    • 7.2  系统架构 142
    • 7.3  功能设计 143
    • 7.4  数据库结构 144
    • 7.5  本章小结 144
    • 第8章  第一个Spark SQL应用程序 145
    • 8.1  完全分布式环境搭建 145
    • 8.1.1 Java 环境配置 145
    • 8.1.2 Hadoop 安装配置 146
    • 8.1.3 Spark安装配置 149
    • 8.2  数据清洗 150
    • 8.3  数据处理流程 153
    • 8.4  Spark程序远程调试 164
    • 8.4.1 导出jar包 164
    • 8.4.2 IDEA配置 168
    • 8.4.3 服务端配置 170
    • 8.5 Spark的Web界面 171
    • 8.6  本章小结 172
    • 第四部分  优化篇
    • 第9章  让Spark程序再快一点 175
    • 9.1 Spark执行流程 175
    • 9.2 Spark内存简介 176
    • 9.3 Spark的一些概念 177
    • 9.4 Spark编程四大守则 178
    • 9.5 Spark调优七式 183
    • 9.6  解决数据倾斜问题 192
    • 9.7 Spark 执行引擎 Tungsten 简介 195
    • 9.8 Spark SQL解析引擎Catalyst 简介 197
    • 9.9  本章小结 200

    上一篇:Java从入门到项目实践  下一篇:人工智能的未来:揭示人类思维的奥秘

    展开 +

    收起 -

     
    Spark SQL 相关电子书
    关于Spark SQL的学习笔记
    网友NO.693321

    浅谈DataFrame和SparkSql取值误区

    1、DataFrame返回的不是对象。 2、DataFrame查出来的数据返回的是一个dataframe数据集。 3、DataFrame只有遇见Action的算子才能执行 4、SparkSql查出来的数据返回的是一个dataframe数据集。 原始数据 scala val parquetDF = sqlContext.read.parquet("hdfs://hadoop14:9000/yuhui/parquet/part-r-00004.gz.parquet")df: org.apache.spark.sql.DataFrame = [timestamp: string, appkey: string, app_version: string, channel: string, lang: string, os_type: string, os_version: string, display: string, device_type: string, mac: string, network: string, nettype: string, suuid: string, register_days: int, country: string, area: string, province: string, city: string, event: string, use_interval_cat: string, use_duration_cat: string, use_interval: bigint, use_duration: bigint, os_upgrade_from: string, app_upgrade_from: string, page_name: string, event_name: string, error_type: string] 代码 package DataFrameimport org.apache.spark.sql.SQLContextimport org.apache.spark.{SparkConf, SparkContext}/** * Created by yuhui on 2016/6/14. */object DataFrameTest { def main(args: Array[String]) { DataFrameInto() } def DataFrameInto() { val conf = new SparkConf() val sc = new SparkContext(conf) val sqlContext = new SQLContext(sc) val df = sqlContext.read.parquet("hdfs://hadoop14:9000/yuhui/parquet") //df.map(line = printinfo(line.getString(0))) //df.foreach(line = printinfo(line.getString(0)+" , "+line.getString(14)+" , "+line.getString(15))) //df.select("timestamp","……

    网友NO.769665

    Spark学习笔记之Spark SQL的具体使用

    1. Spark SQL是什么? 处理结构化数据的一个spark的模块 它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用 2. Spark SQL的特点 多语言的接口支持(java python scala) 统一的数据访问 完全兼容hive 支持标准的连接 3. 为什么学习SparkSQL? 我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduce的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。所有Spark SQL的应运而生,它是将Spark SQL转换成RDD,然后提交到集群执行,执行效率非常快! 4. DataFrame(数据框) 与RDD类似,DataFrame也是一个分布式数据容器 然而DataFrame更像传统数据库的二维表格,除了数据以外,还记录数据的结构信息,即schema DataFrame其实就是带有schema信息的RDD 5. SparkSQL1.x的API编程 dependency groupIdorg.apache.spark/groupId artifactIdspark-sql_2.11/artifactId version${spark.version}/version/dependency 5.1 使用sqlContext创建DataFrame(测试用) object Ops3 { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("Ops3").setMaster("local[3]") val sc = new SparkContext(conf) val sqlContext = new SQLContext(sc) val rdd1 = sc.parallelize(List(Person("admin1", 14, "man"),Person("admin2", 16, "man"),Person("admin3", 18, "man"))) val df1: DataFrame = sqlContext.createDataFrame(rdd1) df1.show(1) }}case class Person(name: String, age: Int,……

    网友NO.342871

    pyspark.sql.DataFrame与pandas.DataFrame之间的相互转换实例

    代码如下,步骤流程在代码注释中可见: # -*- coding: utf-8 -*-import pandas as pdfrom pyspark.sql import SparkSessionfrom pyspark.sql import SQLContextfrom pyspark import SparkContext #初始化数据 #初始化pandas DataFramedf = pd.DataFrame([[1, 2, 3], [4, 5, 6]], index=['row1', 'row2'], columns=['c1', 'c2', 'c3']) #打印数据print df #初始化spark DataFramesc = SparkContext()if __name__ == "__main__": spark = SparkSession\ .builder\ .appName("testDataFrame")\ .getOrCreate() sentenceData = spark.createDataFrame([ (0.0, "I like Spark"), (1.0, "Pandas is useful"), (2.0, "They are coded by Python ")], ["label", "sentence"]) #显示数据sentenceData.select("label").show() #spark.DataFrame 转换成 pandas.DataFramesqlContest = SQLContext(sc)spark_df = sqlContest.createDataFrame(df) #显示数据spark_df.select("c1").show() # pandas.DataFrame 转换成 spark.DataFramepandas_df = sentenceData.toPandas() #打印数据print pandas_df 程序结果: 以上这篇pyspark.sql.DataFrame与pandas.DataFrame之间的相互转换实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持码农之家。 ……

    网友NO.230738

    DataFrame:通过SparkSql将scala类转为DataFrame的方法

    如下所示: import java.text.DecimalFormatimport com.alibaba.fastjson.JSONimport com.donews.data.AppConfigimport com.typesafe.config.ConfigFactoryimport org.apache.spark.sql.types.{StructField, StructType}import org.apache.spark.sql.{Row, SaveMode, DataFrame, SQLContext}import org.apache.spark.{SparkConf, SparkContext}import org.slf4j.LoggerFactory /** * Created by silentwolf on 2016/6/3. */ case class UserTag(SUUID: String, MAN: Float, WOMAN: Float, AGE10_19: Float, AGE20_29: Float, AGE30_39: Float, AGE40_49: Float, AGE50_59: Float, GAME: Float, MOVIE: Float, MUSIC: Float, ART: Float, POLITICS_NEWS: Float, FINANCIAL: Float, EDUCATION_TRAINING: Float, HEALTH_CARE: Float, TRAVEL: Float, AUTOMOBILE: Float, HOUSE_PROPERTY: Float, CLOTHING_ACCESSORIES: Float, BEAUTY: Float, IT: Float, BABY_PRODUCT: Float, FOOD_SERVICE: Float, HOME_FURNISHING: Float, SPORTS: Float, OUTDOOR_ACTIVITIES: Float, MEDICINE: Float ) object UserTagTable { val LOG = LoggerFactory.getLogger(UserOverviewFirst.getClass) val REP_HOME = s"${AppConfig.HDFS_MASTER}/${AppConfig.HDFS_REP}" def main(args: Array[String]) { var startTime = System.currentTimeMillis() val conf: com.typesafe.config.Config = ConfigFactory.load() val sc = new SparkContext() val sqlContext = new SQLContext(sc) var df1: DataFrame = null if (args.length == 0) { println("请输入: appkey , StartTime : 2016-04-10 ,StartEnd :2016-04-11") } else { var appkey = args(0) var lastdate = args(1) df1 = loadDataFrame(sqlContext, appkey, "20……

    Copyright 2018-2020 xz577.com 码农之家

    电子书资源由网友、会员提供上传,本站记录提供者的基本信息及资源来路

    鸣谢: “ 码小辫 ” 公众号提供回调API服务、“ 脚本CDN ”提供网站加速(本站寻求更多赞助支持)

    版权投诉 / 书籍推广 / 赞助:520161757@qq.com

    上传资源(网友、会员均可提供)

    查看最新会员资料及资源信息