当前位置:首页 > 程序设计 >
《Spark SQL入门与实践指南》电子书封面

Spark SQL入门与实践指南

  • 发布时间:2019年09月24日 14:27:08
  • 作者:纪涵、靖晓文、赵
  • 大小:31.8 MB
  • 类别:Spark SQL电子书
  • 格式:PDF
  • 版本:超清完整版
  • 评分:8.7

    Spark SQL入门与实践指南 PDF 超清完整版

      给大家带来的一篇关于Spark SQL相关的电子书资源,介绍了关于Spark、SQL、入门、实践、指南方面的内容,本书是由清华大学出版社出版,格式为PDF,资源大小31.8 MB,纪涵、靖晓文、赵编写,目前豆瓣、亚马逊、当当、京东等电子书综合评分为:8.9。

      内容介绍

      Spark SQL入门与实践指南 pdf

      (1)解读Spark SQL背景图专业知识、代码

      (2)根据1个工程项目案例让用户领略到Spark SQL强劲简单的逻辑思维能力

      (3)学习培训搭建1个互联网大数据具体运用的方式,提升工程项目逻辑思维

      (4)洞察Spark的调优方法以及观念,让Spark SQL程序流程高效率运作 

      Spark SQL是 Spark互联网大数据架构的部分,适用应用规范SQL查寻和HiveQL来读写能力统计数据,可用以结构化数据解决,并能够实行相近SQL的Spark数据统计,有利于开发者迅速地建立和运作Spark程序流程。本书分成4篇,共9章,*篇解读了Spark SQL 发展趋势历史时间和开发工具构建。第二篇解读了Spark SQL 案例,促使用户把握Spark SQL的新手入门实际操作,掌握Spark RDD、DataFrame和DataSet,并了解 DataFrame 各种各样实际操作。第三篇解读了根据WiFi电极的商业服务数据分析新项目,案例中包括数据收集、预备处理、储存、运用Spark SQL 发掘统计数据,一步步领着用户学习培训Spark SQL强劲的大数据挖掘作用。第四篇解读了Spark SQL 提升的专业知识。这书合适Spark新手、Spark数据统计分析工作人员及其Spark软件开发工作人员,也合适高等院校和培训机构有关技术专业的老师学生课堂教学参照。

      目录

      • 第一部分  入门篇
      • 第1章  初识Spark SQL 3
      • 1.1 Spark SQL的前世今生 3
      • 1.2 Spark SQL能做什么 4
      • 第2章  Spark安装、编程环境搭建以及打包提交 6
      • 2.1 Spark的简易安装 6
      • 2.2  准备编写Spark应用程序的IDEA环境 10
      • 2.3  将编写好的Spark应用程序打包成jar提交到Spark上 18
      • 第二部分  基础篇
      • 第3章  Spark上的RDD编程 23
      • 3.1 RDD基础 24
      • 3.1.1 创建RDD 24
      • 3.1.2 RDD转化操作、行动操作 24
      • 3.1.3 惰性求值 25
      • 3.1.4 RDD缓存概述 26
      • 3.1.5 RDD基本编程步骤 26
      • 3.2 RDD简单实例—wordcount 27
      • 3.3  创建RDD 28
      • 3.3.1 程序内部数据作为数据源 28
      • 3.3.2 外部数据源 29
      • 3.4 RDD操作 33
      • 3.4.1 转化操作 34
      • 3.4.2 行动操作 37
      • 3.4.3 惰性求值 38
      • 3.5  向Spark传递函数 39
      • 3.5.1 传入匿名函数 39
      • 3.5.2 传入静态方法和传入方法的引用 40
      • 3.5.3 闭包的理解 41
      • 3.5.4 关于向Spark传递函数与闭包的总结 42
      • 3.6  常见的转化操作和行动操作42
      • 3.6.1 基本RDD转化操作 43
      • 3.6.2 基本RDD行动操作 48
      • 3.6.3 键值对RDD 52
      • 3.6.4 不同类型RDD之间的转换 56
      • 3.7  深入理解RDD 57
      • 3.8 RDD 缓存、持久化 59
      • 3.8.1 RDD缓存 59
      • 3.8.2 RDD持久化 61
      • 3.8.3 持久化存储等级选取策略 63
      • 3.9 RDD checkpoint容错机制 64
      • 第4章  Spark SQL编程入门 66
      • 4.1 Spark SQL概述 66
      • 4.1.1 Spark SQL是什么 66
      • 4.1.2 Spark SQL通过什么来实现 66
      • 4.1.3 Spark SQL 处理数据的优势 67
      • 4.1.4 Spark SQL数据核心抽象——DataFrame 67
      • 4.2  SparkSQL编程入门示例 69
      • 4.2.1 程序主入口:SparkSession 69
      • 4.2.2 创建 DataFrame 70
      • 4.2.3 DataFrame基本操作 70
      • 4.2.4 执行SQL查询 72
      • 4.2.5 全局临时表 73
      • 4.2.6 Dataset 73
      • 4.2.7 将RDDs转化为DataFrame 75
      • 4.2.8 用户自定义函数 78
      • 第5章  Spark SQL的DataFrame操作大全 82
      • 5.1  由JSON文件生成所需的DataFrame对象 82
      • 5.2 DataFrame上的行动操作 84
      • 5.3 DataFrame上的转化操作 91
      • 5.3.1 where条件相关 92
      • 5.3.2 查询指定列 94
      • 5.3.3 思维开拓:Column的巧妙应用 99
      • 5.3.4 limit操作 102
      • 5.3.5 排序操作:order by和sort 103
      • 5.3.6 group by操作 106
      • 5.3.7 distinct、dropDuplicates去重操作 107
      • 5.3.8 聚合操作 109
      • 5.3.9 union合并操作 110
      • 5.3.10 join操作 111
      • 5.3.11 获取指定字段统计信息 114
      • 5.3.12 获取两个DataFrame中共有的记录 116
      • 5.3.13 获取一个DataFrame中有另一个DataFrame中没有的记录 116
      • 5.3.14 操作字段名 117
      • 5.3.15 处理空值列 118
      • 第6章  Spark SQL支持的多种数据源 121
      • 6.1  概述 121
      • 6.1.1 通用load/save 函数 121
      • 6.1.2 手动指定选项 123
      • 6.1.3 在文件上直接进行SQL查询 123
      • 6.1.4 存储模式 123
      • 6.1.5 持久化到表 124
      • 6.1.6 bucket、排序、分区操作 124
      • 6.2  典型结构化数据源 125
      • 6.2.1 Parquet 文件 125
      • 6.2.2 JSON 数据集 129
      • 6.2.3 Hive表 130
      • 6.2.4 其他数据库中的数据表 133
      • 第三部分  实践篇
      • 第7章  Spark SQL 工程实战之基于WiFi探针的商业大数据分析技术139
      • 7.1  功能需求 139
      • 7.1.1 数据收集 139
      • 7.1.2 数据清洗 140
      • 7.1.3 客流数据分析 141
      • 7.1.4 数据导出 142
      • 7.2  系统架构 142
      • 7.3  功能设计 143
      • 7.4  数据库结构 144
      • 7.5  本章小结 144
      • 第8章  第一个Spark SQL应用程序 145
      • 8.1  完全分布式环境搭建 145
      • 8.1.1 Java 环境配置 145
      • 8.1.2 Hadoop 安装配置 146
      • 8.1.3 Spark安装配置 149
      • 8.2  数据清洗 150
      • 8.3  数据处理流程 153
      • 8.4  Spark程序远程调试 164
      • 8.4.1 导出jar包 164
      • 8.4.2 IDEA配置 168
      • 8.4.3 服务端配置 170
      • 8.5 Spark的Web界面 171
      • 8.6  本章小结 172
      • 第四部分  优化篇
      • 第9章  让Spark程序再快一点 175
      • 9.1 Spark执行流程 175
      • 9.2 Spark内存简介 176
      • 9.3 Spark的一些概念 177
      • 9.4 Spark编程四大守则 178
      • 9.5 Spark调优七式 183
      • 9.6  解决数据倾斜问题 192
      • 9.7 Spark 执行引擎 Tungsten 简介 195
      • 9.8 Spark SQL解析引擎Catalyst 简介 197
      • 9.9  本章小结 200

      学习笔记

      浅谈DataFrame和SparkSql取值误区

      1、DataFrame返回的不是对象。 2、DataFrame查出来的数据返回的是一个dataframe数据集。 3、DataFrame只有遇见Action的算子才能执行 4、SparkSql查出来的数据返回的是一个dataframe数据集。 原始数据 scala val parquetDF = sqlContext.read.parquet("hdfs://hadoop14:9000/yuhui/parquet/part-r-00004.gz.parquet")df: org.apache.spark.sql.DataFrame = [timestamp: string, appkey: string, app_version: string, channel: string, lang: string, os_type: string, os_version: string, display: string, device_type: string, mac: string, network: string, nettype: string, suuid: string, register_days: int, country: string, area: string, province: string, city: string, event: string, use_interval_cat: string, use_duration_cat: string, use_interval: bigint, use_duration: ……

      Spark学习笔记之Spark SQL的具体使用

      1. Spark SQL是什么? 处理结构化数据的一个spark的模块 它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用 2. Spark SQL的特点 多语言的接口支持(java python scala) 统一的数据访问 完全兼容hive 支持标准的连接 3. 为什么学习SparkSQL? 我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduce的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。所有Spark SQL的应运而生,它是将Spark SQL转换成RDD,然后提交到集群执行,执行效率非常快! 4. DataFrame(数据框) 与RDD类似,DataFrame也是一个分布式数据容器 然而DataFrame更像传统数据库的二维表格,除了数据以外,还……

      pyspark.sql.DataFrame与pandas.DataFrame之间的相互转换实例

      代码如下,步骤流程在代码注释中可见: # -*- coding: utf-8 -*-import pandas as pdfrom pyspark.sql import SparkSessionfrom pyspark.sql import SQLContextfrom pyspark import SparkContext #初始化数据 #初始化pandas DataFramedf = pd.DataFrame([[1, 2, 3], [4, 5, 6]], index=['row1', 'row2'], columns=['c1', 'c2', 'c3']) #打印数据print df #初始化spark DataFramesc = SparkContext()if __name__ == "__main__": spark = SparkSession\ .builder\ .appName("testDataFrame")\ .getOrCreate() sentenceData = spark.createDataFrame([ (0.0, "I like Spark"), (1.0, "Pandas is useful"), (2.0, "They are coded by Python ")], ["label", "sentence"]) #显示数据sentenceData.select("label").show() #spark.DataFrame 转换成 pandas.DataFramesqlContest = SQLContext(sc)spark_df = sqlContest.create……

      DataFrame:通过SparkSql将scala类转为DataFrame的方法

      如下所示: import java.text.DecimalFormatimport com.alibaba.fastjson.JSONimport com.donews.data.AppConfigimport com.typesafe.config.ConfigFactoryimport org.apache.spark.sql.types.{StructField, StructType}import org.apache.spark.sql.{Row, SaveMode, DataFrame, SQLContext}import org.apache.spark.{SparkConf, SparkContext}import org.slf4j.LoggerFactory /** * Created by silentwolf on 2016/6/3. */ case class UserTag(SUUID: String, MAN: Float, WOMAN: Float, AGE10_19: Float, AGE20_29: Float, AGE30_39: Float, AGE40_49: Float, AGE50_59: Float, GAME: Float, MOVIE: Float, MUSIC: Float, ART: Float, POLITICS_NEWS: Float, FINANCIAL: Float, EDUCATION_TRAINING: Float, HEALTH_CARE: Float, TRAVEL: Float, AUTOMOBILE: Float, HOUSE_PROPERTY: Float, CLOTHING_ACCESSORIES: Float, BEAUTY: Float, IT: Float, BABY……

      以上就是本次介绍的Spark SQL电子书的全部相关内容,希望我们整理的资源能够帮助到大家,感谢大家对码农之家的支持。

      上一篇:Java从入门到项目实践

      下一篇:人工智能的未来:揭示人类思维的奥秘

      展开 +

      收起 -

      • 《Spark SQL入门与实践指南》PDF下载

      下载地址:百度网盘下载
      Spark SQL相关电子书
      循序渐进学Spark
      循序渐进学Spark 原书影印版

      本书是引导读者深度学习Spark的技术指南,旨在用合理的结构和精炼的内容让读者用短的时间掌握Spark技术的核心内容,欢迎下载阅读

      立即下载
      Spark与Hadoop大数据分析
      Spark与Hadoop大数据分析 超清影印版

      这本书系统讲解了利用Hadoop和Spark及其生态系统里的一系列工具进行大数据分析的方法,配套详细的实现示例,是快速掌握大数据分析基础架构及其实施方法的详实参考

      立即下载
      Spark机器学习
      Spark机器学习 原书第2版

      spark机器学习入门与进阶实战 Spark项目管理委员会成员作品 注重技术实践 通过大量实例演示如何创建有用的机器学习系统

      立即下载
      大数据Spark企业级实战
      大数据Spark企业级实战 完整影印版

      Spark是现如今互联网大数据行业最活跃性、最受欢迎、最高效率的互联网大数据通用性测算服务平台,是Apache手机软件慈善基金会下全部开源网站项目中几大*开源网站项目之首。 在OneStacktoru

      立即下载
      Python+Spark2.0+Hadoop机器学习与大数据实战
      Python+Spark2.0+Hadoop机器学习与大数据实战 原书扫描版

      本书从浅显易懂的“大数据和机器学习”原理说明入手,讲述大数据和机器学习的基本概念,浅显易懂的原理介绍加上Step by Step 实机操作、范例程序详细解说,实现降低机器学习与大数据技术

      立即下载
      Spark内核设计的艺术:架构设计与实现
      Spark内核设计的艺术:架构设计与实现 高清影印版

      细化到方法级,提炼出多个流程图,立体呈现Spark 2.1.0架构与实现精髓,包含架构、环境、调度、存储、计算、部署、API七大核心设计,想要学习Scala、Spark语言的开发人员

      立即下载
      Spark大数据商业实战三部曲
      Spark大数据商业实战三部曲 超清扫描版

      本书基于Spark 2.2.X,以Spark商业案例实战和Spark在生产环境下几乎所有类型的性能调优为核心,循序渐进地全面解析了Spark 2.2,完全全面,欢迎下载

      立即下载
      读者留言
      3315211

      3315211 提供上传

      资源
      14
      粉丝
      42
      喜欢
      322
      评论
      10

      Copyright 2018-2020 www.xz577.com 码农之家

      投诉 / 推广 / 赞助:QQ:520161757