Spark快速数据处理 PDF 清晰版

  • 更新时间:
  • 6454人关注
  • 点击下载

给大家带来的一篇关于Spark相关的电子书资源,介绍了关于Spark、数据处理方面的内容,本书是由机械工业出版社出版,格式为PDF,资源大小11.71MB,凯洛编写,目前豆瓣、亚马逊、当当、京东等电子书综合评分为:8.4分

资源详情相关推荐
Spark快速数据处理
  • 出版社:机械工业出版社
  • 作者:凯洛
  • 大小:11.71MB
  • 类别:Spark
  • 热度:647
  • spark学习详细教程
  • 企业大数据处理:Spark、Druid、Flume与Kafka应用实践
  • 深度实践Spark机器学习
  • Spark最佳实践
  • Spark SQL内核剖析
  • Spark是一个开源的通用并行分布式计算框架,由加州大学伯克利分校的AMP实验室开发,支持内存计算、多迭代批量处理、即席查询、流处理和图计算等多种范式。Spark内存计算框架适合各种迭代算法和交互式数据分析,能够提升大数据处理的实时性和准确性,现已逐渐获得很多企业的支持,如阿里巴巴、百度、网易、英特尔等公司。

    《Spark快速数据处理》系统讲解Spark的使用方法,包括如何在多种机器上安装Spark,如何配置一个Spark集群,如何在交互模式下运行第一个Spark作业,如何在Spark集群上构建一个生产级的脱机/独立作业,如何与Spark集群建立连接和使用SparkContext,如何创建和保存RDD(弹性分布式数据集),如何用Spark分布式处理数据,如何设置Shark,将Hive查询集成到你的Spark作业中来,如何测试Spark作业,以及如何提升Spark任务的性能。

    目录

    • 译者序
    • 作者简介
    • 前言
    • 第1章安装Spark以及构建Spark集群 / 1
    • 1.1单机运行Spark / 4
    • 1.2在EC2上运行Spark / 5
    • 1.3在ElasticMapReduce上部署Spark / 11
    • 1.4用Chef(opscode)部署Spark / 12
    • 1.5在Mesos上部署Spark / 14
    • 1.6在Yarn上部署Spark / 15
    • 1.7通过SSH部署集群 / 16
    • 1.8链接和参考 / 21
    • 1.9小结 / 21
    • 第2章Spark shell的使用 / 23
    • 2.1加载一个简单的text文件 / 24
    • 2.2用Spark shell运行逻辑回归 / 26
    • 2.3交互式地从S3加载数据 / 28
    • 2.4小结 / 30
    • 第3章构建并运行Spark应用 / 31
    • 3.1用sbt构建Spark作业 / 32
    • 3.2用Maven构建Spark作业 / 36
    • 3.3用其他工具构建Spark作业 / 39
    • 3.4小结 / 39
    • 第4章创建SparkContext / 41
    • 4.1Scala / 43
    • 4.2Java / 43
    • 4.3Java和Scala共享的API / 44
    • 4.4Python / 45
    • 4.5链接和参考 / 45
    • 4.6小结 / 46
    • 第5章加载与保存数据 / 47
    • 5.1RDD / 48
    • 5.2加载数据到RDD中 / 49
    • 5.3保存数据 / 54
    • 5.4连接和参考 / 55
    • 5.5小结 / 55
    • 第6章操作RDD / 57
    • 6.1用Scala和Java操作RDD / 58
    • 6.2用Python操作RDD / 79
    • 6.3链接和参考 / 83
    • 6.4小结 / 84
    • 第7章Shark-Hive和Spark的综合运用 / 85
    • 7.1为什么用Hive/Shark / 86
    • 7.2安装Shark / 86
    • 7.3运行Shark / 88
    • 7.4加载数据 / 88
    • 7.5在Spark程序中运行HiveQL查询 / 89
    • 7.6链接和参考 / 92
    • 7.7小结 / 93
    • 第8章测试 / 95
    • 8.1用Java和Scala测试 / 96
    • 8.2用Python测试 / 103
    • 8.3链接和参考 / 104
    • 8.4小结 / 105
    • 第9章技巧和窍门 / 107
    • 9.1日志位置 / 108
    • 9.2并发限制 / 108
    • 9.3内存使用与垃圾回收 / 109
    • 9.4序列化 / 110
    • 9.5IDE集成环境 / 111
    • 9.6Spark与其他语言 / 112
    • 9.7安全提示 / 113
    • 9.8邮件列表 / 113
    • 9.9链接和参考 / 113
    • 9.10小结 / 114
       
    精选笔记:将string类型的数据类型转换为spark rdd时报错的解决方法

    20小时12分钟前回答

    在将string类型的数据类型转换为spark rdd时,一直报这个错,StructType can not accept object %r in type %s” % (obj, type(obj)))

    .
    .
    .
    s = str(tree)
    y = str(YESTERDAY)
    list0 = [s, y]
    outRes = self.sc.parallelize(list0)
    df_tree = outRes.toDF("model: string, dt: string").registerTempTable("temp")
    .
    .
    .

    查了半天的资料,问了不少同事都没能解决掉这个bug。最后终于google到一个类似的case,终于把问题解决。记录一下!

    .
    .
    .
    s = str(tree)
    y = str(YESTERDAY)
    list0 = [s, y]
    outRes = self.sc.parallelize([list0])
    df_tree = outRes.toDF("model: string, dt: string").registerTempTable("temp")
    .
    .
    .

    上面的问题办法是,将sc.parallelize([list0])中的list0再转成一个整体list,问题即可解决。

    总结

    以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对码农之家的支持。如果你想了解更多相关内容请查看下面相关链接

    展开阅读

    资源下载

    相关资源

    • spark案例与实验教程

      spark案例与实验教程

      由袁景凌、熊盛武、饶文碧主编的《Spark案例与实验教程/云计算与大数据实验教材系列》是一本大数据和分布式计算领域入门阶段的实验教材,结合实例介绍了Spark基本概念、开发环境、基础案

      大小:29.4 MBspark

      立即下载
    • Spark与Hadoop大数据分析

      Spark与Hadoop大数据分析

      这本书系统讲解了利用Hadoop和Spark及其生态系统里的一系列工具进行大数据分析的方法,配套详细的实现示例,是快速掌握大数据分析基础架构及其实施方法的详实参考

      大小:28.5 MB数据分析

      立即下载
    • Spark 2.2.x API 中文参考文档+Spark java developers

      Spark 2.2.x API 中文参考文档+Spark java developers

      Spark 2.2.x Doc API 中文参考文档, 本教程是对使用 Spark 的一个简单介绍。首先我们会通过 Spark 的交互式 shell 简单介绍一下 (Python 或 Scala) API,然后展示如何使用 Java、Scala 以及 Python 编写一个 Spark 应用程序。 Spark Shell 提供了一种简单的方式来学习 Spark API,同时它也是一个强大的交互式数据分析工具。Spark Shell 既支持 Scala(Scala 运行在 Java 虚拟机上,所以可以很方便

      大小:7.82 MBSpark

      立即下载
    • 图解Spark:核心技术与案例实战

      图解Spark:核心技术与案例实战

      图解Spark:核心技术与案例实战 以Spark 2.0 版本为基础进行编写,全面介绍了Spark 核心及其生态圈组件技术。主要内容包括Spark 生态圈、实战环境搭建、编程模型和内部重要模块的分析,重点介

      大小:67.5 MBSpark

      立即下载
    • Spark大数据分析实战

      Spark大数据分析实战

      本书首先从技术层面讲解了Spark的机制、生态系统与开发相关的内容;然后从应用角度讲解了日志分析、推荐系统、情感分析、协同过滤、搜索引擎、社交网络分析、新闻数据分析等多个常见的

      大小:31.9 MBSpark

      立即下载
    • Spark MLlib机器学习:算法、源码及实战详解

      Spark MLlib机器学习:算法、源码及实战详解

      《Spark MLlib机器学习:算法、源码及实战详解》以Spark 1.4.1版本源码为切入点,全面并且深入地解析Spark MLlib模块,着力于探索分布式机器学习的底层实现。 《Spark MLlib机器学习:算法、源码及

      大小:69.9 MB机器学习

      立即下载
    • Spark Streaming技术内幕及源码剖析

      Spark Streaming技术内幕及源码剖析

      本书以大数据处理引擎Spark的稳定版本1.6.x为基础,从应用案例、原理、源码、流程、调 优等多个角度剖析Spark上的实时计算框架Spark Streaming。在勾勒出Spark Streaming架构轮廓的 基础上,从基本源

      大小:204 MBSpark

      立即下载

    学习笔记

    8小时48分钟前回答

    SparkSQL读取hive数据本地idea运行的方法详解

    环境准备: hadoop版本:2.6.5 spark版本:2.3.0 hive版本:1.2.2 master主机:192.168.100.201 slave1主机:192.168.100.201 pom.xml依赖如下: xml version="1.0" encoding="UTF-8"project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd" modelVersion4.0.0/modelVersion groupIdcom.spark/groupId artifactIdspark_practice/artifactId version1.0-SNAPSHOT/version properties project.build.sourceEncodingUTF-8/project.build.sourceEncoding maven.compiler.source1.8/maven.compiler.source maven.compiler.target1.8/maven.compiler.target spark.core.version2.3.0/spark.core.version /properties dependencies dependency groupIdjunit/groupId artifactIdjuni……

    21小时21分钟前回答

    pyspark对Mysql数据库进行读写的实现

    pyspark是Spark对Python的api接口,可以在Python环境中通过调用pyspark模块来操作spark,完成大数据框架下的数据分析与挖掘。其中,数据的读写是基础操作,pyspark的子模块pyspark.sql 可以完成大部分类型的数据读写。文本介绍在pyspark中读写Mysql数据库。 1 软件版本 在Python中使用Spark,需要安装配置Spark,这里跳过配置的过程,给出运行环境和相关程序版本信息。 win10 64bit java 13.0.1 spark 3.0 python 3.8 pyspark 3.0 pycharm 2019.3.4 2 环境配置 pyspark连接Mysql是通过java实现的,所以需要下载连接Mysql的jar包。 下载地址 选择下载 Connector/J ,然后选择操作系统为 Platform Independent ,下载压缩包到本地。 然后解压文件,将其中的jar包……