spark 电子书籍推荐

本专题中精选spark相关编程电子书籍推荐、电子文档资源及配套资源等内容,更多相关内容陆续增加,建议收藏本栏目,由网友邓茹雪整理汇总,本站整理包含spark的内容共计15个,剩余200个等待更新。

“spark”书籍列表

  • spark官方文档

    Apache Spark 是一个快速通用的集群计算系统,它提供了提供了java,scala,python和R的高级API,以及一个支持一般图计算的优化引擎。它同样也一系列丰富的高级工具包括:Spark sql 用于sql和结构化数据处理,MLlib用于机器学习,Graphx用于图数据处理,以及Spark Streaming用于流数据处理。 《spark官方文档》 对使用spark进行简单介绍。首先我们会通过spark的交互式 shell工具介绍Python和scalade API,然后展示如何通过java

    时间:2022-05-31

    详细内容
  • 《PySpark实战指南:利用Python和Spark构建数据密集型应用并规模化部署 》源码

    《PySpark实战指南:利用Python和Spark构建数据密集型应用并规模化部署 》源码

    本文从Spark的基本特点出发,借助大量例子详细介绍了关于使用Python调用Spark新特性的方法、处理结构化及非结构化数据的方法、使用PySpark中基本可用数据类型的方法、生成机器学习模型方法、进行图像操作以及阅读串流数据的方法等等新兴技术内容。 封面图 目录 译者序 序 前言 关于作者 第1章了解Spark1 1.1什么是Apache Spark1 1.2Spark作业和API2 1.2.1执行过程2 1.2.2弹性分布式数据集3 1.2.3DataFrame4 1.2.4Dataset5 1.2

    时间:2022-02-22

    详细内容
  • Spark快速大数据分析

    Spark快速大数据分析

    作者简介 Holden Karau是Databricks的软件开发工程师,活跃于开源社区。她还著有《Spark快速数据处理》。 Andy Konwinski是Databricks联合创始人,Apache Spark项目技术专家,还是Apache Mesos项目的联合发起人。 Patrick Wendell是Databricks联合创始人,也是Apache Spark项目技术专家。他还负责维护Spark核心引擎的几个子系统。 Matei Zaharia是Databricks的CTO,同时也是Apache S

    时间:2021-12-21

    详细内容
  • Spark大数据商业实战三部曲

    Spark大数据商业实战三部曲

    本书基于Spark 2.2.X,以Spark商业案例实战和Spark在生产环境下几乎所有类型的性能调优为核心,循序渐进地全面解析了Spark 2.2,完全全面,欢迎下载

    时间:2021-11-30

    详细内容
  • spark学习详细教程

    时间:2021-01-23

    详细内容
  • 深入理解Spark:核心思想与源码分析

    深入理解Spark:核心思想与源码分析

    时间:2020-07-07

    详细内容
  • 图解Spark:核心技术与案例实战

    图解Spark:核心技术与案例实战

    图解Spark:核心技术与案例实战 以Spark 2.0 版本为基础进行编写,全面介绍了Spark 核心及其生态圈组件技术。主要内容包括Spark 生态圈、实战环境搭建、编程模型和内部重要模块的分析,重点介

    时间:2019-11-23

    详细内容
  • Spark MLlib机器学习:算法、源码及实战详解

    <b>Spark MLlib机器学习:算法、源码及实战详解</b>

    《Spark MLlib机器学习:算法、源码及实战详解》以Spark 1.4.1版本源码为切入点,全面并且深入地解析Spark MLlib模块,着力于探索分布式机器学习的底层实现。 《Spark MLlib机器学习:算法、源码及

    时间:2019-10-13

    详细内容
  • Spark SQL入门与实践指南

    Spark SQL入门与实践指南

    时间:2019-09-24

    详细内容
  • 大数据Spark企业级实战

    大数据Spark企业级实战

    Spark是现如今互联网大数据行业最活跃性、最受欢迎、最高效率的互联网大数据通用性测算服务平台,是Apache手机软件慈善基金会下全部开源网站项目中几大*开源网站项目之首。 在OneStacktoru

    时间:2019-08-30

    详细内容
  • Spark与Hadoop大数据分析

    Spark与Hadoop大数据分析

    这本书系统讲解了利用Hadoop和Spark及其生态系统里的一系列工具进行大数据分析的方法,配套详细的实现示例,是快速掌握大数据分析基础架构及其实施方法的详实参考

    时间:2019-04-23

    详细内容
  • 循序渐进学Spark

    循序渐进学Spark

    本书是引导读者深度学习Spark的技术指南,旨在用合理的结构和精炼的内容让读者用短的时间掌握Spark技术的核心内容,欢迎下载阅读

    时间:2019-04-17

    详细内容
  • 深度实践Spark机器学习

    <b>深度实践Spark机器学习</b>

    本书系统讲解Spark机器学习技术、原理、算法和组件,以及构建Spark机器学习系统的方法、流程、标准和规范,介绍了Spark的深度学习框架TensorFlowOnSpark,以及如何借助它实现卷积神经网络和循环神经网络

    时间:2019-04-10

    详细内容
  • Hadoop+Spark生态系统操作与实战指南

    Hadoop+Spark生态系统操作与实战指南

    本书帮助读者快速上手Hadoop+Spark,全面解析Hadoop和Spark生态系统,通过实际操作,快速学习Hadoop+Spark大数据技术,使得读者了解当今互联网应用极为广泛的集群技术

    时间:2019-03-29

    详细内容
  • 实时大数据分析

    实时大数据分析

    本书详细阐述了实时大数据分析的实现过程,主要包括大数据技术前景及分析平台,感兴趣的可以下载学习

    时间:2019-03-14

    详细内容

“spark”笔记推荐

详解IntelliJ IDEA创建spark项目的两种方式

逯高爽

Intellij是进行scala开发的一个非常好用的工具,可以非常轻松查看scala源码,当然用它来开发Java也是很爽的,之前一直在用scala ide和eclipse,现在换成intellij简直好用到飞起,但是有些人不知道怎么用intellij去创建一个spark项目,这里介绍两种 1、选择File-new Project-Java-Scala,这里scala版本是2.11.8 2 .之后一路点击next,直到finish,创建完的项目见下图,这时候已经可以创建scala文件了,接下来就可以添加spark相关的jar包了,从官网下载http://spark.apache.org/downloads.html,我这里用的是spark-2.2.1-bin-hadoop2.7,你可以根据自己需要选择相应的版本,下载完压缩包后解压 3 . 选择File-Project Structure-Libraries,点击+,选择Java,选择之……

pyspark 读取csv文件创建DataFrame的两种方法

翟远航

方法一:用pandas辅助 from pyspark import SparkContext from pyspark.sql import SQLContext import pandas as pd sc = SparkContext()sqlContext=SQLContext(sc) df=pd.read_csv(r'game-clicks.csv') sdf=sqlc.createDataFrame(df) 方法二:纯spark from pyspark import SparkContext from pyspark.sql import SQLContextsc = SparkContext()sqlContext = SQLContext(sc)sqlContext.read.format('com.databricks.spark.csv').options(header='true', inferschema='true').load('game-clicks.csv') 以上这篇pyspark 读取csv文件创建DataFrame的两种方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持码农之家。 ……

pycharm编写spark程序,导入pyspark包的3中实现方法

能天佑

一种方法: File -- Default Setting -- 选中Project Interpreter中的一个python版本--点击右边锯齿形图标(设置)--选择more--选择刚才选中的那个python版本--点击最下方编辑(也就是增加到这个python版本下)--点击➕--选中spark安装目录下的python目录--一路OK。 再次在python文件中写入如下 from pyspark import SparkConf 如果上一种不管用,则采用下一种。 With PySpark package (Spark 2.2.0 and later) 另一种操作方法: 1.Go to File - Settings - Project Interpreter 2.Click on install button and search for PySpark 第三种方法(需要先下载spark安装包): 下载spark安装包,将spark主目录中python目录中的pyspark目录拷贝到 /Library/Frameworks/Python.framework/Versions/3.5/lib/python3.5/sit……

pyspark操作MongoDB的方法步骤

彭俊美

如何导入数据 数据可能有各种格式,虽然常见的是HDFS,但是因为在Python爬虫中数据库用的比较多的是MongoDB,所以这里会重点说说如何用spark导入MongoDB中的数据。 当然,首先你需要在自己电脑上安装spark环境,简单说下,在这里下载spark,同时需要配置好JAVA,Scala环境。 这里建议使用Jupyter notebook,会比较方便,在环境变量中这样设置 PYSPARK_DRIVER_PYTHON=jupyter PYSPARK_DRIVER_PYTHON_OPTS=notebook ./bin/pyspark 如果你的环境中有多个Python版本,同样可以制定你想要使用的解释器,我这里是python36,根据需求修改。 PYSPARK_PYTHON=/usr/bin/python36 pyspark对mongo数据库的基本操作 (• . •) 有几点需要注意的: 不要安装最新的……

Spark随机森林实现票房预测

靳嘉运

前言 最近一段时间都在处理电影领域的数据, 而电影票房预测是电影领域数据建模中的一个重要模块, 所以我们针对电影数据做了票房预测建模. 前期工作 一开始的做法是将这个问题看待成回归的问题, 采用GBDT回归树去做. 训练了不同残差的回归树, 然后做集成学习. 考虑的影响因子分别有电影的类型, 豆瓣评分, 导演的 影响力, 演员的影响力, 电影的出品公司. 不过预测的结果并不是那么理想, 准确率为真实值的0.3+/-区间情况下的80%, 且波动性较大, 不容易解析. 后期的改进 总结之前的失败经验, 主要归纳了以下几点: 1.影响因子不够多, 难以建模 2.票房成绩的区间较大(一百万到10亿不等),分布不均匀, 大多数……