PySpark实战指南

PySpark实战指南 PDF 完整清晰版

  • 大小:24.7 MB
  • 类型:PySpark
  • 格式:PDF
  • 出版:机械工业出版社
  • 作者:托马兹·卓巴斯
  • 更新:2023-01-22 23:13:09
vip 立即下载( 24.7 MB )
关注公众号免费下载
版权投诉 / 资源反馈(本资源由用户 金高飞 投稿)

给大家整理一篇PySpark相关的资料,由机械工业出版社出版,作者是托马兹·卓巴斯,介绍了关于PySpark、PySpark指南、PySpark实战方面,格式为PDF,资源大小24.7 MB,目前在PySpark类资源综合评分为:7.9分。

PySpark资源推荐

读者评价

网友NO.21178
毋俊豪
今天看了前三章,感觉内容过于简单,不翔实,没有期望的那么好,但是对于初学者,还是可以参考一下的。
网友NO.27056
廖玉石
这本书还得配合着python的书来一起看才行。讲道理还是有点薄的。工具书的价格跟厚度成正比。

书籍介绍

这本书还得配合着python的书来一起看才行。讲道理还是有点薄的。工具书的价格跟厚度成正比。

看过spark的书,但是不懂scala语言实践起来比较麻烦,有了pyspark对我们学习Python的人真是福音

做数据挖掘,Python已经成为无法回避的语言,要不然就是Matlab,但Python开源发展更快。

内容介绍

PySpark实战指南从Spark的基本特点出发,借助大量例子详细介绍了如何使用Python调用Spark新特性、处理结构化及非结构化数据、使用PySpark中基本可用数据类型、生成机器学习模型、进行图像操作以及阅读串流数据等新兴技术内容。

目录

  • 第1章 了解Spark
  • 第2章 弹性分布式数据集
  • 第3章 DataFrame
  • 第4章 准备数据建模
  • 第5章 MLlib介绍
  • 第6章 ML包介绍
  • 第7章 GraphFrames
  • 第8章 TensorFrames
  • 第9章 使用Blaze实现混合持久化
  • 第10章 结构化流
  • 第11章 打包Spark应用程序

以上就是本次关于书籍资源的介绍和部分内容,我们还整理了以往更新的其它相关电子书资源内容,可以在下方直接下载,关于相关的资源我们在下方做了关联展示,需要的朋友们也可以参考下。

PySpark相关资源

  • Arduino电子设计实战指南:零基础篇

    Arduino电子设计实战指南:零基础篇

    Arduino是一个任何人都可以快速上手使用的电子控制平台,可能在硬件工程师的眼中它仅仅是一个简单的8位机最小系统,但对于更多的没有硬件背景的人来说(特别是软件工程师),Arduino为他

    大小:29.3 MBArduino电子书

  • Linux KVM虚拟化架构实战指南

    Linux KVM虚拟化架构实战指南

    《Linux KVM虚拟化架构实战指南》 以红帽RHEV虚拟化架构为基础,分为11章,介绍如何使用开源KVM系统构建企业虚拟化应用平台。 《Linux KVM虚拟化架构实战指南》以实战为主,理论为辅助。通过搭

    大小:100 MBLinux电子书

  • 敏捷测试实战指南

    敏捷测试实战指南

    《 敏捷测试实战指南 》主要介绍敏捷测试的流程方法及技术实践过程。本书以当下主流的敏捷体系实践为蓝本,从用户故事地图开始逐步梳理迭代过程、构建迭代交付计划,为研发域构建持续集成和持续发布流水线,从而进行特性分支开发,进一步完成主流微服务架构代码编写及分层自动化体系构建,配套基于容器化的管理维护体系,*终完成整个交付生存周期的知识体系梳理。本书可让读者清晰、完整地了解整个敏捷测试流程下的端到端过程,从而拓

    大小:95 MB敏捷测试

  • Web攻防之业务安全实战指南

    Web攻防之业务安全实战指南

    本书讲解了常见的Web安全漏洞——业务安全漏洞,对常见业务安全漏洞进行梳理,总结出了全面、详细的适用于电商、银行、金融、证券、保险、游戏、社交、招聘等业务系统的测试理论、工具、方法及案例

    大小:46.6 MBWeb安全电子书

  • Hadoop+Spark生态系统操作与实战指南

    Hadoop+Spark生态系统操作与实战指南

    本书帮助读者快速上手Hadoop+Spark,全面解析Hadoop和Spark生态系统,通过实际操作,快速学习Hadoop+Spark大数据技术,使得读者了解当今互联网应用极为广泛的集群技术

    大小:114.9 MBHadoop电子书

  • Windows PowerShell 实战指南

    Windows PowerShell 实战指南

    大小:11 MBWindows电子书

资源下载

PySpark学习笔记

7小时28分钟前回答

pyspark操作MongoDB的方法步骤

如何导入数据 数据可能有各种格式,虽然常见的是HDFS,但是因为在Python爬虫中数据库用的比较多的是MongoDB,所以这里会重点说说如何用spark导入MongoDB中的数据。 当然,首先你需要在自己电脑上安装spark环境,简单说下,在这里下载spark,同时需要配置好JAVA,Scala环境。 这里建议使用Jupyter notebook,会比较方便,在环境变量中这样设置 PYSPARK_DRIVER_PYTHON=jupyter PYSPARK_DRIVER_PYTHON_OPTS=……

2小时1分钟前回答

PyCharm搭建Spark开发环境实现第一个pyspark程序

一, PyCharm搭建Spark开发环境 Windows7, Java1.8.0_74, Scala 2.12.6, Spark 2.2.1, Hadoop2.7.6 通常情况下,Spark开发是基于Linux集群的,但这里作为初学者并且囊中羞涩,还是在windows环境下先学习吧。 参照这个配置本地的Spark环境。 之后就是配置PyCharm用来开发Spark。本人在这里浪费了不少时间,因为百度出来的无非就以下两种方式: 1.在程序中设置环境变量 import osimport sysos.environ[SPARK_HOME] = C:\xx……

17小时25分钟前回答

pyspark.sql.DataFrame与pandas.DataFrame之间的相互转换实例

代码如下,步骤流程在代码注释中可见: # -*- coding: utf-8 -*-import pandas as pdfrom pyspark.sql import SparkSessionfrom pyspark.sql import SQLContextfrom pyspark import SparkContext #初始化数据 #初始化pandas DataFramedf = pd.DataFrame([[1, 2, 3], [4, 5, 6]], index=['row1', 'row2'], columns=['c1', 'c2', 'c3']) #打印数据print df #初始化spark DataFramesc = SparkContext()if __name__ == "__main__": spark = SparkSession\ .builder\ .appName("testDataFrame")\ .getOrCreat……