当前位置:首页 > 电子书 > 电子书下载 > 人工智能 >
Spark MLlib机器学习实践 Spark MLlib机器学习实践
abc98969

abc98969 提供上传

资源
13
粉丝
5
喜欢
182
评论
8

    Spark MLlib机器学习实践 PDF 完整第2版

    Spark电子书
    • 发布时间:2019-10-26 09:02:59

    给大家带来的一篇关于Spark相关的电子书资源,介绍了关于机器学习、MLlib、Spark方面的内容,本书是由清华大学出版社出版,格式为PDF,资源大小16.8 MB,王晓华编写,目前豆瓣、亚马逊、当当、京东等电子书综合评分为:9.1。

  • Spark MLlib机器学习实践 PDF 下载
  • 下载地址:https://pan.baidu.com/s/13EKdQN_D53RfV10Yj0WFl
  • 提取码:f241
  • Spark MLlib机器学习实践 第二版 PDF

    Spark作为新兴的、应用范围最为广泛的大数据处理开源框架引起了广泛的关注,它吸引了大量程序设计和开发人员进行相关内容的学习与开发,其中MLlib是Spark框架使用的核心。Spark MLlib机器学习实践(第2版) 是一本细致介绍Spark MLlib程序设计的图书,入门简单,示例丰富。

    本书分为13章,从Spark基础安装和配置开始,依次介绍MLlib程序设计基础、MLlib的数据对象构建、MLlib中RDD使用介绍,各种分类、聚类、回归等数据处理方法,最后还通过一个完整的实例,回顾了前面的学习内容,并通过代码实现了一个完整的分析过程。

    本书理论内容由浅而深,采取实例和理论相结合的方式,讲解细致直观,适合Spark MLlib初学者、大数据分析和挖掘人员,也适合高校和培训学习相关专业的师生教学参考。

    目录

    • 第1章 星星之火 1第2章 Spark安装和开发环境配置 7
    • 第3章 RDD详解 35
    • 第4章 MLlib基本概念 54
    • 第5章 协同过滤算法 72
    • 第6章 MLlib线性回归理论与实战 86
    • 第7章 MLlib分类实战 98
    • 第8章 决策树与保序回归 118
    • 第9章 MLlib中聚类详解 130
    • 第10章 MLlib中关联规则 141
    • 第11章 数据降维 150
    • 第12章 特征提取和转换 157
    • 第13章 MLlib实战演练——鸢尾花分析166

    上一篇:Unity着色器和屏幕特效开发秘笈

    下一篇:征信与大数据

    展开 +

    收起 -

     
    Spark 相关内容
    Python+Spark2.0+Hadoop机器学习与大数据实战
    Python+Spark2.0+Hadoop机器学习与大数据实战 原书扫描版

    本书从浅显易懂的“大数据和机器学习”原理说明入手,讲述大数据和机器学习的基本概念,浅显易懂的原理介绍加上Step by Step 实机操作、范例程序详细解说,实现降低机器学习与大数据技术

    立即下载
    Spark技术内幕:深入解析Spark内核架构设计与实现原理
    Spark技术内幕:深入解析Spark内核架构设计与实现原理 高清版

    Spark是不断壮大的大数据分析解决方案家族中备受关注的新增成员。它不仅为分布式数据集的处理提供一个有效框架,而且以高效的方式处理分布式数据集。它支持实时处理、流处理和批处理,

    立即下载
    基于Hadoop与Spark的大数据开发实战
    基于Hadoop与Spark的大数据开发实战 原书影印版

    1、选取知识点核心实用,以互联网 实现终身学习 2、以企业需求为设计导向,以任务驱动为讲解方式 3、以案例为主线组织知识点,以实战项目来提升技术 4、充分考虑学习者的认知曲线,由浅入深,边讲边练

    立即下载
    Spark SQL入门与实践指南
    Spark SQL入门与实践指南 超清完整版 立即下载
    Spark大数据商业实战三部曲
    Spark大数据商业实战三部曲 超清扫描版

    本书基于Spark 2.2.X,以Spark商业案例实战和Spark在生产环境下几乎所有类型的性能调优为核心,循序渐进地全面解析了Spark 2.2,完全全面,欢迎下载

    立即下载
    Hadoop+Spark生态系统操作与实战指南
    Hadoop+Spark生态系统操作与实战指南 原书影印版

    本书帮助读者快速上手Hadoop+Spark,全面解析Hadoop和Spark生态系统,通过实际操作,快速学习Hadoop+Spark大数据技术,使得读者了解当今互联网应用极为广泛的集群技术

    立即下载
    Spark与Hadoop大数据分析
    Spark与Hadoop大数据分析 超清影印版

    这本书系统讲解了利用Hadoop和Spark及其生态系统里的一系列工具进行大数据分析的方法,配套详细的实现示例,是快速掌握大数据分析基础架构及其实施方法的详实参考

    立即下载
    学习笔记
    网友NO.692673

    Spark操作之aggregate、aggregateByKey详解

    1. aggregate函数 将每个分区里面的元素进行聚合,然后用combine函数将每个分区的结果和初始值(zeroValue)进行combine操作。这个函数最终返回的类型不需要和RDD中元素类型一致。 seqOp操作会聚合各分区中的元素,然后combOp操作把所有分区的聚合结果再次聚合,两个操作的初始值都是zeroValue. seqOp的操作是遍历分区中的所有元素(T),第一个T跟zeroValue做操作,结果再作为与第二个T做操作的zeroValue,直到遍历完整个分区。combOp操作是把各分区聚合的结果,再聚合。aggregate函数返回一个跟RDD不同类型的值。因此,需要一个操作seqOp来把分区中的元素T合并成一个U,另外一个操作combOp把所有U聚合。 例子程序: scala val rdd = List(1,2,3,4,5,6,7,8,9)rdd: List[Int] = List(1, 2, 3, 4, 5, 6, 7, 8, 9)scala rdd.par.aggregate((0,0))((acc,number) = (acc._1 + number, acc._2 + 1),(par1,par2) = (par1._1 + par2._1, par1._2 + par2._2))res0: (Int, Int) = (45,9)scala res0._1 / res0._2res1: Int = 5 过程大概这样: 首先,初始值是(0,0),这个值在后面2步会用到。 然后,(acc,number) = (acc._1 + number, acc._2 + 1),number即是函数定义中的T,这里即是List中的元素。所以acc._1 + number,acc._2 + 1的过程如下。 1. 0+1, 0+1 2. 1+2, 1+1 3. 3+3, 2+1 4. 6+4, 3+1 5. 10+5, 4+1 6. 15+6, 5+1 7. 21+7, 6+1 8. 28+8, 7+1 9. 36+9, 8+1 结果即是(45,9)。这里演示的是单线程计算过程,……

    网友NO.217580

    PyCharm搭建Spark开发环境实现第一个pyspark程序

    一, PyCharm搭建Spark开发环境 Windows7, Java1.8.0_74, Scala 2.12.6, Spark 2.2.1, Hadoop2.7.6 通常情况下,Spark开发是基于Linux集群的,但这里作为初学者并且囊中羞涩,还是在windows环境下先学习吧。 参照这个配置本地的Spark环境。 之后就是配置PyCharm用来开发Spark。本人在这里浪费了不少时间,因为百度出来的无非就以下两种方式: 1.在程序中设置环境变量 import osimport sysos.environ['SPARK_HOME'] = 'C:\xxx\spark-2.2.1-bin-hadoop2.7'sys.path.append('C:\xxx\spark-2.2.1-bin-hadoop2.7\python') 2.在Edit Configuration中添加环境变量 不过还是没有解决程序中代码自动补全。 想了半天,观察到spark提供的pyspark很像单独的安装包,应该可以考虑将pyspark包放到python的安装目录下,这样也就自动添加到之前所设置的pythonpath里了,应该就能实现pyspark的代码补全提示。 将spark下的pyspark包放到python路径下(注意,不是spark下的python!) 最后,实现了pyspark代码补全功能。 二.第一个pyspark程序 作为小白,只能先简单用下python+pyspark了。 数据:Air Quality in Madrid (2001-2018) 需求:根据历史数据统计出每个月平均指标值 import osimport refrom pyspark.sql import SparkSessionif __name__ == "__main__": spark = SparkSession.builder.getOrCreate() df_array = [] years = [] air_quality_data_folder = "C:/xxx/spark/air-quality-madrid/csvs_per_year" for file in os.list……

    网友NO.247213

    PyCharm搭建Spark开发环境的实现步骤

    1.安装好JDK 下载并安装好jdk-12.0.1_windows-x64_bin.exe,配置环境变量: 新建系统变量JAVA_HOME,值为Java安装路径 新建系统变量CLASSPATH,值为 .;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar;(注意最前面的圆点) 配置系统变量PATH,添加 %JAVA_HOME%bin;%JAVA_HOME%jrebin 在CMD中输入:java或者java -version,不显示不是内部命令等,说明安装成功。 2.安装Hadoop,并配置环境变量 下载hadoop: https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.7/hadoop-2.7.7.tar.gz 解压hadoop-2.7.7.tar.gz特定路径,如:D:\adasoftware\hadoop 添加系统变量HADOOP_HOME:D:\adasoftware\hadoop 在系统变量PATH中添加:D:\adasoftware\hadoop\bin 安装组件winutils:将winutils中对应的hadoop版本中的bin替换自己hadoop安装目录下的bin 3.Spark环境变量配置 spark是基于hadoop之上的,运行过程中会调用相关hadoop库,如果没配置相关hadoop运行环境,会提示相关出错信息,虽然也不影响运行。 下载对应hadoop版本的spark:http://spark.apache.org/downloads.html 解压文件到:D:\adasoftware\spark-2.4.3-bin-hadoop2.7 添加PATH值:D:\adasoftware\spark-2.4.3-bin-hadoop2.7\bin; 新建系统变量SPARK_HOME:D:\adasoftware\spark-2.4.3-bin-hadoop2.7; 4.下载安装anaconda anaconda集成了python解释器和大多数python库,安装anaconda 后不用再安装python和pandas numpy等这些组件了。下载地址。最后将pyth……

    网友NO.195900

    java 中Spark中将对象序列化存储到hdfs

    java 中Spark中将对象序列化存储到hdfs 摘要: Spark应用中经常会遇到这样一个需求: 需要将JAVA对象序列化并存储到HDFS, 尤其是利用MLlib计算出来的一些模型, 存储到hdfs以便模型可以反复利用. 下面的例子演示了Spark环境下从Hbase读取数据, 生成一个word2vec模型, 存储到hdfs. 废话不多说, 直接贴代码了. spark1.4 + hbase0.98 import org.apache.spark.storage.StorageLevelimport scala.collection.JavaConverters._import java.io.Fileimport java.io.FileInputStreamimport java.io.FileOutputStreamimport java.io.ObjectInputStreamimport java.io.ObjectOutputStreamimport java.net.URIimport java.util.Dateimport org.ansj.library.UserDefineLibraryimport org.ansj.splitWord.analysis.NlpAnalysisimport org.ansj.splitWord.analysis.ToAnalysisimport org.apache.hadoop.fs.FSDataInputStreamimport org.apache.hadoop.fs.FSDataOutputStreamimport org.apache.hadoop.fs.FileSystemimport org.apache.hadoop.fs.FileUtilimport org.apache.hadoop.fs.Pathimport org.apache.hadoop.hbase.client._import org.apache.hadoop.hbase.{HBaseConfiguration, HTableDescriptor, TableName}import org.apache.hadoop.hbase.filter.FilterListimport org.apache.hadoop.hbase.filter.PageFilterimport org.apache.hadoop.hbase.filter.RegexStringComparatorimport org.apache.hadoop.hbase.filter.SingleColumnValueFilterimport org.apache.hadoop.hbase.filter.CompareFilter.CompareOpimport org.apache.hadoop.hbase.mapreduce.TableInputFormatimport org.apache.hadoop.hbase.protobuf.Pro……

    电子书 编程教程 PC软件下载 安卓软件下载

    Copyright 2018-2020 xz577.com 码农之家

    本站所有电子书资源不再提供下载地址,只分享来路

    免责声明:网站所有作品均由会员网上搜集共同更新,仅供读者预览及学习交流使用,下载后请24小时内删除

    版权投诉 / 书籍推广 / 赞助:QQ:520161757