标签分类 热门分类
当前位置:首页 > 人工智能电子书 > Spark电子书网盘下载
Spark MLlib机器学习实践 Spark MLlib机器学习实践
abc98969

abc98969 提供上传

资源
32
粉丝
35
喜欢
164
评论
5

    Spark MLlib机器学习实践 PDF 完整第2版

    Spark电子书
    • 发布时间:

    给大家带来的一篇关于Spark相关的电子书资源,介绍了关于机器学习、MLlib、Spark方面的内容,本书是由清华大学出版社出版,格式为PDF,资源大小16.8 MB,王晓华编写,目前豆瓣、亚马逊、当当、京东等电子书综合评分为:8.2,更多相关的学习资源可以参阅 人工智能电子书、等栏目。

  • Spark MLlib机器学习实践 PDF 下载
  • 下载地址:https://pan.baidu.com/s/13EKdQN_D53RfV10Yj0WFl
  • 分享码:f243
  • Spark MLlib机器学习实践 第二版 PDF

    Spark作为新兴的、应用范围最为广泛的大数据处理开源框架引起了广泛的关注,它吸引了大量程序设计和开发人员进行相关内容的学习与开发,其中MLlib是Spark框架使用的核心。Spark MLlib机器学习实践(第2版) 是一本细致介绍Spark MLlib程序设计的图书,入门简单,示例丰富。

    本书分为13章,从Spark基础安装和配置开始,依次介绍MLlib程序设计基础、MLlib的数据对象构建、MLlib中RDD使用介绍,各种分类、聚类、回归等数据处理方法,最后还通过一个完整的实例,回顾了前面的学习内容,并通过代码实现了一个完整的分析过程。

    本书理论内容由浅而深,采取实例和理论相结合的方式,讲解细致直观,适合Spark MLlib初学者、大数据分析和挖掘人员,也适合高校和培训学习相关专业的师生教学参考。

    目录

    • 第1章 星星之火 1第2章 Spark安装和开发环境配置 7
    • 第3章 RDD详解 35
    • 第4章 MLlib基本概念 54
    • 第5章 协同过滤算法 72
    • 第6章 MLlib线性回归理论与实战 86
    • 第7章 MLlib分类实战 98
    • 第8章 决策树与保序回归 118
    • 第9章 MLlib中聚类详解 130
    • 第10章 MLlib中关联规则 141
    • 第11章 数据降维 150
    • 第12章 特征提取和转换 157
    • 第13章 MLlib实战演练——鸢尾花分析166

    上一篇:Unity着色器和屏幕特效开发秘笈  下一篇:征信与大数据

    展开 +

    收起 -

    Spark 相关电子书
    关于Spark的学习笔记
    网友NO.491662

    Spark操作之aggregate、aggregateByKey详解

    1. aggregate函数 将每个分区里面的元素进行聚合,然后用combine函数将每个分区的结果和初始值(zeroValue)进行combine操作。这个函数最终返回的类型不需要和RDD中元素类型一致。 seqOp操作会聚合各分区中的元素,然后combOp操作把所有分区的聚合结果再次聚合,两个操作的初始值都是zeroValue. seqOp的操作是遍历分区中的所有元素(T),第一个T跟zeroValue做操作,结果再作为与第二个T做操作的zeroValue,直到遍历完整个分区。combOp操作是把各分区聚合的结果,再聚合。aggregate函数返回一个跟RDD不同类型的值。因此,需要一个操作seqOp来把分区中的元素T合并成一个U,另外一个操作combOp把所有U聚合。 例子程序: scala val rdd = List(1,2,3,4,5,6,7,8,9)rdd: List[Int] = List(1, 2, 3, 4, 5, 6, 7, 8, 9)scala rdd.par.aggregate((0,0))((acc,number) = (acc._1 + number, acc._2 + 1),(par1,par2) = (par1._1 + par2._1, par1._2 + par2._2))res0: (Int, Int) = (45,9)scala res0._1 / res0._2res1: Int = 5 过程大概这样: 首先,初始值是(0,0),这个值在后面2步会用到。 然后,(acc,number) = (acc._1 + number, acc._2 + 1),number即是函数定义中的T,这里即是List中的元素。所以acc._1 + number,acc._2 + 1的过程如下。 1. 0+1, 0+1 2. 1+2, 1+1 3. 3+3, 2+1 4. 6+4, 3+1 5. 10+5, 4+1 6. 15+6, 5+1 7. 21+7, 6+1 8. 28+8, 7+1 9. 36+9, 8+1 结果即是(45,9)。这里演示的是单线程计算过程,……

    网友NO.552938

    PyCharm搭建Spark开发环境实现第一个pyspark程序

    一, PyCharm搭建Spark开发环境 Windows7, Java1.8.0_74, Scala 2.12.6, Spark 2.2.1, Hadoop2.7.6 通常情况下,Spark开发是基于Linux集群的,但这里作为初学者并且囊中羞涩,还是在windows环境下先学习吧。 参照这个配置本地的Spark环境。 之后就是配置PyCharm用来开发Spark。本人在这里浪费了不少时间,因为百度出来的无非就以下两种方式: 1.在程序中设置环境变量 import osimport sysos.environ['SPARK_HOME'] = 'C:\xxx\spark-2.2.1-bin-hadoop2.7'sys.path.append('C:\xxx\spark-2.2.1-bin-hadoop2.7\python') 2.在Edit Configuration中添加环境变量 不过还是没有解决程序中代码自动补全。 想了半天,观察到spark提供的pyspark很像单独的安装包,应该可以考虑将pyspark包放到python的安装目录下,这样也就自动添加到之前所设置的pythonpath里了,应该就能实现pyspark的代码补全提示。 将spark下的pyspark包放到python路径下(注意,不是spark下的python!) 最后,实现了pyspark代码补全功能。 二.第一个pyspark程序 作为小白,只能先简单用下python+pyspark了。 数据:Air Quality in Madrid (2001-2018) 需求:根据历史数据统计出每个月平均指标值 import osimport refrom pyspark.sql import SparkSessionif __name__ == "__main__": spark = SparkSession.builder.getOrCreate() df_array = [] years = [] air_quality_data_folder = "C:/xxx/spark/air-quality-madrid/csvs_per_year" for file in os.list……

    网友NO.663378

    PyCharm搭建Spark开发环境的实现步骤

    1.安装好JDK 下载并安装好jdk-12.0.1_windows-x64_bin.exe,配置环境变量: 新建系统变量JAVA_HOME,值为Java安装路径 新建系统变量CLASSPATH,值为 .;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar;(注意最前面的圆点) 配置系统变量PATH,添加 %JAVA_HOME%bin;%JAVA_HOME%jrebin 在CMD中输入:java或者java -version,不显示不是内部命令等,说明安装成功。 2.安装Hadoop,并配置环境变量 下载hadoop: https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.7/hadoop-2.7.7.tar.gz 解压hadoop-2.7.7.tar.gz特定路径,如:D:\adasoftware\hadoop 添加系统变量HADOOP_HOME:D:\adasoftware\hadoop 在系统变量PATH中添加:D:\adasoftware\hadoop\bin 安装组件winutils:将winutils中对应的hadoop版本中的bin替换自己hadoop安装目录下的bin 3.Spark环境变量配置 spark是基于hadoop之上的,运行过程中会调用相关hadoop库,如果没配置相关hadoop运行环境,会提示相关出错信息,虽然也不影响运行。 下载对应hadoop版本的spark:http://spark.apache.org/downloads.html 解压文件到:D:\adasoftware\spark-2.4.3-bin-hadoop2.7 添加PATH值:D:\adasoftware\spark-2.4.3-bin-hadoop2.7\bin; 新建系统变量SPARK_HOME:D:\adasoftware\spark-2.4.3-bin-hadoop2.7; 4.下载安装anaconda anaconda集成了python解释器和大多数python库,安装anaconda 后不用再安装python和pandas numpy等这些组件了。下载地址。最后将pyth……

    网友NO.914389

    java 中Spark中将对象序列化存储到hdfs

    java 中Spark中将对象序列化存储到hdfs 摘要: Spark应用中经常会遇到这样一个需求: 需要将JAVA对象序列化并存储到HDFS, 尤其是利用MLlib计算出来的一些模型, 存储到hdfs以便模型可以反复利用. 下面的例子演示了Spark环境下从Hbase读取数据, 生成一个word2vec模型, 存储到hdfs. 废话不多说, 直接贴代码了. spark1.4 + hbase0.98 import org.apache.spark.storage.StorageLevelimport scala.collection.JavaConverters._import java.io.Fileimport java.io.FileInputStreamimport java.io.FileOutputStreamimport java.io.ObjectInputStreamimport java.io.ObjectOutputStreamimport java.net.URIimport java.util.Dateimport org.ansj.library.UserDefineLibraryimport org.ansj.splitWord.analysis.NlpAnalysisimport org.ansj.splitWord.analysis.ToAnalysisimport org.apache.hadoop.fs.FSDataInputStreamimport org.apache.hadoop.fs.FSDataOutputStreamimport org.apache.hadoop.fs.FileSystemimport org.apache.hadoop.fs.FileUtilimport org.apache.hadoop.fs.Pathimport org.apache.hadoop.hbase.client._import org.apache.hadoop.hbase.{HBaseConfiguration, HTableDescriptor, TableName}import org.apache.hadoop.hbase.filter.FilterListimport org.apache.hadoop.hbase.filter.PageFilterimport org.apache.hadoop.hbase.filter.RegexStringComparatorimport org.apache.hadoop.hbase.filter.SingleColumnValueFilterimport org.apache.hadoop.hbase.filter.CompareFilter.CompareOpimport org.apache.hadoop.hbase.mapreduce.TableInputFormatimport org.apache.hadoop.hbase.protobuf.Pro……

    Copyright 2018-2019 xz577.com 码农之家

    版权责任说明