标签分类
当前位置:首页 > 人工智能电子书 > 机器学习电子书网盘下载
Spark MLlib机器学习:算法、源码及实战详解 Spark MLlib机器学习:算法、源码及实战详解
18857415

18857415 提供上传

资源
33
粉丝
21
喜欢
209
评论
9

    Spark MLlib机器学习:算法、源码及实战详解 PDF 高清扫描版

    机器学习电子书
    • 发布时间:

    给大家带来的一篇关于机器学习相关的电子书资源,介绍了关于机器学习方面的内容,本书是由电子工业出版社出版,格式为PDF,资源大小69.9 MB,黄美灵编写,目前豆瓣、亚马逊、当当、京东等电子书综合评分为:9.1,更多相关的学习资源可以参阅 人工智能电子书、等栏目。

  • Spark MLlib机器学习:算法、源码及实战详解 PDF 下载
  • 下载地址:https://pan.baidu.com/s/1aL0RHTS6CGrCgf3ch9ZKOw
  • 分享码:ka82
  • Spark MLlib机器学习:算法、源码及实战详解 PDF

    Spark MLlib机器学习:算法、源码及实战详解》以Spark 1.4.1版本源码为切入点,全面并且深入地解析Spark MLlib模块,着力于探索分布式机器学习的底层实现。

    《Spark MLlib机器学习:算法、源码及实战详解》中本着循序渐进的原则,首先解析MLlib的底层实现基础:数据操作及矩阵向量计算操作,该部分是MLlib实现的基础;接着对各个机器学习算法的理论知识进行讲解,并且解析机器学习算法如何在MLlib中实现分布式计算;然后对MLlib源码进行详细的讲解;最后进行MLlib实例的讲解。相信通过《Spark MLlib机器学习:算法、源码及实战详解》的学习,读者可全面掌握Spark MLlib机器学习,能够进行MLlib实战、MLlib定制开发等。

    《Spark MLlib机器学习:算法、源码及实战详解》适合大数据、Spark、数据挖掘领域的从业人员阅读,同时也为Spark开发者和大数据爱好者展现了分布式机器学习的原理和实现细节。

    目录

    • 第一部分 Spark MLlib基础
    • 第1章 Spark机器学习简介 2
    • 1.1 机器学习介绍 2
    • 1.2 Spark介绍 3
    • 1.3 Spark MLlib介绍 4
    • 第2章 Spark数据操作 6
    • 2.1 Spark RDD操作 6
    • 2.1.1 Spark RDD创建操作 6
    • 2.1.2 Spark RDD转换操作 7
    • 2.1.3 Spark RDD行动操作 14
    • 2.2 MLlib Statistics统计操作 15
    • 2.2.1 列统计汇总 15
    • 2.2.2 相关系数 16
    • 2.2.3 假设检验 18
    • 2.3 MLlib数据格式 18
    • 2.3.1 数据处理 18
    • 2.3.2 生成样本 22
    • 第3章 Spark MLlib矩阵向量 26
    • 3.1 Breeze介绍 26
    • 3.1.1 Breeze创建函数 27
    • 3.1.2 Breeze元素访问及操作函数 29
    • 3.1.3 Breeze数值计算函数 34
    • 3.1.4 Breeze求和函数 35
    • 3.1.5 Breeze布尔函数 36
    • 3.1.6 Breeze线性代数函数 37
    • 3.1.7 Breeze取整函数 39
    • 3.1.8 Breeze常量函数 40
    • 3.1.9 Breeze复数函数 40
    • 3.1.10 Breeze三角函数 40
    • 3.1.11 Breeze对数和指数函数 40
    • 3.2 BLAS介绍 41
    • 3.2.1 BLAS向量-向量运算 42
    • 3.2.2 BLAS矩阵-向量运算 42
    • 3.2.3 BLAS矩阵-矩阵运算 43
    • 3.3 MLlib向量 43
    • 3.3.1 MLlib向量介绍 43
    • 3.3.2 MLlib Vector接口 44
    • 3.3.3 MLlib DenseVector类 46
    • 3.3.4 MLlib SparseVector类 49
    • 3.3.5 MLlib Vectors伴生对象 50
    • 3.4 MLlib矩阵 57
    • 3.4.1 MLlib矩阵介绍 57
    • 3.4.2 MLlib Matrix接口 57
    • 3.4.3 MLlib DenseMatrix类 59
    • 3.4.4 MLlib SparseMatrix类 64
    • 3.4.5 MLlib Matrix伴生对象 71
    • 3.5 MLlib BLAS 77
    • 3.6 MLlib分布式矩阵 93
    • 3.6.1 MLlib分布式矩阵介绍 93
    • 3.6.2 行矩阵(RowMatrix) 94
    • 3.6.3 行索引矩阵(IndexedRowMatrix) 96
    • 3.6.4 坐标矩阵(CoordinateMatrix) 97
    • 3.6.5 分块矩阵(BlockMatrix) 98
    • 第二部分 Spark MLlib回归算法
    • 第4章 Spark MLlib线性回归算法 102
    • 4.1 线性回归算法 102
    • 4.1.1 数学模型 102
    • 4.1.2 最小二乘法 105
    • 4.1.3 梯度下降算法 105
    • 4.2 源码分析 106
    • 4.2.1 建立线性回归 108
    • 4.2.2 模型训练run方法 111
    • 4.2.3 权重优化计算 114
    • 4.2.4 线性回归模型 121
    • 4.3 实例 123
    • 4.3.1 训练数据 123
    • 4.3.2 实例代码 123
    • 第5章 Spark MLlib逻辑回归算法 126
    • 5.1 逻辑回归算法 126
    • 5.1.1 数学模型 126
    • 5.1.2 梯度下降算法 128
    • 5.1.3 正则化 129
    • 5.2 源码分析 132
    • 5.2.1 建立逻辑回归 134
    • 5.2.2 模型训练run方法 137
    • 5.2.3 权重优化计算 137
    • 5.2.4 逻辑回归模型 144
    • 5.3 实例 148
    • 5.3.1 训练数据 148
    • 5.3.2 实例代码 148
    • 第6章 Spark MLlib保序回归算法 151
    • 6.1 保序回归算法 151
    • 6.1.1 数学模型 151
    • 6.1.2 L2保序回归算法 153
    • 6.2 源码分析 153
    • 6.2.1 建立保序回归 154
    • 6.2.2 模型训练run方法 156
    • 6.2.3 并行PAV计算 156
    • 6.2.4 PAV计算 157
    • 6.2.5 保序回归模型 159
    • 6.3 实例 164
    • 6.3.1 训练数据 164
    • 6.3.2 实例代码 164
    • 第三部分 Spark MLlib分类算法
    • 第7章 Spark MLlib贝叶斯分类算法 170
    • 7.1 贝叶斯分类算法 170
    • 7.1.1 贝叶斯定理 170
    • 7.1.2 朴素贝叶斯分类 171
    • 7.2 源码分析 173
    • 7.2.1 建立贝叶斯分类 173
    • 7.2.2 模型训练run方法 176
    • 7.2.3 贝叶斯分类模型 179
    • 7.3 实例 181
    • 7.3.1 训练数据 181
    • 7.3.2 实例代码 182
    • 第8章 Spark MLlib SVM支持向量机算法 184
    • 8.1 SVM支持向量机算法 184
    • 8.1.1 数学模型 184
    • 8.1.2 拉格朗日 186
    • 8.2 源码分析 189
    • 8.2.1 建立线性SVM分类 191
    • 8.2.2 模型训练run方法 194
    • 8.2.3 权重优化计算 194
    • 8.2.4 线性SVM分类模型 196
    • 8.3 实例 199
    • 8.3.1 训练数据 199
    • 8.3.2 实例代码 199
    • 第9章 Spark MLlib决策树算法 202
    • 9.1 决策树算法 202
    • 9.1.1 决策树 202
    • 9.1.2 特征选择 203
    • 9.1.3 决策树生成 205
    • 9.1.4 决策树生成实例 206
    • 9.1.5 决策树的剪枝 208
    • 9.2 源码分析 209
    • 9.2.1 建立决策树 211
    • 9.2.2 建立随机森林 216
    • 9.2.3 建立元数据 220
    • 9.2.4 查找特征的分裂及划分 223
    • 9.2.5 查找最好的分裂顺序 228
    • 9.2.6 决策树模型 231
    • 9.3 实例 234
    • 9.3.1 训练数据 234
    • 9.3.2 实例代码 234
    • 第四部分 Spark MLlib聚类算法
    • 第10章 Spark MLlib KMeans聚类算法 238
    • 10.1 KMeans聚类算法 238
    • 10.1.1 KMeans算法 238
    • 10.1.2 演示KMeans算法 239
    • 10.1.3 初始化聚类中心点 239
    • 10.2 源码分析 240
    • 10.2.1 建立KMeans聚类 242
    • 10.2.2 模型训练run方法 247
    • 10.2.3 聚类中心点计算 248
    • 10.2.4 中心点初始化 251
    • 10.2.5 快速距离计算 254
    • 10.2.6 KMeans聚类模型 255
    • 10.3 实例 258
    • 10.3.1 训练数据 258
    • 10.3.2 实例代码 259
    • 第11章 Spark MLlib LDA主题模型算法 261
    • 11.1 LDA主题模型算法 261
    • 11.1.1 LDA概述 261
    • 11.1.2 LDA概率统计基础 262
    • 11.1.3 LDA数学模型 264
    • 11.2 GraphX基础 267
    • 11.3 源码分析 270
    • 11.3.1 建立LDA主题模型 272
    • 11.3.2 优化计算 279
    • 11.3.3 LDA模型 283
    • 11.4 实例 288
    • 11.4.1 训练数据 288
    • 11.4.2 实例代码 288
    • 第五部分 Spark MLlib关联规则挖掘算法
    • 第12章 Spark MLlib FPGrowth关联规则算法 292
    • 12.1 FPGrowth关联规则算法 292
    • 12.1.1 基本概念 292
    • 12.1.2 FPGrowth算法 293
    • 12.1.3 演示FP树构建 294
    • 12.1.4 演示FP树挖掘 296
    • 12.2 源码分析 298
    • 12.2.1 FPGrowth类 298
    • 12.2.2 关联规则挖掘 300
    • 12.2.3 FPTree类 303
    • 12.2.4 FPGrowthModel类 306
    • 12.3 实例 306
    • 12.3.1 训练数据 306
    • 12.3.2 实例代码 306
    • 第六部分 Spark MLlib推荐算法
    • 第13章 Spark MLlib ALS交替最小二乘算法 310
    • 13.1 ALS交替最小二乘算法 310
    • 13.2 源码分析 312
    • 13.2.1 建立ALS 314
    • 13.2.2 矩阵分解计算 322
    • 13.2.3 ALS模型 329
    • 13.3 实例 334
    • 13.3.1 训练数据 334
    • 13.3.2 实例代码 334
    • 第14章 Spark MLlib协同过滤推荐算法 337
    • 14.1 协同过滤推荐算法 337
    • 14.1.1 协同过滤推荐概述 337
    • 14.1.2 用户评分 338
    • 14.1.3 相似度计算 338
    • 14.1.4 推荐计算 340
    • 14.2 协同推荐算法实现 341
    • 14.2.1 相似度计算 344
    • 14.2.2 协同推荐计算 348
    • 14.3 实例 350
    • 14.3.1 训练数据 350
    • 14.3.2 实例代码 350
    • 第七部分 Spark MLlib神经网络算法
    • 第15章 Spark MLlib神经网络算法综述 354
    • 15.1 人工神经网络算法 354
    • 15.1.1 神经元 354
    • 15.1.2 神经网络模型 355
    • 15.1.3 信号前向传播 356
    • 15.1.4 误差反向传播 357
    • 15.1.5 其他参数 360
    • 15.2 神经网络算法实现 361
    • 15.2.1 神经网络类 363
    • 15.2.2 训练准备 370
    • 15.2.3 前向传播 375
    • 15.2.4 误差反向传播 377
    • 15.2.5 权重更新 381
    • 15.2.6 ANN模型 382
    • 15.3 实例 384
    • 15.3.1 测试数据 384
    • 15.3.2 测试函数代码 387
    • 15.3.3 实例代码 388

    上一篇:Git团队协作  下一篇:知晓程序:微信小程序入门指南

    展开 +

    收起 -

    码小辫二维码
     

    机器学习相关电子书
    学习笔记
    网友NO.723446

    DataFrame:通过SparkSql将scala类转为DataFrame的方法

    如下所示: import java.text.DecimalFormatimport com.alibaba.fastjson.JSONimport com.donews.data.AppConfigimport com.typesafe.config.ConfigFactoryimport org.apache.spark.sql.types.{StructField, StructType}import org.apache.spark.sql.{Row, SaveMode, DataFrame, SQLContext}import org.apache.spark.{SparkConf, SparkContext}import org.slf4j.LoggerFactory /** * Created by silentwolf on 2016/6/3. */ case class UserTag(SUUID: String, MAN: Float, WOMAN: Float, AGE10_19: Float, AGE20_29: Float, AGE30_39: Float, AGE40_49: Float, AGE50_59: Float, GAME: Float, MOVIE: Float, MUSIC: Float, ART: Float, POLITICS_NEWS: Float, FINANCIAL: Float, EDUCATION_TRAINING: Float, HEALTH_CARE: Float, TRAVEL: Float, AUTOMOBILE: Float, HOUSE_PROPERTY: Float, CLOTHING_ACCESSORIES: Float, BEAUTY: Float, IT: Float, BABY_PRODUCT: Float, FOOD_SERVICE: Float, HOME_FURNISHING: Float, SPORTS: Float, OUTDOOR_ACTIVITIES: Float, MEDICINE: Float ) object UserTagTable { val LOG = LoggerFactory.getLogger(UserOverviewFirst.getClass) val REP_HOME = s"${AppConfig.HDFS_MASTER}/${AppConfig.HDFS_REP}" def main(args: Array[String]) { var startTime = System.currentTimeMillis() val conf: com.typesafe.config.Config = ConfigFactory.load() val sc = new SparkContext() val sqlContext = new SQLContext(sc) var df1: DataFrame = null if (args.length == 0) { println("请输入: appkey , StartTime : 2016-04-10 ,StartEnd :2016-04-11") } else { var appkey = args(0) var lastdate = args(1) df1 = loadDataFrame(sqlContext, appkey, "20……

    网友NO.627563

    浅谈PySpark SQL 相关知识介绍

    1 大数据简介 大数据是这个时代最热门的话题之一。但是什么是大数据呢?它描述了一个庞大的数据集,并且正在以惊人的速度增长。大数据除了体积(Volume)和速度(velocity)外,数据的多样性(variety)和准确性(veracity)也是大数据的一大特点。让我们详细讨论体积、速度、多样性和准确性。这些也被称为大数据的4V特征。 1.1 Volume 数据体积(Volume)指定要处理的数据量。对于大量数据,我们需要大型机器或分布式系统。计算时间随数据量的增加而增加。所以如果我们能并行化计算,最好使用分布式系统。数据可以是结构化数据、非结构化数据或介于两者之间的数据。如果我们有非结构化数据,那么情况就会变得更加复杂和计算密集型。你可能会想,大数据到底有多大?这是一个有争议的问题。但一般来说,我们可以说,我们无法使用传统系统处理的数据量被定义为大数据。现在让我们讨论一下数据的速度。 1.2 Velocity 越来越多的组织机构开始重视数据。每时每刻都在收集大量的数据。这意味着数据的速度在增加。一个系统如何处理这个速度?当必须实时分析大量流入的数据时,问题就变得复杂了。许多系统正在开发,以处理这种巨大的数据流入。将传统数据与大数据区别开来的另一个因素是数据的多样性。 1.3 Variety 数据的多样性使得……

    网友NO.346093

    Linux下远程连接Jupyter+pyspark部署教程

    博主最近试在服务器上进行spark编程,因此,在开始编程作业之前,要先搭建一个便利的编程环境,这样才能做到舒心地开发。本文主要有以下内容: 1、python多版本管理利器-pythonbrew 2、Jupyter notebooks 安装与使用以及远程连接方法 3、Jupyter连接pyspark,实现web端sprak开发 一、python多版本管理利器-pythonbrew 在利用python进行编程开发的时候,很多时候我们需要多个Python版本进行测试,博主之前一直在Python2.x和3.x之间徘徊挣扎,两者纠缠不清的关系真是令博主心累了一万年。直至遇到了pythonbrew,它在博主心中泛起的涟漪,久久不能逝去。说到pythonbrew,它是一个python的多版本管理器,可以在多个 Python之间迅速切换,也可以在指定的 Python 版本下测试python程序,更重要的是它还整合了 Virtualenv。所以,当你的电脑里装了多个python版本,并需要经常切换测试时,pythonbrew就非常适合你。 1.安装配置pythonbrew sudo easy_install pythonbrew(easy_install安装)pip install pythonbrew(pip安装) 2.添加配置环境到~/.bashrc(或~/.bash_profile) [[ -s "$HOME/.pythonbrew/etc/bashrc" ]] source"$HOME/.pythonbrew/etc/bashrc" 然后执行:source ~/.bashrc(或~/.bash_profile) 3.查看系统可以安装的python版本 [ray@hadoop01 ~]$ pythonbrew list -k# PythonsPython-1.5.2Python-1.6.1Python-2.0.1Python-2.1.3Python-2.2.3Python-2.3.7Python-2……

    网友NO.959323

    spark之Standalone模式部署配置详解

    spark运行模式 Spark 有很多种模式,最简单就是单机本地模式,还有单机伪分布式模式,复杂的则运行在集群中,目前能很好的运行在 Yarn和 Mesos 中,当然 Spark 还有自带的 Standalone 模式,对于大多数情况 Standalone 模式就足够了,如果企业已经有 Yarn 或者 Mesos 环境,也是很方便部署的。 1.local(本地模式):常用于本地开发测试,本地还分为local单线程和local-cluster多线程; 2.standalone(集群模式):典型的Mater/slave模式,不过也能看出Master是有单点故障的;Spark支持ZooKeeper来实现 HA 3.on yarn(集群模式): 运行在 yarn 资源管理器框架之上,由 yarn 负责资源管理,Spark 负责任务调度和计算 4.on mesos(集群模式): 运行在 mesos 资源管理器框架之上,由 mesos 负责资源管理,Spark 负责任务调度和计算 5.on cloud(集群模式):比如 AWS 的 EC2,使用这个模式能很方便的访问 Amazon的 S3;Spark 支持多种分布式存储系统:HDFS 和 S3 Spark Standalone集群部署 准备工作 1.这里我下载的是Spark的编译版本,否则需要事先自行编译 2.Spark需要Hadoop的HDFS作为持久化层,所以在安装Spark之前需要安装Hadoop,这里Hadoop的安装就不介绍了,给出一个教程hadoop 单机安装配置教程 3.实现创建hadoop用户,Hadoop、Spark等程序都在该用户下进行安装 4.ssh无密码登录,Spark集群中各节点的通信需要通……

    Copyright 2018-2019 xz577.com 码农之家

    版权责任说明