标签分类
当前位置:首页 > 计算机理论电子书 > 机器学习电子书网盘下载
构建实时机器学习系统 构建实时机器学习系统
萧曵 丶

萧曵 丶 提供上传

资源
45
粉丝
39
喜欢
9
评论
14

    构建实时机器学习系统 PDF 扫描超清版

    机器学习电子书
    • 发布时间:

    给大家带来的一篇关于机器学习相关的电子书资源,介绍了关于构建、实时、机器学习、系统方面的内容,本书是由机械工业出版社出版,格式为PDF,资源大小96.1 MB,彭河森 汪涵编写,目前豆瓣、亚马逊、当当、京东等电子书综合评分为:9.2,更多相关的学习资源可以参阅 计算机理论电子书、等栏目。

  • 构建实时机器学习系统 PDF 下载
  • 下载地址:https://pan.baidu.com/s/1ZBpmmuKelBtt7G8r62Wx4Q
  • 分享码:pe84
  • 构建实时机器学习系统 pdf

    构建实时机器学习系统》首先利用Pandas对美股秒级交易数据进行分析,利用Scikit-learn对股票变化方向进行预测,并在架构案例中,打造了一个以RabbitMQ为消息传导中枢的实时处理系统,利用Elasticsearch对数据进行实时可视化。

    目录

    • 前 言
    • 第1部分 实时机器学习方法论
    • 第1章 实时机器学习综述 2
    • 1.1 什么是机器学习 2
    • 1.2 机器学习发展的前世今生 3
    • 1.2.1 历史上机器学习无法调和的难题 3
    • 1.2.2 现代机器学习的新融合 4
    • 1.3 机器学习领域分类 5
    • 1.4 实时是个“万灵丹” 6
    • 1.5 实时机器学习的分类 7
    • 1.5.1 硬实时机器学习 7
    • 1.5.2 软实时机器学习 7
    • 1.5.3 批实时机器学习 8
    • 1.6 实时应用对机器学习的要求 8
    • 1.7 案例:Netflix在机器学习竞赛中学到的经验 9
    • 1.7.1 Netflix 用户信息被逆向工程 9
    • 1.7.2 Netflix 最终胜出者模型无法在生产环境中使用 9
    • 1.8 实时机器学习模型的生存期 10
    • 第2章 实时监督式机器学习 12
    • 2.1 什么是监督式机器学习 12
    • 2.1.1 “江湖门派”对预测模型的
    • 不同看法 13
    • 2.1.2 工业界的学术门派 14
    • 2.1.3 实时机器学习实战的思路 15
    • 2.2 怎样衡量监督式机器学习模型 16
    • 2.2.1 统计量的优秀 16
    • 2.2.2 应用业绩的优秀 20
    • 2.3 实时线性分类器介绍 20
    • 2.3.1 广义线性模型的定义 20
    • 2.3.2 训练线性模型 21
    • 2.3.3 冷启动问题 22
    • 第3章 数据分析工具 Pandas 23
    • 3.1 颠覆 R 的 Pandas 23
    • 3.2 Pandas 的安装 24
    • 3.3 利用 Pandas 分析实时股票报价数据 24
    • 3.3.1 外部数据导入 25
    • 3.3.2 数据分析基本操作 25
    • 3.3.3 可视化操作 26
    • 3.3.4 秒级收盘价变化率初探 28
    • 3.4 数据分析的三个要点 30
    • 3.4.1 不断验证假设 30
    • 3.4.2 全面可视化,全面监控化 30
    • 第4章 机器学习工具 Scikit-learn 31
    • 4.1 如何站在风口上?向Scikit-learn 学习 31
    • 4.1.1 传统的线下统计软件 R 31
    • 4.1.2 底层软件黑盒子 Weka 32
    • 4.1.3 跨界产品 Scikit-learn 33
    • 4.1.4 Scikit-learn的优势 33
    • 4.2 Scikit-learn 的安装 34
    • 4.3 Scikit-learn 的主要模块 35
    • 4.3.1 监督式、非监督式机器学习 35
    • 4.3.2 建模函数fit和predict 36
    • 4.3.3 数据预处理 38
    • 4.3.4 自动化建模预测 Pipeline 39
    • 4.4 利用 Scikit-learn 进行股票价格波动预测 40
    • 4.4.1 数据导入和预处理 41
    • 4.4.2 编写专有时间序列数据预处理模块 41
    • 4.4.3 利用 Pipeline 进行建模 43
    • 4.4.4 评价建模效果 43
    • 4.4.5 引入成交量和高维交叉项进行建模 44
    • 4.4.6 本书没有告诉你的 45
    • 第2部分 实时机器学习架构
    • 第5章 实时机器学习架构设计 48
    • 5.1 设计实时机器学习架构的
    • 四个要点 48
    • 5.2 Lambda 架构和主要成员 49
    • 5.2.1 实时响应层 49
    • 5.2.2 快速处理层 50
    • 5.2.3 批处理层 50
    • 5.3 常用的实时机器学习架构 50
    • 5.3.1 瀑布流架构 50
    • 5.3.2 并行响应架构 51
    • 5.3.3 实时更新模型混合架构 52
    • 5.4 小结 53
    • 第6章 集群部署工具 Docker 55
    • 6.1 Docker 的前世今生 55
    • 6.2 容器虚拟机的基本组成部分 56
    • 6.3 Docker 引擎命令行工具 57
    • 6.3.1 Docker 引擎的安装 57
    • 6.3.2 Docker 引擎命令行的基本操作 58
    • 6.4 通过 Dockerfile 配置容器虚拟机 61
    • 6.4.1 利用 Dockerfile 配置基本容器虚拟机 62
    • 6.4.2 利用 Dockerfile 进行虚拟机和宿主机之间的文件传输 62
    • 6.5 服务器集群配置工具Docker Compose 64
    • 6.5.1 Docker Compose 的安装 64
    • 6.5.2 Docker Compose 的基本操作 64
    • 6.5.3 利用 Docker Compose 创建网页计数器集群 65
    • 6.6 远端服务器配置工具Docker Machine 68
    • 6.6.1 Docker Machine 的安装 68
    • 6.6.2 安装 Oracle VirtualBox 69
    • 6.6.3 创建和管理 VirtualBox中的虚拟机 69
    • 6.6.4 在 Docker Machine 和 VirtualBox的环境中运行集群 70
    • 6.6.5 利用 Docker Machine 在 Digital Ocean 上配置运行集群 71
    • 6.7 其他有潜力的 Docker 工具 73
    • 第7章 实时消息队列和RabbitMQ 74
    • 7.1 实时消息队列 74
    • 7.2 AMQP 和 RabbitMQ 简介 76
    • 7.3 RabbitMQ的主要构成部分 76
    • 7.4 常用交换中心模式 78
    • 7.4.1 直连结构 78
    • 7.4.2 扇形结构 78
    • 7.4.3 话题结构 79
    • 7.4.4 报头结构 79
    • 7.5 消息传导设计模式 79
    • 7.5.1 任务队列 80
    • 7.5.2 Pub/Sub 发布/监听 80
    • 7.5.3 远程命令 81
    • 7.6 利用 Docker 快速部署RabbitMQ 82
    • 7.7 利用 RabbitMQ 开发队列服务 85
    • 7.7.1 准备案例材料 86
    • 7.7.2 实时报价存储服务 86
    • 7.7.3 实时走势预测服务 89
    • 7.7.4 整合运行实验 93
    • 7.7.5 总结和改进 95
    • 第8章 实战数据库综述 98
    • 8.1 SQL 与 NoSQL,主流数据库分类 98
    • 8.1.1 关系型数据库 99
    • 8.1.2 非关系型数据库 NoSQL 99
    • 8.2 数据库的性能 100
    • 8.2.1 耐分割 100
    • 8.2.2  一致性 101
    • 8.2.3 可用性 101
    • 8.2.4 CAP 定理 101
    • 8.3 SQL和NoSQL对比 102
    • 8.3.1 数据存储、读取方式 102
    • 8.3.2 数据库的扩展方式 103
    • 8.3.3 性能比较 103
    • 8.4 数据库的发展趋势 103
    • 8.4.1 不同数据库之间自动化同步更为方便 103
    • 8.4.2 云数据库的兴起 104
    • 8.4.3

    上一篇:构建Apache Kafka流数据应用  下一篇:高级Android开发强化实战

    展开 +

    收起 -

    码小辫二维码
     ←点击下载即可登录

    机器学习相关电子书
    学习笔记
    网友NO.118621

    python实现机器学习之元线性回归

    一、理论知识准备 1.确定假设函数 如:y=2x+7 其中,(x,y)是一组数据,设共有m个 2.误差cost 用平方误差代价函数 3.减小误差(用梯度下降) 二、程序实现步骤 1.初始化数据 x、y:样本 learning rate:学习率 循环次数loopNum:梯度下降次数 2.梯度下降 循环(循环loopNum次): (1)算偏导(需要一个for循环遍历所有数据) (2)利用梯度下降数学式子 三、程序代码 import numpy as npdef linearRegression(data_x,data_y,learningRate,loopNum): w,b=0,0 #梯度下降 for i in range(loopNum): w_derivative, b_derivative, cost = 0, 0, 0 for j in range(len(data_x)): wxPlusb=w*data_x[j]+b w_derivative+=(wxPlusb-data_y[j])*data_x[j] b_derivative+=wxPlusb-data_y[j] cost+=(wxPlusb-data_y[j])*(wxPlusb-data_y[j]) w_derivative=w_derivative/len(data_x) b_derivative=b_derivative/len(data_x) w = w - learningRate*w_derivative b = b - learningRate*b_derivative cost = cost/(2*len(data_x)) if i%100==0: print(cost) print(w) print(b)if __name__== "__main__": #_x:protected __x:private x=np.random.normal(0,10,100) noise=np.random.normal(0,0.05,100) y=2*x+7+noise linearRegression(x,y,0.01,5000) 四、输出 1.输出cost 可以看到,一开始的误差是很大的,然后减小了 最后几次输出的cost没有变化,可以将训练的次数减小一点 2.训练完的w和b 和目标w=2,b=7很接近 以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多……

    网友NO.395147

    Python基于机器学习方法实现的电影推荐系统实例详解

    推荐算法在互联网行业的应用非常广泛,今日头条、美团点评等都有个性化推荐,推荐算法抽象来讲,是一种对于内容满意度的拟合函数,涉及到用户特征和内容特征,作为模型训练所需维度的两大来源,而点击率,页面停留时间,评论或下单等都可以作为一个量化的 Y 值,这样就可以进行特征工程,构建出一个数据集,然后选择一个合适的监督学习算法进行训练,得到模型后,为客户推荐偏好的内容,如头条的话,就是咨询和文章,美团的就是生活服务内容。 可选择的模型很多,如协同过滤,逻辑斯蒂回归,基于DNN的模型,FM等。我们使用的方式是,基于内容相似度计算进行召回,之后通过FM模型和逻辑斯蒂回归模型进行精排推荐,下面就分别说一下,我们做这个电影推荐系统过程中,从数据准备,特征工程,到模型训练和应用的整个过程。 我们实现的这个电影推荐系统,爬取的数据实际上维度是相对少的,特别是用户这一侧的维度,正常推荐系统涉及的维度,诸如页面停留时间,点击频次,收藏等这些维度都是没有的,以及用户本身的维度也相对要少,没有地址、年龄、性别等这些基本的维度,这样我们爬取的数据只有打分和评论这些信息,所以之后我们又从这些信息里再拿出一些统计维度来用。我们爬取的电影数……

    网友NO.586474

    Python机器学习k-近邻算法(K Nearest Neighbor)实例详解

    本文实例讲述了Python机器学习k-近邻算法。分享给大家供大家参考,具体如下: 工作原理 存在一份训练样本集,并且每个样本都有属于自己的标签,即我们知道每个样本集中所属于的类别。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后提取样本集中与之最相近的k个样本。观察并统计这k个样本的标签,选择数量最大的标签作为这个新数据的标签。 用以下这幅图可以很好的解释kNN算法: 不同形状的点,为不同标签的点。其中绿色点为未知标签的数据点。现在要对绿色点进行预测。由图不难得出: 如果k=3,那么离绿色点最近的有2个红色三角形和1个蓝色的正方形,这3个点投票,于是绿色的这个待分类点属于红色的三角形。 如果k=5,那么离绿色点最近的有2个红色三角形和3个蓝色的正方形,这5个点投票,于是绿色的这个待分类点属于蓝色的正方形。 kNN算法实施 伪代码 对未知属性的数据集中的每个点执行以下操作 1. 计算已知类型类别数据集中的点与当前点之间的距离 2. 按照距离递增次序排序 3. 选取与当前点距离最小的k个点 4. 确定前k个点所在类别的出现频率 5. 返回前k个点出现频率最高的类别作为当前点的预测分类 欧式距离(计算两点之间的距离公式) 计算点x与点y之间欧式距离……

    网友NO.594604

    机器学习实战之knn算法pandas

    机器学习实战之knn算法pandas,供大家参考,具体内容如下 开始学习机器学习实战这本书,打算看完了再回头看 周志华的 机器学习。机器学习实战的代码都是用numpy写的,有些麻烦,所以考虑用pandas来实现代码,也能回顾之前学的 用python进行数据分析。感觉目前章节的测试方法太渣,留着以后学了更多再回头写。 # coding: gbkimport pandas as pdimport numpy as npdef getdata(path): data = pd.read_csv(path, header=None, sep='\t') character = data.iloc[:, :-1] label = data.iloc[:, -1] chara_max = character.max() chara_min = character.min() chara_range = chara_max - chara_min normal_chara = (character - chara_min) / chara_range return normal_chara, label # 获得归一化特征值和标记def knn(inX, normal_chara, label, k): data_sub = normal_chara - inX data_square = data_sub.applymap(np.square) data_sum = data_square.sum(axis=1) data_sqrt = data_sum.map(np.sqrt) dis_sort = data_sqrt.argsort() k_label = label[dis_sort[:k]] label_sort = k_label.value_counts() res_label = label_sort.index[0] return res_label # knn算法分类 小编为大家分享一段代码:机器学习--KNN基本实现 # _*_ coding _*_import numpy as npimport mathimport operator def get_data(dataset): x = dataset[:,:-1].astype(np.float) y = dataset[:,-1] return x,y# def cal_dis(a,b):# x1,y1 = a[:]# x2,y2 = b[:]# dist = math.sqrt(math.pow(2,x2)-math.pow(2,x1)) def knnclassifer(dataset,predict,k=3): x,y = get_da……

    Copyright 2018-2019 xz577.com 码农之家

    版权责任说明