当前位置:首页 > 人工智能 >
《白话大数据与机器学习》电子书封面

白话大数据与机器学习

  • 发布时间:2019年12月30日 15:33:11
  • 作者:高扬
  • 大小:137.7 MB
  • 类别:大数据电子书
  • 格式:PDF
  • 版本:扫描超清版
  • 评分:9.8

    大数据推荐

    白话大数据与机器学习 PDF 扫描超清版

      给大家带来的一篇关于大数据相关的电子书资源,介绍了关于大数据、机器学习方面的内容,本书是由机械工业出版社出版,格式为PDF,资源大小137.7 MB,高扬编写,目前豆瓣、亚马逊、当当、京东等电子书综合评分为:8.7分

      Tags:

      内容介绍

      资深大数据专家多年实战经验总结,拒绝晦涩,开启大数据与机器学习妙趣之旅。以降低学习曲线和阅读难度为宗旨,系统讲解统计学、数据挖掘算法、实际应用案例、数据价值与变现,以及高级拓展技能,并清晰勾勒出大数据技术路线与产业蓝图。

      本书共分18章。用通俗易懂的语言,结合大量案例与漫画,不枯燥,实用、接地气。

      第1~5章,这部分是大数据入门所需的系统性知识,剖析大数据产业、数据与信息算法等的关系,妙解数学基础(排列组合、概率、统计与分布),以及指标化运营及体系构建。这部分补足读者的产业与相关概念认知,以及所需的数学知识。为下面的数据挖掘算法的理解与应用夯实基础。

      第6~8章,这部分介绍数据挖掘基础知识与算法,讲解了与数据息息相关的信息论,重点讲解了:多维向量空间(向量和维度、矩阵及其计算、上卷和下钻);
      回归(线性回归、残差分析、拟合相关问题);

      聚类(K-Means算法、有趣模式、孤立点、层次与密度聚类,聚类的评估等);

      分类(朴素贝叶斯、决策树归纳、*森林、隐马尔科夫模型、SVM、遗传算法)。

      第11~18章,这部分介绍生产应用与高级扩展。其中第11~15章介绍生产应用实践,涵盖关联分析、用户画像、推荐算法、文本挖掘、人工神经网络。这些也是工业界和学术界研究的热点。第16章讲解了著名的大数据框架及其安装与配置,如Hadoop、Spark、Cassandra、PrestoDB。第17章从速度与稳定性维度介绍了大数据系统的架构与调优。第18章则从数据运营、评估、展现与变现场景层面进行了解读。
      附录部分给出了大数据平台运行可能需要的软件和库,以及群众如何看待炙手可热的大数据。

      目录

      • 第1章大数据产业1
      • 1.1大数据产业现状1
      • 1.2对大数据产业的理解2
      • 1.3大数据人才3
      • 1.3.1供需失衡3
      • 1.3.2人才方向3
      • 1.3.3环节和工具5
      • 1.3.4门槛障碍6
      • 1.4小结8
      • 第2章步入数据之门9
      • 2.1什么是数据9
      • 2.2什么是信息10
      • 2.3什么是算法12
      • 2.4统计、概率和数据挖掘13
      • 2.5什么是商业智能13
      • 2.6小结14
      • 第3章排列组合与古典概型15
      • 3.1排列组合的概念16
      • 3.1.1公平的决断——扔硬币16
      • 3.1.2非古典概型17
      • 3.2排列组合的应用示例18
      • 3.2.1双色球彩票18
      • 3.2.2购车摇号20
      • 3.2.3德州扑克21
      • 3.3小结25
      • 第4章统计与分布27
      • 4.1加和值、平均值和标准差27
      • 4.1.1加和值28
      • 4.1.2平均值29
      • 4.1.3标准差30
      • 4.2加权均值32
      • 4.2.1混合物定价32
      • 4.2.2决策权衡34
      • 4.3众数、中位数35
      • 4.3.1众数36
      • 4.3.2中位数37
      • 4.4欧氏距离37
      • 4.5曼哈顿距离39
      • 4.6同比和环比41
      • 4.7抽样43
      • 4.8高斯分布45
      • 4.9泊松分布49
      • 4.10伯努利分布52
      • 4.11小结54
      • 第5章指标55
      • 5.1什么是指标55
      • 5.2指标化运营58
      • 5.2.1指标的选择58
      • 5.2.2指标体系的构建62
      • 5.3小结63
      • 第6章信息论64
      • 6.1信息的定义64
      • 6.2信息量65
      • 6.2.1信息量的计算65
      • 6.2.2信息量的理解66
      • 6.3香农公式68
      • 6.4熵70
      • 6.4.1热力熵70
      • 6.4.2信息熵72
      • 6.5小结75
      • 第7章多维向量空间76
      • 7.1向量和维度76
      • 7.1.1信息冗余77
      • 7.1.2维度79
      • 7.2矩阵和矩阵计算80
      • 7.3数据立方体83
      • 7.4上卷和下钻85
      • 7.5小结86
      • 第8章回归87
      • 8.1线性回归87
      • 8.2拟合88
      • 8.3残差分析94
      • 8.4过拟合99
      • 8.5欠拟合100
      • 8.6曲线拟合转化为线性拟合101
      • 8.7小结104
      • 第9章聚类105
      • 9.1K-Means算法106
      • 9.2有趣模式109
      • 9.3孤立点110
      • 9.4层次聚类110
      • 9.5密度聚类113
      • 9.6聚类评估116
      • 9.6.1聚类趋势117
      • 9.6.2簇数确定119
      • 9.6.3测定聚类质量121
      • 9.7小结124
      • 第10章分类125
      • 10.1朴素贝叶斯126
      • 10.1.1天气的预测128
      • 10.1.2疾病的预测130
      • 10.1.3小结132
      • 10.2决策树归纳133
      • 10.2.1样本收集135
      • 10.2.2信息增益136
      • 10.2.3连续型变量137
      • 10.3随机森林140
      • 10.4隐马尔可夫模型141
      • 10.4.1维特比算法144
      • 10.4.2前向算法151
      • 10.5支持向量机SVM154
      • 10.5.1年龄和好坏154
      • 10.5.2“下刀”不容易157
      • 10.5.3距离有多远158
      • 10.5.4N维度空间中的距离159
      • 10.5.5超平面怎么画160
      • 10.5.6分不开怎么办160
      • 10.5.7示例163
      • 10.5.8小结164
      • 10.6遗传算法164
      • 10.6.1进化过程164
      • 10.6.2算法过程165
      • 10.6.3背包问题165
      • 10.6.4极大值问题173
      • 10.7小结181
      • 第11章关联分析183
      • 11.1频繁模式和Apriori算法184
      • 11.1.1频繁模式184
      • 11.1.2支持度和置信度185
      • 11.1.3经典的Apriori算法187
      • 11.1.4求出所有频繁模式190
      • 11.2关联分析与相关性分析192
      • 11.3稀有模式和负模式193
      • 11.4小结194
      • 第12章用户画像195
      • 12.1标签195
      • 12.2画像的方法196
      • 12.2.1结构化标签196
      • 12.2.2非结构化标签198
      • 12.3利用用户画像203
      • 12.3.1割裂型用户画像203
      • 12.3.2紧密型用户画像204
      • 12.3.3到底“像不像”204
      • 12.4小结205
      • 第13章推荐算法206
      • 13.1推荐思路206
      • 13.1.1贝叶斯分类206
      • 13.1.2利用搜索记录207
      • 13.2User-basedCF209
      • 13.3Item-basedCF211
      • 13.4优化问题215
      • 13.5小结217
      • 第14章文本挖掘218
      • 14.1文本挖掘的领域218
      • 14.2文本分类219
      • 14.2.1Rocchio算法220
      • 14.2.2朴素贝叶斯算法223
      • 14.2.3K-近邻算法225
      • 14.2.4支持向量机SVM算法226
      • 14.3小结227
      • 第15章人工神经网络228
      • 15.1人的神经网络228
      • 15.1.1神经网络结构229
      • 15.1.2结构模拟230
      • 15.1.3训练与工作231
      • 15.2FANN库简介233
      • 15.3常见的神经网络235
      • 15.4BP神经网络235
      • 15.4.1结构和原理236
      • 15.4.2训练过程237
      • 15.4.3过程解释240
      • 15.4.4示例240
      • 15.5玻尔兹曼机244
      • 15.5.1退火模型244
      • 15.5.2玻尔兹曼机245
      • 15.6卷积神经网络247
      • 15.6.1卷积248
      • 15.6.2图像识别249
      • 15.7深度学习255
      • 15.8小结256
      • 第16章大数据框架简介257
      • 16.1著名的大数据框架257
      • 16.2Hadoop框架258
      • 16.2.1MapReduce原理259
      • 16.2.2安装Hadoop261
      • 16.2.3经典的WordCount264
      • 16.3Spark框架269
      • 16.3.1安装Spark270
      • 16.3.2使用Scala计算WordCount271
      • 16.4分布式列存储框架272
      • 16.5PrestoDB——神奇的CLI273
      • 16.5.1Presto为什么那么快273
      • 16.5.2安装Presto274
      • 16.6小结277
      • 第17章系统架构和调优278
      • 17.1速度——资源的配置278
      • 17.1.1思路一:逻辑层面的优化279
      • 17.1.2思路二:容器层面的优化279
      • 17.1.3思路三:存储结构层面的优化280
      • 17.1.4思路四:环节层面的优化280
      • 17.1.5资源不足281
      • 17.2稳定——资源的可用282
      • 17.2.1借助云服务282
      • 17.2.2锁分散282
      • 17.2.3排队283
      • 17.2.4谨防“雪崩”283
      • 17.3小结285
      • 第18章数据解读与数据的价值286
      • 18.1运营指标286
      • 18.1.1互联网类型公司常用指标287
      • 18.1.2注意事项288
      • 18.2AB测试289
      • 18.2.1网页测试290
      • 18.2.2方案测试290
      • 18.2.3灰度发布292
      • 18.2.4注意事项293
      • 18.3数据可视化295
      • 18.3.1图表295
      • 18.3.2表格299
      • 18.4多维度——大数据的灵魂299
      • 18.4.1多大算大299
      • 18.4.2大数据网络300
      • 18.4.3去中心化才能活跃301
      • 18.4.4数据会过剩吗302
      • 18.5数据变现的场景303
      • 18.5.1数据价值的衡量的讨论303
      • 18.5.2场景1:征信数据307
      • 18.5.3场景2:宏观数据308
      • 18.5.4场景3:画像数据309
      • 18.6小结310
      • 附录AVMwareWorkstation的安装311
      • 附录BCentOS虚拟机的安装方法314
      • 附录CPython语言简介318
      • 附录DScikit-learn库简介323
      • 附录EFANNforPython安装324
      • 附录F群众眼中的大数据325
      • 写作花絮327
      • 参考文献329

      以上就是本次介绍的大数据电子书的全部相关内容,希望我们整理的资源能够帮助到大家,感谢大家对码农之家的支持。

      上一篇:Linux程序设计

      下一篇:Linux Shell编程从初学到精通

      展开 +

      收起 -

      下载地址:百度网盘下载
      大数据 相关电子书
      基于Python的大数据分析基础及实战
      基于Python的大数据分析基础及实战 PDF 高质量版

      配套设施教程视频教你如何学Python 提炼出避坑技能招式简要、高效率懂Python 实战演练经典案例轻轻松松、迅速玩Python 解读实践活动实例视頻源码源统计数据 对于Python初学者量身订做,新手入

      立即下载
      大数据算法
      大数据算法 PDF 高清版

      大数据算法 是国内系统介绍大数据算法设计与分析技术的教材,内容丰富,结构合理,旨在讲述和解决大数据处理和应用中相关算法设计与分析的理论和方法,切实培养读者设计、分析与应用

      立即下载
      Hadoop大数据挖掘从入门到进阶实战
      Hadoop大数据挖掘从入门到进阶实战 PDF 影印版

      博客园资深博主、极客学院金牌讲师多年Hadoop实战经验分享;详解Hadoop完整的技术体系:基础部署、集群管理、底层设计、项目实战;200分钟配套视频;51个实例,10个案例,大量避坑技巧

      立即下载
      Spark大数据商业实战三部曲
      Spark大数据商业实战三部曲 PDF 超清扫描版

      本书基于Spark 2.2.X,以Spark商业案例实战和Spark在生产环境下几乎所有类型的性能调优为核心,循序渐进地全面解析了Spark 2.2,完全全面,欢迎下载

      立即下载
      征信与大数据
      征信与大数据 PDF 完整影印版

      本书剖析国外成熟的知名征信机构的发展历程,商业模式和未来趋势,提取对中国征信业建设的启示和有益的经验,希望能够给混乱而有蓬勃发展的中国市场化征信提供借鉴,感兴趣的可以下载

      立即下载
      基于免疫计算的机器学习方法及应用
      基于免疫计算的机器学习方法及应用 PDF 原书完整版

      对于关联规则发掘、数据标准化、统计数据聚类分析法、特性约简等深度学习及生物信息大数据分析等实际难题,明确提出一连串新方式,并融合深度神经网络和张量测算讨论了深度学习软计

      立即下载
      机器学习与R语言
      机器学习与R语言 PDF 高清版

      R本身是一款十分优秀的数据分析和数据可视化软件。《 机器学习与R语言 》通过将实践案例与核心的理论知识相结合,提供了你开始将机器学习应用到你自己项目中所需要的知识。《机器学习

      立即下载
      分布式机器学习:算法、理论与实践
      分布式机器学习:算法、理论与实践 PDF 完整版

      《分布式机器学习:算法、理论与实践》 旨在全面介绍分布式机器学习的现状,深入分析其中的核心技术问题,并且讨论该领域未来的发展方向。 全书共12章。第1章是绪论,向大家展示分布式

      立即下载
      SQL机器学习库MADlib技术解析
      SQL机器学习库MADlib技术解析 PDF 完整原版

      做为一名数据库查询开发者或DBA,当应对聚类分析或主成分分析等难题时将会会一筹莫展。原因很简单,用經典SQL言语保持这种繁杂模型基础是不太可能的。如今,DBA运用MADlib,只需应用SQL查

      立即下载
      读者心得
      35小时28分钟前回答

      jQuery插件select2利用ajax高效查询大数据列表(可搜索、可分页)

      select2是一款jQuery插件,是普通form表单select组件的升级版。 可以定制搜索、远程数据集(Remote data,本篇主要介绍点)、无限滚动(数据分页功能,这一点很妙)、还有很多高端的参数设置(有需要的下次介绍)。 内置了40种国际化语言,不过这里我们只需要用到中文。 同时支持现代和传统浏览器内置,甚至包括惹人不高兴的IE8。 那么,现在让我们开始一段select2的奇幻之旅吧! 一、惊艳的效果,来一睹为快吧 本地实战结果 二、导入css和js到网站上 1.使用CDN,节省自己网站的流量 link href="https://cdnjs.cloudflare.com/ajax/libs/select2/4.0.3/css/select2.min.css" rel="external nofollow" rel="stylesheet" /script src="https://cdnjs.cloudf……

      129小时36分钟前回答

      easyui datagrid 大数据加载效率慢,优化解决方法(推荐)

      在使用easyui datagrid途中发现加载数据的效率真的不是一般的差。经测试IE8加载300条数据就感觉明显的慢了,加载2000条数据就另人崩溃用时差不多60秒,就算在google浏览器测试结果也快不了几秒。 平时听闻easyui datagrid效率底下,自己测试才发现真是使人无法忍受。 笔者只好百度,google解决方法,发现一篇文章说改 //1.3.3版本是这样的,其它版本也是这句代码 $(_1e0).html(_1e4.join("")); 改为: $(_1e0)[0].innerHTML = _1e4.join(""); 笔者找了类似的地方修改,测试后结果还是一样。没有任何效果,可能是跟作者的版本不同,我的是1.3版,作者是的1.33版。 忙了半天,只好自己续步调试追踪。经过努力终于找到了导致慢的真……

      115小时5分钟前回答

      在大数据情况下MySQL的一种简单分页优化方法

      通常应用需要对表中的数据进行翻页,如果数据量很大,往往会带来性能上的问题: root@sns 07:16:25select count(*) from reply_0004 where thread_id = 5616385 and deleted = 0;+———-+| count(*) |+———-+| 1236795 |+———-+1 row in set (0.44 sec)root@sns 07:16:30select idfrom reply_0004 where thread_id = 5616385 and deleted = 0order by id asc limit 1236785, 10 ;+———–+| id |+———–+| 162436798 || 162438180 || 162440102 || 162442044 || 162479222 || 162479598 || 162514705 || 162832588 || 162863394 || 162899685 |+———–+10 rows in set (1.32 sec) 索引:threa_id+deleted+id(gmt_Create) 10 rows in set (1.32 sec) 这两条sql是为查询最后一页的翻页sql查询用的。由于一次翻页往往只需要查询较小的数据,如……

      167小时27分钟前回答

      MySQL中使用innobackupex、xtrabackup进行大数据的备份和还原教程

      大数据量备份与还原,始终是个难点。当MYSQL超10G,用mysqldump来导出就比较慢了。在这里推荐xtrabackup,这个工具比mysqldump要快很多。 一、Xtrabackup介绍 1、Xtrabackup是什么 Xtrabackup是一个对InnoDB做数据备份的工具,支持在线热备份(备份时不影响数据读写),是商业备份工具InnoDB Hotbackup的一个很好的替代品。 Xtrabackup有两个主要的工具:xtrabackup、innobackupex 1、xtrabackup只能备份InnoDB和XtraDB两种数据表,而不能备份MyISAM数据表 2、 innobackupex是参考了InnoDB Hotbackup的innoback脚本修改而来的.innobackupex是一个perl脚本封装,封装了xtrabackup。主要是为了方便的 同时备份InnoDB和MyISAM引擎的表,但在处理myisam时需要加一个读锁。……

      码农之家

      辛博学 提供上传

      资源
      47
      粉丝
      40
      喜欢
      83
      评论
      20

      Copyright 2018-2021 www.xz577.com 码农之家

      版权投诉 / 书籍推广:520161757@qq.com