当前位置:首页 > 数据库 >
《零基础学大数据算法》电子书封面

零基础学大数据算法

  • 发布时间:2019年08月05日 09:09:44
  • 作者:王宏志
  • 大小:98.2 MB
  • 类别:大数据电子书
  • 格式:PDF
  • 版本:影印完整版
  • 评分:9.7

    零基础学大数据算法 PDF 影印完整版

      给大家带来的一篇关于大数据相关的电子书资源,介绍了关于大数据、算法方面的内容,本书是由电子工业出版社出版,格式为PDF,资源大小98.2 MB,王宏志编写,目前豆瓣、亚马逊、当当、京东等电子书综合评分为:7.9。

      内容介绍

      零基础学大数据算法 pdf

      这书是浅显易懂的大数据算法教程。全篇选用老师学生会话的方式,致力于用通俗化的語言、轻轻松松的氛围,协助用户了解大数据测算行业中的基本算法和观念。这书由背景图篇、基础理论篇、运用篇和实践篇四一部分构成。背景图篇详细介绍大数据、算法、大数据算法等基本要素和背景图;基础理论篇详细介绍处理大数据难题的亚线形算法、硬盘算法、并行算法、众包算法的基础观念和基础知识;运用篇详细介绍与大数据难题密切相关的大数据挖掘和推荐算法的有关专业知识;实践篇从具体运用去往,正确引导用户动手能力实际操作,协助用户根据具体程序流程和试验认证硬盘算法、并行算法和众包算法。在解读每1个大数据难题以前,这书都是详细介绍很多的經典算法和基本数据结构专业知识,不但能够协助学习培训过数据结构与算法、计算机算法与剖析等课程内容的同学们备考,一起可以让新手入门的“小菜鸟”们,不容易由于沒有学习培训过經典算法而对这书望而生畏,轻轻松松地把握大数据算法!

      目录

      • 第1 篇 背景篇
      • 第1 章 何谓大数据 4
      • 1.1 身边的大数据 4
      • 1.2 大数据的特点和应用 6
      • 第2 章 何谓算法 8
      • 2.1 算法的定义 8
      • 2.2 算法的分析 14
      • 2.3 基础数据结构——线性表 24
      • 2.4 递归——以阶乘为例 28
      • 第3 章 何谓大数据算法 31
      • 第2 篇 理论篇
      • 第4 章 窥一斑而见全豹——亚线性算法 34
      • 4.1 亚线性算法的定义 34
      • 4.2 空间亚线性算法 35
      • 4.2.1 水库抽样 35
      • 4.2.2 数据流中的频繁元素 37
      • 4.3 时间亚线性计算算法 40
      • 4.3.1 图论基础回顾 40
      • 4.3.2 平面图直径 45
      • 4.3.3 最小生成树 46
      • 4.4 时间亚线性判定算法 53
      • 4.4.1 全0 数组的判定 53
      • 4.4.2 数组有序的判定 55
      • 第5 章 价钱与性能的平衡——磁盘算法 58
      • 5.1 磁盘算法概述 58
      • 5.2 外排序 62
      • 5.3 外存数据结构——磁盘查找树 71
      • 5.3.1 二叉搜索树回顾 71
      • 5.3.2 外存数据结构——B 树 78
      • 5.3.3 高维外存查找结构——KD 树 80
      • 5.4 表排序 83
      • 5.5 表排序的应用 86
      • 5.5.1 欧拉回路技术 86
      • 5.5.2 父子关系判定 87
      • 5.5.3 前序计数 88
      • 5.6 时间前向处理技术 90
      • 5.7 缩图法 98
      • 第6 章 1 1>2——并行算法 103
      • 6.1 MapReduce 初探 103
      • 6.2 MapReduce 算法实例 106
      • 6.2.1 字数统计 106
      • 6.2.2 平均数计算 108
      • 6.2.3 单词共现矩阵计算 111
      • 6.3 MapReduce 进阶算法 115
      • 6.3.1 join 操作 115
      • 6.3.2 MapReduce 图算法概述 122
      • 6.3.3 基于路径的图算法 125
      • 第7 章 超越MapReduce 的并行计算 131
      • 7.1 MapReduce 平台的局限 131
      • 7.2 基于图处理平台的并行算法 136
      • 7.2.1 概述 136
      • 7.2.2 BSP 模型下的单源最短路径 137
      • 7.2.3 计算子图同构 141
      • 第8 章 众人拾柴火焰高——众包算法 144
      • 8.1 众包概述 144
      • 8.1.1 众包的定义 144
      • 8.1.2 众包应用举例 146
      • 8.1.3 众包的特点 149
      • 8.2 众包算法例析 152
      • 第3 篇 应用篇
      • 第9 章 大数据中有黄金——数据挖掘 158
      • 9.1 数据挖掘概述 158
      • 9.2 数据挖掘的分类 159
      • 9.3 聚类算法——k-means 160
      • 9.4 分类算法——Naive Bayes 166
      • 第10 章 推荐系统 170
      • 10.1 推荐系统概述 170
      • 10.2 基于内容的推荐方法 173
      • 10.3 协同过滤模型 176
      • 第4 篇 实践篇
      • 第11 章 磁盘算法实践 186
      • 第12 章 并行算法实践 194
      • 12.1 Hadoop MapReduce 实践 194
      • 12.1.1 环境搭建 194
      • 12.1.2 配置Hadoop 201
      • 12.1.3 “Hello World”程序—— WordCount 203
      • 12.1.4 Hadoop 实践案例——记录去重 213
      • 12.1.5 Hadoop 实践案例——等值连接 216
      • 12.1.6 多机配置 221
      • 12.2 适于迭代并行计算的平台——Spark 224
      • 12.2.1 Spark 初探 224
      • 12.2.2 单词出现行计数 230
      • 12.2.3 在Spark 上实现WordCount 236
      • 12.2.4 在HDFS 上使用Spark 241
      • 12.2.5 Spark 的核心操作——Transformation 和Action 244
      • 12.2.6 Spark 实践案例——PageRank 247
      • 第13 章 众包算法实践 251
      • 13.1 认识AMT 251
      • 13.2 成为众包工人 252

      学习笔记

      Python中大数据处理详解

      分享 知识要点: lubridate包拆解时间 | POSIXlt 利用决策树分类,利用随机森林预测 利用对数进行fit,和exp函数还原 训练集来自Kaggle华盛顿自行车共享计划中的自行车租赁数据,分析共享自行车与天气、时间等关系。数据集共11个变量,10000多行数据。 首先看一下官方给出的数据,一共两个表格,都是2011-2012年的数据,区别是Test文件是每个月的日期都是全的,但是没有注册用户和随意用户。而Train文件是每个月只有1-20天,但有两类用户的数量。 求解:补全Train文件里21-30号的用户数量。评价标准是预测与真实数量的比较。 1.png 首先加载文件和包 library(lubridate)library(randomForest)library(readr)setwd(E:)data-read_csv(t……

      Python如何处理大数据?3个技巧效率提升攻略(推荐)

      如果你有个5、6 G 大小的文件,想把文件内容读出来做一些处理然后存到另外的文件去,你会使用什么进行处理呢?不用在线等,给几个错误示范:有人用multiprocessing 处理,但是效率非常低。于是,有人用python处理大文件还是会存在效率上的问题。因为效率只是和预期的时间有关,不会报错,报错代表程序本身出现问题了~ 所以,为什么用python处理大文件总有效率问题? 如果工作需要,立刻处理一个大文件,你需要注意两点: 01、大型文件的读取效率 面对100w行的大型数据,经过测试各种文件读取方式,得出结论: with open(filename,"rb") as f: for fLine in f: pass 方式最快,100w行全遍历2.7秒。 基本满足中大型文……

      Python实现的大数据分析操作系统日志功能示例

      本文实例讲述了Python实现的大数据分析操作系统日志功能。分享给大家供大家参考,具体如下: 一 代码 1、大文件切分 import osimport os.pathimport timedef FileSplit(sourceFile, targetFolder): if not os.path.isfile(sourceFile): print(sourceFile, ' does not exist.') return if not os.path.isdir(targetFolder): os.mkdir(targetFolder) tempData = [] number = 1000 fileNum = 1 linesRead = 0 with open(sourceFile, 'r') as srcFile: dataLine = srcFile.readline().strip() while dataLine: for i in range(number): tempData.append(dataLine) dataLine = srcFile.readline() if not dataLine: break desFile = os.path.join(targetFolder, sourceFile[0:-4] + str(fileNum) + '.txt') with open(desFile, 'a+') as f: f.writelines(tempData) tempData = [] fileNum = fileNum + 1if __name_……

      以上就是本次介绍的大数据电子书的全部相关内容,希望我们整理的资源能够帮助到大家,感谢大家对码农之家的支持。

      上一篇:内容分发网络原理与实践

      下一篇:快速上手React编程

      展开 +

      收起 -

      • 《零基础学大数据算法》PDF下载

      下载地址:百度网盘下载
      大数据相关电子书
      自己动手做大数据系统
      自己动手做大数据系统 高清版

      如果你是一位在校大学生,对大数据感兴趣,也知道使用的企业越来越多,市场需求更是日新月异,但苦于自己基础不够,心有余而力不足;也看过不少大数据方面的书籍、博客、视频等,但

      立即下载
      大数据之路:阿里巴巴大数据实践
      大数据之路:阿里巴巴大数据实践 影印版

      阿里巴巴官方首度公开大数据系统架构与技术细节,CSDN、ChinaUnix、ITPUB、segmentfault等多家技术社区力荐

      立即下载
      Elasticsearch大数据搜索引擎
      Elasticsearch大数据搜索引擎 原版超清版

      在本次内容里给大家带来的是罗刚的Elasticsearch大数据搜索引擎相关内容的资源,本书介绍了使用Elasticsearch作为数据管理平台的日志监控与分析方法,介绍了使用OCR从图像中提取文本以及问答式搜索的开发方法。

      立即下载
      大数据搜索引擎原理分析及编程实现
      大数据搜索引擎原理分析及编程实现 原书完整版

      本书向读者提供了一套完整的大数据时代背景下的搜索引擎解决方案,详尽地介绍了搜索引擎的技术架构、算法体系及取得的效果,以模块化的方式进行组织

      立即下载
      Cloudera Hadoop大数据平台实战指南
      Cloudera Hadoop大数据平台实战指南 扫描版

      对于入门和学习大数据技术的读者来说,大数据技术的生态圈和知识体系过于庞大,可能还没有开始学习就已经陷入众多的陌生名词和泛泛的概念中。

      立即下载
      Hadoop大数据挖掘从入门到进阶实战
      Hadoop大数据挖掘从入门到进阶实战 影印版

      博客园资深博主、极客学院金牌讲师多年Hadoop实战经验分享;详解Hadoop完整的技术体系:基础部署、集群管理、底层设计、项目实战;200分钟配套视频;51个实例,10个案例,大量避坑技巧

      立即下载
      纵观大数据建模、分析及应用
      纵观大数据建模、分析及应用 完整扫描版

      大数据分析是个入门容易但精专颇难的领域。本书以大数据分析为主线,以电信行业应用为背景,以一线操作者为对象,系统阐述了大数据分析的理论、方法和实践。感兴趣的可以下载学习

      立即下载
      读者留言
      萧曵 丶

      萧曵 丶 提供上传

      资源
      35
      粉丝
      13
      喜欢
      73
      评论
      20

      Copyright 2018-2020 www.xz577.com 码农之家

      投诉 / 推广 / 赞助:QQ:520161757