标签分类
当前位置:首页 > 数据库电子书 > 大数据电子书网盘下载
零基础学大数据算法 零基础学大数据算法
萧曵 丶

萧曵 丶 提供上传

资源
31
粉丝
2
喜欢
1
评论
20

    零基础学大数据算法 PDF 影印完整版

    大数据电子书
    • 发布时间:

    给大家带来的一篇关于大数据相关的电子书资源,介绍了关于大数据、算法方面的内容,本书是由电子工业出版社出版,格式为PDF,资源大小98.2 MB,王宏志编写,目前豆瓣、亚马逊、当当、京东等电子书综合评分为:7.7,更多相关的学习资源可以参阅 数据库电子书数据库视频、等栏目。

  • 零基础学大数据算法 PDF 下载
  • 下载地址:https://pan.baidu.com/s/1sZ5GWu1mLwdhoS-tJOWRSA
  • 分享码:fu97
  • 零基础学大数据算法 pdf

    这书是浅显易懂的大数据算法教程。全篇选用老师学生会话的方式,致力于用通俗化的語言、轻轻松松的氛围,协助用户了解大数据测算行业中的基本算法和观念。这书由背景图篇、基础理论篇、运用篇和实践篇四一部分构成。背景图篇详细介绍大数据、算法、大数据算法等基本要素和背景图;基础理论篇详细介绍处理大数据难题的亚线形算法、硬盘算法、并行算法、众包算法的基础观念和基础知识;运用篇详细介绍与大数据难题密切相关的大数据挖掘和推荐算法的有关专业知识;实践篇从具体运用去往,正确引导用户动手能力实际操作,协助用户根据具体程序流程和试验认证硬盘算法、并行算法和众包算法。在解读每1个大数据难题以前,这书都是详细介绍很多的經典算法和基本数据结构专业知识,不但能够协助学习培训过数据结构与算法、计算机算法与剖析等课程内容的同学们备考,一起可以让新手入门的“小菜鸟”们,不容易由于沒有学习培训过經典算法而对这书望而生畏,轻轻松松地把握大数据算法!

    目录

    • 第1 篇 背景篇
    • 第1 章 何谓大数据 4
    • 1.1 身边的大数据 4
    • 1.2 大数据的特点和应用 6
    • 第2 章 何谓算法 8
    • 2.1 算法的定义 8
    • 2.2 算法的分析 14
    • 2.3 基础数据结构——线性表 24
    • 2.4 递归——以阶乘为例 28
    • 第3 章 何谓大数据算法 31
    • 第2 篇 理论篇
    • 第4 章 窥一斑而见全豹——亚线性算法 34
    • 4.1 亚线性算法的定义 34
    • 4.2 空间亚线性算法 35
    • 4.2.1 水库抽样 35
    • 4.2.2 数据流中的频繁元素 37
    • 4.3 时间亚线性计算算法 40
    • 4.3.1 图论基础回顾 40
    • 4.3.2 平面图直径 45
    • 4.3.3 最小生成树 46
    • 4.4 时间亚线性判定算法 53
    • 4.4.1 全0 数组的判定 53
    • 4.4.2 数组有序的判定 55
    • 第5 章 价钱与性能的平衡——磁盘算法 58
    • 5.1 磁盘算法概述 58
    • 5.2 外排序 62
    • 5.3 外存数据结构——磁盘查找树 71
    • 5.3.1 二叉搜索树回顾 71
    • 5.3.2 外存数据结构——B 树 78
    • 5.3.3 高维外存查找结构——KD 树 80
    • 5.4 表排序 83
    • 5.5 表排序的应用 86
    • 5.5.1 欧拉回路技术 86
    • 5.5.2 父子关系判定 87
    • 5.5.3 前序计数 88
    • 5.6 时间前向处理技术 90
    • 5.7 缩图法 98
    • 第6 章 1 1>2——并行算法 103
    • 6.1 MapReduce 初探 103
    • 6.2 MapReduce 算法实例 106
    • 6.2.1 字数统计 106
    • 6.2.2 平均数计算 108
    • 6.2.3 单词共现矩阵计算 111
    • 6.3 MapReduce 进阶算法 115
    • 6.3.1 join 操作 115
    • 6.3.2 MapReduce 图算法概述 122
    • 6.3.3 基于路径的图算法 125
    • 第7 章 超越MapReduce 的并行计算 131
    • 7.1 MapReduce 平台的局限 131
    • 7.2 基于图处理平台的并行算法 136
    • 7.2.1 概述 136
    • 7.2.2 BSP 模型下的单源最短路径 137
    • 7.2.3 计算子图同构 141
    • 第8 章 众人拾柴火焰高——众包算法 144
    • 8.1 众包概述 144
    • 8.1.1 众包的定义 144
    • 8.1.2 众包应用举例 146
    • 8.1.3 众包的特点 149
    • 8.2 众包算法例析 152
    • 第3 篇 应用篇
    • 第9 章 大数据中有黄金——数据挖掘 158
    • 9.1 数据挖掘概述 158
    • 9.2 数据挖掘的分类 159
    • 9.3 聚类算法——k-means 160
    • 9.4 分类算法——Naive Bayes 166
    • 第10 章 推荐系统 170
    • 10.1 推荐系统概述 170
    • 10.2 基于内容的推荐方法 173
    • 10.3 协同过滤模型 176
    • 第4 篇 实践篇
    • 第11 章 磁盘算法实践 186
    • 第12 章 并行算法实践 194
    • 12.1 Hadoop MapReduce 实践 194
    • 12.1.1 环境搭建 194
    • 12.1.2 配置Hadoop 201
    • 12.1.3 “Hello World”程序—— WordCount 203
    • 12.1.4 Hadoop 实践案例——记录去重 213
    • 12.1.5 Hadoop 实践案例——等值连接 216
    • 12.1.6 多机配置 221
    • 12.2 适于迭代并行计算的平台——Spark 224
    • 12.2.1 Spark 初探 224
    • 12.2.2 单词出现行计数 230
    • 12.2.3 在Spark 上实现WordCount 236
    • 12.2.4 在HDFS 上使用Spark 241
    • 12.2.5 Spark 的核心操作——Transformation 和Action 244
    • 12.2.6 Spark 实践案例——PageRank 247
    • 第13 章 众包算法实践 251
    • 13.1 认识AMT 251
    • 13.2 成为众包工人 252

    上一篇:内外兼修:程序员的成长之路  下一篇:快速上手React编程

    展开 +

    收起 -

    大数据相关电子书
    学习笔记
    网友NO.312997

    Python中大数据处理详解

    分享 知识要点: lubridate包拆解时间 | POSIXlt 利用决策树分类,利用随机森林预测 利用对数进行fit,和exp函数还原 训练集来自Kaggle华盛顿自行车共享计划中的自行车租赁数据,分析共享自行车与天气、时间等关系。数据集共11个变量,10000多行数据。 首先看一下官方给出的数据,一共两个表格,都是2011-2012年的数据,区别是Test文件是每个月的日期都是全的,但是没有注册用户和随意用户。而Train文件是每个月只有1-20天,但有两类用户的数量。 求解:补全Train文件里21-30号的用户数量。评价标准是预测与真实数量的比较。 1.png 首先加载文件和包 library(lubridate)library(randomForest)library(readr)setwd(E:)data-read_csv(train.csv)head(data) 这里我就遇到坑了,用r语言缺省的read.csv死活读不出来正确的文件格式,换成xlsx更惨,所有时间都变成43045这样的怪数字。本来之前试过as.Date可以正确转换,但这次因为有时分秒,就只能用时间戳,但结果也不行。 最后是下载了readr包,用read_csv语句,顺利解读。 因为test比train日期完整,但缺少用户数,所以要把train和test合并。 test$registered=0test$casual=0test$count=0data-rbind(train,test) 摘取时间:可以用时间戳,这里的时间比较简单,就是小时数,所以也可以直接截字符串。 data$hour1-substr(data$datetime,12,13)table(data$hour1) 统……

    网友NO.354937

    Python如何处理大数据?3个技巧效率提升攻略(推荐)

    如果你有个5、6 G 大小的文件,想把文件内容读出来做一些处理然后存到另外的文件去,你会使用什么进行处理呢?不用在线等,给几个错误示范:有人用multiprocessing 处理,但是效率非常低。于是,有人用python处理大文件还是会存在效率上的问题。因为效率只是和预期的时间有关,不会报错,报错代表程序本身出现问题了~ 所以,为什么用python处理大文件总有效率问题? 如果工作需要,立刻处理一个大文件,你需要注意两点: 01、大型文件的读取效率 面对100w行的大型数据,经过测试各种文件读取方式,得出结论: with open(filename,"rb") as f: for fLine in f: pass 方式最快,100w行全遍历2.7秒。 基本满足中大型文件处理效率需求。如果rb改为r,慢6倍。但是此方式处理文件,fLine为bytes类型。但是python自行断行,仍旧能很好的以行为单位处理读取内容。 02、文本处理效率问题 这里举例ascii定长文件,因为这个也并不是分隔符文件,所以打算采用列表操作实现数据分割。但是问题是处理20w条数据,时间急剧上升到12s。本以为是byte.decode增加了时间。遂去除decode全程bytes处理。但是发现效率还是很差。 最后用最简单方式测试,首次运行,最简单方式也要7.5秒100w次。 想知道这个方式处理的完整代码是什么吗?扫描文末二维码,联系小编可以获……

    网友NO.438131

    Python实现的大数据分析操作系统日志功能示例

    本文实例讲述了Python实现的大数据分析操作系统日志功能。分享给大家供大家参考,具体如下: 一 代码 1、大文件切分 import osimport os.pathimport timedef FileSplit(sourceFile, targetFolder): if not os.path.isfile(sourceFile): print(sourceFile, ' does not exist.') return if not os.path.isdir(targetFolder): os.mkdir(targetFolder) tempData = [] number = 1000 fileNum = 1 linesRead = 0 with open(sourceFile, 'r') as srcFile: dataLine = srcFile.readline().strip() while dataLine: for i in range(number): tempData.append(dataLine) dataLine = srcFile.readline() if not dataLine: break desFile = os.path.join(targetFolder, sourceFile[0:-4] + str(fileNum) + '.txt') with open(desFile, 'a+') as f: f.writelines(tempData) tempData = [] fileNum = fileNum + 1if __name__ == '__main__': #sourceFile = input('Input the source file to split:') #targetFolder = input('Input the target folder you want to place the split files:') sourceFile = 'test.txt' targetFolder = 'test' FileSplit(sourceFile, targetFolder) 2、Mapper代码 import osimport reimport threadingimport timedef Map(sourceFile): if not os.path.exists(sourceFile): print(sourceFile, ' does not exist.') return pattern = re.compile(r'[0-9]{1,2}/[0-9]{1,2}/[0-9]{4}') result = {} with open(sourceFile, 'r') as srcFile: for dataLine in srcFile: r = pattern.findall(dataLine) if r: t = result.get(r[0], 0) t += 1 result[r[0]] = t desFile = sourceFile[0:-4] + '_map.txt' with open(desFile, 'a+') as fp: for k, v in……

    Copyright 2018-2019 xz577.com 码农之家

    版权责任说明