标签分类
当前位置:首页 > 数据库电子书 > 大数据电子书网盘下载
大数据架构详解:从数据获取到深度学习 大数据架构详解:从数据获取到深度学习
happygame

happygame 提供上传

资源
50
粉丝
2
喜欢
86
评论
2

    大数据架构详解:从数据获取到深度学习 PDF 高清版

    大数据电子书
    • 发布时间:

    给大家带来的一篇关于大数据相关的电子书资源,介绍了关于大数据、架构、深度学习方面的内容,本书是由电子工业出版社出版,格式为PDF,资源大小72.7 MB,朱洁编写,目前豆瓣、亚马逊、当当、京东等电子书综合评分为:7.4,更多相关的学习资源可以参阅 数据库电子书、等栏目。

  • 大数据架构详解:从数据获取到深度学习 PDF 下载
  • 下载地址:https://pan.baidu.com/s/1Syn7NdSaiwkeMCmzYYwVqA
  • 分享码:6s72
  • 大数据架构详解:从数据获取到深度学习 PDF

    大数据架构详解:从数据获取到深度学习》从构架、业务流程、技术性3个层面从入门到精通地详细介绍了大数据处理行业端到web端专业知识。主题思想包含三一部分:首位一部分从数据的造成、收集、测算、储存、消費端到web端视角详细介绍云计算技术的发源、发展趋势、核心技术点和未来发展趋势,融合栩栩如生的业内产品大全,及其学界最新消息的研究内容和成效,让难懂的技术性通俗易懂;其次一部分从业务流程和技术性视角详细介绍具体实例,让用户了解互联网大数据的主要用途及技术性的实质;最后一部分详细介绍云计算技术并不是孤立无援的,解读怎样与最前沿的停车场系统云平台、深度学习、深度学习等紧密结合。

    《大数据架构详解:从数据获取到深度学习》內容从入门到精通,技术性融合实践活动,从实践活动中了解构架和技术性的实质,合适云计算技术行业的从业者如系统架构师、技术工程师、产品运营等,及其提前准备学习培训有关行业专业知识的老师和学生阅读文章。

    目录

    • 第一部分 大数据的本质
    • 第1章 大数据是什么 2
    • 1.1 大数据导论 2
    • 1.1.1 大数据简史 2
    • 1.1.2 大数据现状 3
    • 1.1.3 大数据与BI 3
    • 1.2 企业数据资产 4
    • 1.3 大数据挑战 5
    • 1.3.1 成本挑战 6
    • 1.3.2 实时性挑战 6
    • 1.3.3 安全挑战 6
    • 1.4 小结 6
    • 第2章 运营商大数据架构 7
    • 2.1 架构驱动的因素 7
    • 2.2 大数据平台架构 7
    • 2.3 平台发展趋势 8
    • 2.4 小结 8
    • 第3章 运营商大数据业务 9
    • 3.1 运营商常见的大数据业务 9
    • 3.1.1 SQM(运维质量管理) 9
    • 3.1.2 CSE(客户体验提升) 9
    • 3.1.3 MSS(市场运维支撑) 10
    • 3.1.4 DMP(数据管理平台) 10
    • 3.2 小结 11
    • 第二部分 大数据技术
    • 第4章 数据获取 14
    • 4.1 数据分类 14
    • 4.2 数据获取组件 14
    • 4.3 探针 15
    • 4.3.1 探针原理 15
    • 4.3.2 探针的关键能力 16
    • 4.4 网页采集 26
    • 4.4.1 网络爬虫 26
    • 4.4.2 简单爬虫Python代码示例 32
    • 4.5 日志收集 33
    • 4.5.1 Flume 33
    • 4.5.2 其他日志收集组件 47
    • 4.6 数据分发中间件 47
    • 4.6.1 数据分发中间件的作用 47
    • 4.6.2 Kafka架构和原理 47
    • 4.7 小结 82
    • 第5章 流处理 83
    • 5.1 算子 83
    • 5.2 流的概念 83
    • 5.3 流的应用场景 84
    • 5.3.1 金融领域 84
    • 5.3.2 电信领域 85
    • 5.4 业界两种典型的流引擎 85
    • 5.4.1 Storm 85
    • 5.4.2 Spark Streaming 89
    • 5.4.3 融合框架 102
    • 5.5 CEP 108
    • 5.5.1 CEP是什么 108
    • 5.5.2 CEP的架构 109
    • 5.5.3 Esper 110
    • 5.6 实时结合机器学习 110
    • 5.6.1 Eagle的特点 111
    • 5.6.2 Eagle概览 111
    • 5.7 小结 116
    • 第6章 交互式分析 117
    • 6.1 交互式分析的概念 117
    • 6.2 MPP DB技术 118
    • 6.2.1 MPP的概念 118
    • 6.2.2 典型的MPP数据库 121
    • 6.2.3 MPP DB调优实战 131
    • 6.2.4 MPP DB适用场景 162
    • 6.3 SQL on Hadoop 163
    • 6.3.1 Hive 163
    • 6.3.2 Phoenix 165
    • 6.3.3 Impala 166
    • 6.4 大数据仓库 167
    • 6.4.1 数据仓库的概念 167
    • 6.4.2 OLTP/OLAP对比 168
    • 6.4.3 大数据场景下的同与不同 168
    • 6.4.4 查询引擎 169
    • 6.4.5 存储引擎 170
    • 6.5 小结 171
    • 第7章 批处理技术 172
    • 7.1 批处理技术的概念 172
    • 7.2 MPP DB技术 172
    • 7.3 MapReduce编程框架 173
    • 7.3.1 MapReduce起源 173
    • 7.3.2 MapReduce原理 173
    • 7.3.3 Shuffle 174
    • 7.3.4 性能差的主要原因 177
    • 7.4 Spark架构和原理 177
    • 7.4.1 Spark的起源和特点 177
    • 7.4.2 Spark的核心概念 178
    • 7.5 BSP框架 217
    • 7.5.1 什么是BSP模型 217
    • 7.5.2 并行模型介绍 218
    • 7.5.3 BSP模型基本原理 220
    • 7.5.4 BSP模型的特点 222
    • 7.5.5 BSP模型的评价 222
    • 7.5.6 BSP与MapReduce对比 222
    • 7.5.7 BSP模型的实现 223
    • 7.5.8 Apache Hama简介 223
    • 7.6 批处理关键技术 227
    • 7.6.1 CodeGen 227
    • 7.6.2 CPU亲和技术 228
    • 7.7 小结 229
    • 第8章 机器学习和数据挖掘 230
    • 8.1 机器学习和数据挖掘的联系与区别 230
    • 8.2 典型的数据挖掘和机器学习过程 231
    • 8.3 机器学习概览 232
    • 8.3.1 学习方式 232
    • 8.3.2 算法类似性 233
    • 8.4 机器学习&数据挖掘应用案例 235
    • 8.4.1 尿布和啤酒的故事 235
    • 8.4.2 决策树用于电信领域故障快速定位 236
    • 8.4.3 图像识别领域 236
    • 8.4.4 自然语言识别 238
    • 8.5 交互式分析 239
    • 8.6 深度学习 240
    • 8.6.1 深度学习概述 240
    • 8.6.2 机器学习的背景 241
    • 8.6.3 人脑视觉机理 242
    • 8.6.4 关于特征 244
    • 8.6.5 需要有多少个特征 245
    • 8.6.6 深度学习的基本思想 246
    • 8.6.7 浅层学习和深度学习 246
    • 8.6.8 深度学习与神经网络 247
    • 8.6.9 深度学习的训练过程 248
    • 8.6.10 深度学习的框架 248
    • 8.6.11 深度学习与GPU 255
    • 8.6.12 深度学习小结与展望 256
    • 8.7 小结 257
    • 第9章 资源管理 258
    • 9.1 资源管理的基本概念 258
    • 9.1.1 资源调度的目标和价值 258
    • 9.1.2 资源调度的使用限制及难点 258
    • 9.2 Hadoop领域的资源调度框架 259
    • 9.2.1 YARN 259
    • 9.2.2 Borg 260
    • 9.2.3 Omega 262
    • 9.2.4 本节小结 263
    • 9.3 资源分配算法 263
    • 9.3.1 算法的作用 263
    • 9.3.2 几种调度算法分析 263
    • 9.4 数据中心统一资源调度 271
    • 9.4.1 Mesos+Marathon架构和原理 271
    • 9.4.2 Mesos+Marathon小结 283
    • 9.5 多租户技术 284
    • 9.5.1 多租户概念 284
    • 9.5.2 多租户方案 284
    • 9.6 基于应用描述的智能调度 287
    • 9.7 Apache Mesos架构和原理 288
    • 9.7.1 Apache Mesos背景 288
    • 9.7.2 Apache Mesos总体架构 288
    • 9.7.3 Apache Mesos工作原理 290
    • 9.7.4 Apache Mesos关键技术 295
    • 9.7.5 Mesos与YARN比较 304
    • 9.8 小结 305
    • 第10章 存储是基础 306
    • 10.1 分久必合,合久必分 306
    • 10.2 存储硬件的发展 306
    • 10.2.1 机械硬盘的工作原理 306
    • 10.2.2 SSD的原理 307
    • 10.2.3 3DXPoint 309
    • 10.2.4 硬件发展小结 309
    • 10.3 存储关键指标 309
    • 10.4 RAID技术 309
    • 10.5 存储接口 310
    • 10.5.1 文件接口 311
    • 10.5.2 裸设备 311
    • 10.5.3 对象接口 312
    • 10.5.4 块接口 316
    • 10.5.5 融合是趋势 328
    • 10.6 存储加速技术 328
    • 10.6.1 数据组织技术 328
    • 10.6.2 缓存技术 335
    • 10.7 小结 336
    • 第11章 大数据云化 337
    • 11.1 云计算定义 337
    • 11.2 应用上云 337
    • 11.2.1 Cloud Native概念 338
    • 11.2.2 微服务架构 338
    • 11.2.3 Docker配合微服务架构 342
    • 11.2.4 应用上云小结 348
    • 11.3 大数据上云 348
    • 11.3.1 大数据云服务的两种模式 348
    • 11.3.2 集群模式AWSEMR 349
    • 11.3.3 服务模式Azure Data Lake Analytics 352
    • 11.4 小结 354
    • 第三部分 大数据文化
    • 第12章 大数据技术开发文化 356
    • 12.1 开源文化 356
    • 12.2 DevOps理念 356
    • 12.2.1 Development和Operations的组合 357
    • 12.2.2 对应用程序发布的影响 357
    • 12.2.3 遇到的问题 358
    • 12.2.4 协调人 358
    • 12.2.5 成功的关键 359
    • 12.3 速度远比你想的重要 359
    • 12.4 小结 361

    读书笔记

    大数据用什么语言?

    大数据是这近年来一直比较火的一个词语,让很多人都情不自禁走入大数据的学习中。可是你知道大数据用什么语言吗?

    大数据用什么语言?

    1、Python语言
    十多年来,Python在学术界当中一直很流行,尤其是在自然语言处理(NLP)等领域。因而,如果你有一个需要NLP处理的项目,就会面临数量多得让人眼花缭乱的选择,包括经典的NTLK、使用GenSim的主题建模,或者超快、准确的spaCy。同样,说到神经网络,Python同样游刃有余,有Theano和Tensorflow;随后还有面向机器学习的scikit-learn,以及面向数据分析的NumPy和Pandas。
    还有Juypter/iPython――这种基于Web的笔记本服务器框架让你可以使用一种可共享的日志格式,将代码、图形以及几乎任何对象混合起来。这一直是Python的杀手级功能之一,不过这年头,这个概念证明大有用途,以至于出现在了奉行读取-读取-输出-循环(REPL)概念的几乎所有语言上,包括Scala和R。
    Python往往在大数据处理框架中得到支持,但与此同时,它往往又不是“一等公民”。比如说,Spark中的新功能几乎总是出现在Scala/Java绑定的首位,可能需要用PySpark编写面向那些更新版的几个次要版本(对Spark Streaming/MLLib方面的开发工具而言尤为如此)。
    与R相反,Python是一种传统的面向对象语言,所以大多数开发人员用起来会相当得心应手,而初次接触R或Scala会让人心生畏惧。一个小问题就是你的代码中需要留出正确的空白处。这将人员分成两大阵营,一派觉得“这非常有助于确保可读性”,另一派则认为,我们应该不需要就因为一行代码有个字符不在适当的位置,就要迫使解释器让程序运行起来。
    2、R语言
    在过去的几年时间中,R语言已经成为了数据科学的宠儿——数据科学现在不仅仅在书呆子一样的统计学家中人尽皆知,而且也为华尔街交易员,生物学家,和硅谷开发者所家喻户晓。各种行业的公司,例如Google,Facebook,美国银行,以及纽约时报都使用R语言,R语言正在商业用途上持续蔓延和扩散。
    R语言有着简单而明显的吸引力。使用R语言,只需要短短的几行代码,你就可以在复杂的数据集中筛选,通过先进的建模函数处理数据,以及创建平整的图形来代表数字。它被比喻为是Excel的一个极度活跃版本。
    R语言最伟大的资本是已围绕它开发的充满活力的生态系统:R语言社区总是在不断地添加新的软件包和功能到它已经相当丰富的功能集中。据估计,超过200万的人使用R语言,并且最近的一次投票表明,R语言是迄今为止在科学数据中最流行的语言,被61%的受访者使用(其次是Python,39%)。
    3、JAVA
    Java,以及基于Java的框架,被发现俨然成为了硅谷最大的那些高科技公司的骨骼支架。 “如果你去看Twitter,LinkedIn和Facebook,那么你会发现,Java是它们所有数据工程基础设施的基础语言,”Driscoll说。
    Java不能提供R和Python同样质量的可视化,并且它并非统计建模的最佳选择。但是,如果你移动到过去的原型制作并需要建立大型系统,那么Java往往是你的最佳选择。

    以上就是大数据用什么语言?的详细内容,更多请关注码农之家其它相关文章!

    上一篇:21天学通Java  下一篇:Hadoop应用架构

    展开 +

    收起 -

    码小辫二维码
     ←点击下载即可登录

    大数据相关电子书
    学习笔记
    网友NO.713366

    Python中大数据处理详解

    分享 知识要点: lubridate包拆解时间 | POSIXlt 利用决策树分类,利用随机森林预测 利用对数进行fit,和exp函数还原 训练集来自Kaggle华盛顿自行车共享计划中的自行车租赁数据,分析共享自行车与天气、时间等关系。数据集共11个变量,10000多行数据。 首先看一下官方给出的数据,一共两个表格,都是2011-2012年的数据,区别是Test文件是每个月的日期都是全的,但是没有注册用户和随意用户。而Train文件是每个月只有1-20天,但有两类用户的数量。 求解:补全Train文件里21-30号的用户数量。评价标准是预测与真实数量的比较。 1.png 首先加载文件和包 library(lubridate)library(randomForest)library(readr)setwd(E:)data-read_csv(train.csv)head(data) 这里我就遇到坑了,用r语言缺省的read.csv死活读不出来正确的文件格式,换成xlsx更惨,所有时间都变成43045这样的怪数字。本来之前试过as.Date可以正确转换,但这次因为有时分秒,就只能用时间戳,但结果也不行。 最后是下载了readr包,用read_csv语句,顺利解读。 因为test比train日期完整,但缺少用户数,所以要把train和test合并。 test$registered=0test$casual=0test$count=0data-rbind(train,test) 摘取时间:可以用时间戳,这里的时间比较简单,就是小时数,所以也可以直接截字符串。 data$hour1-substr(data$datetime,12,13)table(data$hour1) 统……

    网友NO.741738

    大数据专业学什么

    大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。目前,大数据算是非常火的专业,下面我将和大家谈谈大数据专业学什么? 大数据专业分为两种,其一是大数据开发,其二是数据分析与挖掘。 1、大数据开发:Ja-va、大数据基础、Hadoop体系、Scala、kafka、Spark等内容; 2、数据分析与挖掘:Python、关系型数据库MySQL、文档数据库MongoDB、内存数据库Redis、数据处理、数据分析等。 以上就是大数据专业学什么的详细内容,更多请关注码农之家其它相关文章! ……

    网友NO.665328

    在大数据情况下MySQL的一种简单分页优化方法

    通常应用需要对表中的数据进行翻页,如果数据量很大,往往会带来性能上的问题: root@sns 07:16:25select count(*) from reply_0004 where thread_id = 5616385 and deleted = 0;+———-+| count(*) |+———-+| 1236795 |+———-+1 row in set (0.44 sec)root@sns 07:16:30select idfrom reply_0004 where thread_id = 5616385 and deleted = 0order by id asc limit 1236785, 10 ;+———–+| id |+———–+| 162436798 || 162438180 || 162440102 || 162442044 || 162479222 || 162479598 || 162514705 || 162832588 || 162863394 || 162899685 |+———–+10 rows in set (1.32 sec) 索引:threa_id+deleted+id(gmt_Create) 10 rows in set (1.32 sec) 这两条sql是为查询最后一页的翻页sql查询用的。由于一次翻页往往只需要查询较小的数据,如10条,但需要向后扫描大量的数据,也就是越往后的翻页查询,扫描的数据量会越多,查询的速度也就越来越慢。 由于查询的数据量大小是固定的,如果查询速度不受翻页的页数影响,或者影响最低,那么这样是最佳的效果了(查询最后最几页的速度和开始几页的速度一致)。 在翻页的时候,往往需要对其中的某个字段做排序(这个字段在索引中),升序排序。那么可不可以利用索引的有序性来解决上面遇到的问题喃,答案是肯定的。比如有10000条数据需要做分页,那么前5000条做asc排序,后5000条desc排序,在limit startnum,page……

    Copyright 2018-2019 xz577.com 码农之家

    版权责任说明