当前位置:首页 > 大数据分析 >
《大数据架构详解:从数据获取到深度学习》电子书封面

大数据架构详解:从数据获取到深度学习

  • 发布时间:2019年08月04日 14:47:31
  • 作者:朱洁
  • 大小:72.7 MB
  • 类别:大数据电子书
  • 格式:PDF
  • 版本:超清版
  • 评分:8.8

    大数据架构详解:从数据获取到深度学习 PDF 超清版

      给大家带来的一篇关于大数据相关的电子书资源,介绍了关于大数据、架构、深度学习方面的内容,本书是由电子工业出版社出版,格式为PDF,资源大小72.7 MB,朱洁编写,目前豆瓣、亚马逊、当当、京东等电子书综合评分为:9.6分

      Tags:大数据 深度学习 架构 

      内容介绍

      大数据架构详解:从数据获取到深度学习 PDF

      大数据架构详解:从数据获取到深度学习》从构架、业务流程、技术性3个层面从入门到精通地详细介绍了大数据处理行业端到web端专业知识。主题思想包含三一部分:首位一部分从数据的造成、收集、测算、储存、消費端到web端视角详细介绍云计算技术的发源、发展趋势、核心技术点和未来发展趋势,融合栩栩如生的业内产品大全,及其学界最新消息的研究内容和成效,让难懂的技术性通俗易懂;其次一部分从业务流程和技术性视角详细介绍具体实例,让用户了解互联网大数据的主要用途及技术性的实质;最后一部分详细介绍云计算技术并不是孤立无援的,解读怎样与最前沿的停车场系统云平台、深度学习、深度学习等紧密结合。

      《大数据架构详解:从数据获取到深度学习》內容从入门到精通,技术性融合实践活动,从实践活动中了解构架和技术性的实质,合适云计算技术行业的从业者如系统架构师、技术工程师、产品运营等,及其提前准备学习培训有关行业专业知识的老师和学生阅读文章。

      目录

      • 第一部分 大数据的本质
      • 第1章 大数据是什么 2
      • 1.1 大数据导论 2
      • 1.1.1 大数据简史 2
      • 1.1.2 大数据现状 3
      • 1.1.3 大数据与BI 3
      • 1.2 企业数据资产 4
      • 1.3 大数据挑战 5
      • 1.3.1 成本挑战 6
      • 1.3.2 实时性挑战 6
      • 1.3.3 安全挑战 6
      • 1.4 小结 6
      • 第2章 运营商大数据架构 7
      • 2.1 架构驱动的因素 7
      • 2.2 大数据平台架构 7
      • 2.3 平台发展趋势 8
      • 2.4 小结 8
      • 第3章 运营商大数据业务 9
      • 3.1 运营商常见的大数据业务 9
      • 3.1.1 SQM(运维质量管理) 9
      • 3.1.2 CSE(客户体验提升) 9
      • 3.1.3 MSS(市场运维支撑) 10
      • 3.1.4 DMP(数据管理平台) 10
      • 3.2 小结 11
      • 第二部分 大数据技术
      • 第4章 数据获取 14
      • 4.1 数据分类 14
      • 4.2 数据获取组件 14
      • 4.3 探针 15
      • 4.3.1 探针原理 15
      • 4.3.2 探针的关键能力 16
      • 4.4 网页采集 26
      • 4.4.1 网络爬虫 26
      • 4.4.2 简单爬虫Python代码示例 32
      • 4.5 日志收集 33
      • 4.5.1 Flume 33
      • 4.5.2 其他日志收集组件 47
      • 4.6 数据分发中间件 47
      • 4.6.1 数据分发中间件的作用 47
      • 4.6.2 Kafka架构和原理 47
      • 4.7 小结 82
      • 第5章 流处理 83
      • 5.1 算子 83
      • 5.2 流的概念 83
      • 5.3 流的应用场景 84
      • 5.3.1 金融领域 84
      • 5.3.2 电信领域 85
      • 5.4 业界两种典型的流引擎 85
      • 5.4.1 Storm 85
      • 5.4.2 Spark Streaming 89
      • 5.4.3 融合框架 102
      • 5.5 CEP 108
      • 5.5.1 CEP是什么 108
      • 5.5.2 CEP的架构 109
      • 5.5.3 Esper 110
      • 5.6 实时结合机器学习 110
      • 5.6.1 Eagle的特点 111
      • 5.6.2 Eagle概览 111
      • 5.7 小结 116
      • 第6章 交互式分析 117
      • 6.1 交互式分析的概念 117
      • 6.2 MPP DB技术 118
      • 6.2.1 MPP的概念 118
      • 6.2.2 典型的MPP数据库 121
      • 6.2.3 MPP DB调优实战 131
      • 6.2.4 MPP DB适用场景 162
      • 6.3 SQL on Hadoop 163
      • 6.3.1 Hive 163
      • 6.3.2 Phoenix 165
      • 6.3.3 Impala 166
      • 6.4 大数据仓库 167
      • 6.4.1 数据仓库的概念 167
      • 6.4.2 OLTP/OLAP对比 168
      • 6.4.3 大数据场景下的同与不同 168
      • 6.4.4 查询引擎 169
      • 6.4.5 存储引擎 170
      • 6.5 小结 171
      • 第7章 批处理技术 172
      • 7.1 批处理技术的概念 172
      • 7.2 MPP DB技术 172
      • 7.3 MapReduce编程框架 173
      • 7.3.1 MapReduce起源 173
      • 7.3.2 MapReduce原理 173
      • 7.3.3 Shuffle 174
      • 7.3.4 性能差的主要原因 177
      • 7.4 Spark架构和原理 177
      • 7.4.1 Spark的起源和特点 177
      • 7.4.2 Spark的核心概念 178
      • 7.5 BSP框架 217
      • 7.5.1 什么是BSP模型 217
      • 7.5.2 并行模型介绍 218
      • 7.5.3 BSP模型基本原理 220
      • 7.5.4 BSP模型的特点 222
      • 7.5.5 BSP模型的评价 222
      • 7.5.6 BSP与MapReduce对比 222
      • 7.5.7 BSP模型的实现 223
      • 7.5.8 Apache Hama简介 223
      • 7.6 批处理关键技术 227
      • 7.6.1 CodeGen 227
      • 7.6.2 CPU亲和技术 228
      • 7.7 小结 229
      • 第8章 机器学习和数据挖掘 230
      • 8.1 机器学习和数据挖掘的联系与区别 230
      • 8.2 典型的数据挖掘和机器学习过程 231
      • 8.3 机器学习概览 232
      • 8.3.1 学习方式 232
      • 8.3.2 算法类似性 233
      • 8.4 机器学习&数据挖掘应用案例 235
      • 8.4.1 尿布和啤酒的故事 235
      • 8.4.2 决策树用于电信领域故障快速定位 236
      • 8.4.3 图像识别领域 236
      • 8.4.4 自然语言识别 238
      • 8.5 交互式分析 239
      • 8.6 深度学习 240
      • 8.6.1 深度学习概述 240
      • 8.6.2 机器学习的背景 241
      • 8.6.3 人脑视觉机理 242
      • 8.6.4 关于特征 244
      • 8.6.5 需要有多少个特征 245
      • 8.6.6 深度学习的基本思想 246
      • 8.6.7 浅层学习和深度学习 246
      • 8.6.8 深度学习与神经网络 247
      • 8.6.9 深度学习的训练过程 248
      • 8.6.10 深度学习的框架 248
      • 8.6.11 深度学习与GPU 255
      • 8.6.12 深度学习小结与展望 256
      • 8.7 小结 257
      • 第9章 资源管理 258
      • 9.1 资源管理的基本概念 258
      • 9.1.1 资源调度的目标和价值 258
      • 9.1.2 资源调度的使用限制及难点 258
      • 9.2 Hadoop领域的资源调度框架 259
      • 9.2.1 YARN 259
      • 9.2.2 Borg 260
      • 9.2.3 Omega 262
      • 9.2.4 本节小结 263
      • 9.3 资源分配算法 263
      • 9.3.1 算法的作用 263
      • 9.3.2 几种调度算法分析 263
      • 9.4 数据中心统一资源调度 271
      • 9.4.1 Mesos+Marathon架构和原理 271
      • 9.4.2 Mesos+Marathon小结 283
      • 9.5 多租户技术 284
      • 9.5.1 多租户概念 284
      • 9.5.2 多租户方案 284
      • 9.6 基于应用描述的智能调度 287
      • 9.7 Apache Mesos架构和原理 288
      • 9.7.1 Apache Mesos背景 288
      • 9.7.2 Apache Mesos总体架构 288
      • 9.7.3 Apache Mesos工作原理 290
      • 9.7.4 Apache Mesos关键技术 295
      • 9.7.5 Mesos与YARN比较 304
      • 9.8 小结 305
      • 第10章 存储是基础 306
      • 10.1 分久必合,合久必分 306
      • 10.2 存储硬件的发展 306
      • 10.2.1 机械硬盘的工作原理 306
      • 10.2.2 SSD的原理 307
      • 10.2.3 3DXPoint 309
      • 10.2.4 硬件发展小结 309
      • 10.3 存储关键指标 309
      • 10.4 RAID技术 309
      • 10.5 存储接口 310
      • 10.5.1 文件接口 311
      • 10.5.2 裸设备 311
      • 10.5.3 对象接口 312
      • 10.5.4 块接口 316
      • 10.5.5 融合是趋势 328
      • 10.6 存储加速技术 328
      • 10.6.1 数据组织技术 328
      • 10.6.2 缓存技术 335
      • 10.7 小结 336
      • 第11章 大数据云化 337
      • 11.1 云计算定义 337
      • 11.2 应用上云 337
      • 11.2.1 Cloud Native概念 338
      • 11.2.2 微服务架构 338
      • 11.2.3 Docker配合微服务架构 342
      • 11.2.4 应用上云小结 348
      • 11.3 大数据上云 348
      • 11.3.1 大数据云服务的两种模式 348
      • 11.3.2 集群模式AWSEMR 349
      • 11.3.3 服务模式Azure Data Lake Analytics 352
      • 11.4 小结 354
      • 第三部分 大数据文化
      • 第12章 大数据技术开发文化 356
      • 12.1 开源文化 356
      • 12.2 DevOps理念 356
      • 12.2.1 Development和Operations的组合 357
      • 12.2.2 对应用程序发布的影响 357
      • 12.2.3 遇到的问题 358
      • 12.2.4 协调人 358
      • 12.2.5 成功的关键 359
      • 12.3 速度远比你想的重要 359
      • 12.4 小结 361

      读书笔记

      大数据用什么语言?

      大数据是这近年来一直比较火的一个词语,让很多人都情不自禁走入大数据的学习中。可是你知道大数据用什么语言吗?

      大数据用什么语言?

      1、Python语言
      十多年来,Python在学术界当中一直很流行,尤其是在自然语言处理(NLP)等领域。因而,如果你有一个需要NLP处理的项目,就会面临数量多得让人眼花缭乱的选择,包括经典的NTLK、使用GenSim的主题建模,或者超快、准确的spaCy。同样,说到神经网络,Python同样游刃有余,有Theano和Tensorflow;随后还有面向机器学习的scikit-learn,以及面向数据分析的NumPy和Pandas。
      还有Juypter/iPython――这种基于Web的笔记本服务器框架让你可以使用一种可共享的日志格式,将代码、图形以及几乎任何对象混合起来。这一直是Python的杀手级功能之一,不过这年头,这个概念证明大有用途,以至于出现在了奉行读取-读取-输出-循环(REPL)概念的几乎所有语言上,包括Scala和R。
      Python往往在大数据处理框架中得到支持,但与此同时,它往往又不是“一等公民”。比如说,Spark中的新功能几乎总是出现在Scala/Java绑定的首位,可能需要用PySpark编写面向那些更新版的几个次要版本(对Spark Streaming/MLLib方面的开发工具而言尤为如此)。
      与R相反,Python是一种传统的面向对象语言,所以大多数开发人员用起来会相当得心应手,而初次接触R或Scala会让人心生畏惧。一个小问题就是你的代码中需要留出正确的空白处。这将人员分成两大阵营,一派觉得“这非常有助于确保可读性”,另一派则认为,我们应该不需要就因为一行代码有个字符不在适当的位置,就要迫使解释器让程序运行起来。
      2、R语言
      在过去的几年时间中,R语言已经成为了数据科学的宠儿——数据科学现在不仅仅在书呆子一样的统计学家中人尽皆知,而且也为华尔街交易员,生物学家,和硅谷开发者所家喻户晓。各种行业的公司,例如Google,Facebook,美国银行,以及纽约时报都使用R语言,R语言正在商业用途上持续蔓延和扩散。
      R语言有着简单而明显的吸引力。使用R语言,只需要短短的几行代码,你就可以在复杂的数据集中筛选,通过先进的建模函数处理数据,以及创建平整的图形来代表数字。它被比喻为是Excel的一个极度活跃版本。
      R语言最伟大的资本是已围绕它开发的充满活力的生态系统:R语言社区总是在不断地添加新的软件包和功能到它已经相当丰富的功能集中。据估计,超过200万的人使用R语言,并且最近的一次投票表明,R语言是迄今为止在科学数据中最流行的语言,被61%的受访者使用(其次是Python,39%)。
      3、JAVA
      Java,以及基于Java的框架,被发现俨然成为了硅谷最大的那些高科技公司的骨骼支架。 “如果你去看Twitter,LinkedIn和Facebook,那么你会发现,Java是它们所有数据工程基础设施的基础语言,”Driscoll说。
      Java不能提供R和Python同样质量的可视化,并且它并非统计建模的最佳选择。但是,如果你移动到过去的原型制作并需要建立大型系统,那么Java往往是你的最佳选择。

      以上就是大数据用什么语言?的详细内容,更多请关注码农之家其它相关文章!

      以上就是本次介绍的大数据电子书的全部相关内容,希望我们整理的资源能够帮助到大家,感谢大家对码农之家的支持。

      上一篇:21天学通Java

      下一篇:Hadoop应用架构

      展开 +

      收起 -

      下载地址:百度网盘下载
      大数据 相关电子书
      数据算法:Hadoop/Spark大数据处理技巧
      数据算法:Hadoop/Spark大数据处理技巧 PDF 高清版

      数据算法:Hadoop/Spark大数据处理技巧 介绍了很多基本设计模式、优化技术和数据挖掘及机器学习解决方案,以解决生物信息学、基因组学、统计和社交网络分析等领域的很多问题。这本书还概

      立即下载
      Spark大数据分析实战
      Spark大数据分析实战 PDF 高清版

      本书首先从技术层面讲解了Spark的机制、生态系统与开发相关的内容;然后从应用角度讲解了日志分析、推荐系统、情感分析、协同过滤、搜索引擎、社交网络分析、新闻数据分析等多个常见的

      立即下载
      大数据分析Excel Power BI全方位应用
      大数据分析Excel Power BI全方位应用 PDF 高清版

      随著电脑技术的发展,资料存储量呈现倍增成长,以资料採矿为核心的Business Intelligence(BI)显然成为IT和其他行业的必争之地,同时市场潮流Big Data让巨量资料分析变得更重要,商业智慧也顺理成

      立即下载
      大数据主义
      大数据主义 PDF 全书扫描版

      如果你想知道世界将如何发展,那么《大数据主义》你非读不可。《大数据主义》突破大数据领域的表象,为人们提供了独特的视角,洞见掌握科技前沿技术的精英们是如何从数据中提取更多有

      立即下载
      深入理解大数据:大数据处理与编程实践
      深入理解大数据:大数据处理与编程实践 PDF 高清版

      深入理解大数据:大数据处理与编程实践 在总结多年来MapReduce并行处理技术课程教学经验和成果的基础上,与业界著名企业Intel公司的大数据技术和产品开发团队和资深工程师联合,以学术界的

      立即下载
      架构大数据:大数据技术及算法解析
      架构大数据:大数据技术及算法解析 PDF 影印完整版 立即下载
      写给大家看的大数据
      写给大家看的大数据 PDF 高清版

      大数据是当前信息科技领域最为炙手可热的话题之一。《写给大家看的大数据》简单而系统地介绍了大数据体系涉及的各方面知识,涵盖大数据的基本概念、大数据的技术基础、大数据管理、

      立即下载
      读者心得
      144小时55分钟前回答

      浅谈Mysql、SqlServer、Oracle三大数据库的区别

      一、MySQL 优点: 体积小、速度快、总体拥有成本低,开源; 支持多种操作系统; 是开源数据库,提供的接口支持多种语言连接操作 ; MySQL的核心程序采用完全的多线程编程。线程是轻量级的进程,它可以灵活地为用户提供服务,而不过多的系统资源。用多线程和C语言实现的mysql能很容易充分利用CPU; MySql有一个非常灵活而且安全的权限和口令系统。当客户与MySql服务器连接时,他们之间所有的口令传送被加密,而且MySql支持主机认证; 支持ODBC for Windows, 支持所有的ODBC 2.5函数和其他许多函数, 可以用Access连接MySql服务器, 使得应用被扩展; 支持大型的数据库, 可以方便地支持上千万条记录的数据……

      18小时7分钟前回答

      Mysql提升大数据表拷贝效率的解决方案

      前言 本文主要给大家介绍了关于Mysql提升大数据表拷贝效率的相关内容,分享出来供大家参考学习,我们大家在工作上会经常遇到量级比较大的数据表 ; 场景: 该数据表需要进行alter操作 比如增加一个字段,减少一个字段. 这个在一个几万级别数据量的数据表可以直接进行alter表操作,但是要在一个接近1000W的数据表进行操作,不是一件容易的事; 可能情况: 1.导致数据库崩溃或者卡死 2.导致其他进程 进行数据库读写I/O变慢 3.还有一个可能就是数据格式不一致 导致数据无法写入(比如一个varchar类型要改为int类型,当数据长度过大时会报错) 解决方案:-- 1.重新创建一张数据表 create new_table select * from old_table 这种……

      码农之家

      权寻云 提供上传

      资源
      33
      粉丝
      4
      喜欢
      141
      评论
      16

      Copyright 2018-2021 www.xz577.com 码农之家

      版权投诉 / 书籍推广:520161757@qq.com