写给大家看的大数据

写给大家看的大数据 PDF 高清版

  • 大小:63.6 MB
  • 类型:大数据
  • 格式:PDF
  • 出版:人民邮电出版社
  • 作者:赫尔维茨,麦秆创智
  • 更新:2020-06-10 08:54:00
vip 立即下载( 63.6 MB )
关注公众号免费下载
版权投诉 / 资源反馈(本资源由用户 羿华灿 投稿)

我们帮大家精选了大数据相关的资料,由人民邮电出版社出版,作者是赫尔维茨,麦秆创智,介绍了关于大数据方面,格式为PDF,资源大小63.6 MB,目前在大数据类资源综合评分为:7.5分。

书籍介绍

大数据是当今信息尖端科技更为趋之若鹜的话题讨论之一。《写给大家看的大数据》简易而系统化详细介绍了大数据管理体系涉及的各层面专业知识,包含大数据的基本要素、大数据的技术性基本、大数据管理方法、大数据剖析、大数据在实际工作上怎样完成和执行等重要内容,涉及大数据系统架构、大数据应用的数据库查询和分布式技术、对大数据开展基本剖析和高級剖析的特性及不同点,及其公司怎样运用大数据变化其商业服务运营模式等内容,可以对想要掌握大数据全景,或者想要应用大数据的公司和本人出示全方位的专业知识内容和学习培训效仿。

《写给大家看的大数据》语言生动,内容覆盖面广,理论结合实例,非常适合对大数据感兴趣的广大读者。对于从事与大数据相关工作的人员,本书也有很高的参考价值。

目录

  • 第一部分 大数据入门 1
  • 第1章 大数据基础 3
  • 数据管理的演化过程 4
  • 理解数据管理的几个关键 5
  • 关键1:创建可管理的数据结构 5
  • 关键2:Web和内容管理 7
  • 关键3:管理大数据 7
  • 大数据的定义 9
  • 构建成功的大数据管理架构 10
  • 捕捉、组织、集成分析与模拟 10
  • 建立架构基础 11
  • 性能问题 13
  • 传统与高级分析 15
  • 大数据之旅 16
  • 第2章 研究大数据类型 17
  • 定义结构化的数据 18
  • 探索大结构化数据源 18
  • 理解关系型数据库在大数据中的角色 19
  • 定义非结构化数据 21
  • 探索非结构化数据源 21
  • 理解CMS在大数据管理中的角色 23
  • 理解实时需求和非实时需求 23
  • 聚合大数据 25
  • 管理不同类型的数据 25
  • 将不同类型的数据整合到大数据环境中 25
  • 第3章 当老古董遇上新生代:分布式计算 27
  • 分布式计算简史 27
  • 感谢DARPA 27
  • 可持续模型的价值 28
  • 了解分布式计算基础 29
  • 为什么大数据需要分布式计算 29
  • 计算经济的改变 30
  • 时延带来的问题 30
  • 当需求遇上解决方案 31
  • 获取所需的性能 31
  • 第二部分 大数据的技术基础 33
  • 第4章 深入大数据技术组件 35
  • 探索大数据栈 36
  • 第0层:带冗余的物理基础架构 37
  • 物理冗余网络 38
  • 管理硬件:存储与服务器 39
  • 基础架构操作 39
  • 第1层:安全框架 39
  • 进/出应用程序和互联网的界面与接口 40
  • 第2层:可操作数据库 42
  • 第3层:组织数据服务与工具 43
  • 第4层:可分析的数据仓库 44
  • 大数据分析 45
  • 大数据应用程序 46
  • 第5章 虚拟化及其如何支持分布式计算 47
  • 理解虚拟化的基本知识 47
  • 在大数据中使用虚拟化的重要性 48
  • 服务器虚拟化 50
  • 应用程序虚拟化 50
  • 网络虚拟化 51
  • 处理器和内存虚拟化 51
  • 数据和存储虚拟化 52
  • 使用Hypervisor管理虚拟化 53
  • 抽象化与虚拟化 54
  • 实现在大数据中的虚拟化 54
  • 第6章 云和大数据 56
  • 大数据领域中的云 56
  • 理解云部署和分发模型 57
  • 云部署模型 57
  • 云分发模型 59
  • 大数据需要云 60
  • 在大数据中使用云 61
  • 大数据云市场的服务提供商 62
  • 亚马逊公共弹性计算云(EC2) 63
  • 谷歌的大数据服务 64
  • 微软Azure 64
  • OpenStack 65
  • 在使用云服务时需要注意什么 65
  • 第三部分 大数据管理 67
  • 第7章 操作型数据库 69
  • RDBMS在大数据领域的重要性 71
  • 非关系型数据库 72
  • Key-Value型数据库 73
  • 文档数据库 75
  • MongoDB 76
  • CouchDB 77
  • 纵列数据库 78
  • 图形数据库 79
  • 空间数据库 81
  • 混合持久化 83
  • 第8章 MapReduce基础 85
  • MapReduce溯源 85
  • 理解Map函数 86
  • 添加Reduce函数 88
  • 结合Map和Reduce 89
  • 优化MapReduce 91
  • 硬件/网络拓扑 92
  • 同步 92
  • 文件系统 92
  • 第9章 探索Hadoop的世界 94
  • 谈谈Hadoop 94
  • 理解Hadoop分布式文件系统(HDFS) 95
  • Name节点 95
  • 数据节点 96
  • 理解HDFS 97
  • Hadoop的MapReduce 99
  • 准备数据 100
  • 开始Mapping 101
  • Reduce和融合 101
  • 第10章 Hadoop基础和生态 103
  • 使用Hadoop生态系统构建大数据基础 103
  • 使用Hadoop YARN管理资源和应用程序 104
  • 使用HBase存储大数据 105
  • 使用Hive挖掘大数据 106
  • 使用Hadoop生态系统 107
  • Pig和Pig Latin 107
  • Sqoop 108
  • Zookeeper 109
  • 第11章 设备和大数据仓库 111
  • 使用传统数据仓库装载大数据 111
  • 优化数据仓库 112
  • 区别大数据结构和数据仓库数据 112
  • 一个混合式处理的例子 113
  • 大数据分析和数据仓库 114
  • 集成的关键 115
  • 再思考提取、变换和载入 115
  • 改变数据仓库的角色 116
  • 改变部署模型 116
  • 设备模型 117
  • 云模型 117
  • 数据仓库的未来 117
  • 第四部分 数据分析与大数据 119
  • 第12章 定义大数据分析 121
  • 使用大数据获得结果 121
  • 基本分析 122
  • 高级分析 123
  • 实用性分析 126
  • 货币化分析 126
  • 为掌握大数据修改商务智能产品 126
  • 数据 126
  • 分析算法 127
  • 基础架构支持 128
  • 大数据分析案例研究 128
  • Orbitz 129
  • Nokia 129
  • NASA 129
  • 大数据分析解决方案 130
  • 第13章 理解文本分析和大数据 131
  • 探索非结构化数据 132
  • 理解文本分析 133
  • 分析和提取技术 135
  • 理解信息抽取 136
  • 分类学 137
  • 将结果汇总成结构化数据 138
  • 开始使用大数据 138
  • 客户的声音 138
  • 社交媒体分析 139
  • 大数据文本分析工具 141
  • Attensity 141
  • Clarabridge 142
  • IBM 142
  • OpenText 142
  • SAS 143
  • 第14章 大数据分析的定制化 144
  • 构建新的大数据模型 145
  • 理解大数据分析的各种方法 147
  • 大数据分析的定制应用程序 147
  • 大数据分析的半定制化应用程序 149
  • 大数据分析框架的特点 151
  • 由大到小:大数据悖论 153
  • 第五部分 大数据实现 155
  • 第15章 集成数据源 157
  • 识别你需要的数据 157
  • 勘探阶段 158
  • 编制阶段 159
  • 集成和整合阶段 160
  • 理解大数据集成基础 161
  • 定义传统ETL 163
  • 理解ELT——提取、载入和转换 164
  • 大数据质量优化 165
  • 使用Hadoop实现ETL 166
  • 大数据集成的最佳实践 166
  • 第16章 处理实时数据流和复杂事件 168
  • 流数据和复杂事件处理 169
  • 使用流数据 169
  • 数据流 169
  • 流的元数据 171
  • 使用复杂事件处理 172
  • 从流中分离出CEP 173
  • 商务领域的数据流和CEP 174
  • 第17章 可操作的大数据 175
  • 让大数据成为操作过程的一部分 175
  • 集成大数据 175
  • 疾病诊断中的大数据协作 177
  • 理解大数据工作流 180
  • 大数据的有效性、准确性和波动性 181
  • 数据有效性 181
  • 数据波动性 182
  • 第18章 在企业中应用大数据 184
  • 大数据经济学 184
  • 数据类型和数据来源的识别 185
  • 修改业务流或创建新的业务流 187
  • 大数据工作流的技术影响 188
  • 网罗大数据项目的人才 188
  • 计算大数据的投入产出(ROI) 189
  • 企业数据管理和大数据 189
  • 创建大数据实施里程碑 190
  • 理解业务紧迫性 191
  • 正确地预测工作量 191
  • 选择正确的软件开发方法学 191
  • 平衡预算和功能 192
  • 评估风险承受能力 192
  • 迈出第一步 193
  • 第19章 大数据环境的安全和管理 195
  • 大数据下的安全 195
  • 评估业务风险 196
  • 大数据中潜藏的风险 196
  • 理解数据保护 197
  • 数据管理的挑战 198
  • 大数据过程审计 199
  • 定位关键利益者 200
  • 正确运用组织架构 200
  • 为管理风险做准备 200
  • 制订正确的管理规则和质量保障 201
  • 开发管理完善、安全可靠的大数据环境 201
  • 第六部分 现实中的大数据解决方案 203
  • 第20章 大数据对业务的重要性 205
  • 将大数据作为业务规划的工具 205
  • 第一步:规划中引入数据 206
  • 第二步:执行分析 206
  • 第三步:检查结果 207
  • 第四步:落实计划 207
  • 规划过程的另一个维度 207
  • 第五步:实时监控 208
  • 第六步:调节影响 208
  • 第七步:适应性实验 208
  • 正确地看待数据分析 208
  • 在正确的基础上开始行动 209
  • 规划大数据 210
  • 调整业务流程 210
  • 第21章 从现实视角看数据分析 212
  • 理解用户对运动型数据的需求 213
  • 流数据对环境的影响 214
  • 使用传感器来提供实时水文信息 215
  • 实时数据的优势 215
  • 流数据对公共政策的影响 216
  • 流数据在医疗行业的应用 217
  • 流数据在能源行业的应用 218
  • 使用流数据提升能量产率 218
  • 使用流数据提升能源产出 218
  • 连接数据流和历史数据与其他实时数据源 219
  • 第22章 从现实视角看大数据分析对业务流程的优化 220
  • 了解企业对大数据分析的需求 220
  • 使用文本分析提升客户体验 221
  • 使用大数据分析进行决策 222
  • 使用大数据分析避免欺诈 224
  • 整合新数据源的商业价值 225
  • 第七部分 十项注意 227
  • 第23章 十条大数据最佳实践 229
  • 理解你的目标 229
  • 建立里程碑 230
  • 发现你的数据 230
  • 清楚你缺少什么数据 230
  • 理解可选技术方案 231
  • 规划大数据安全 231
  • 规划大数据管理策略 231
  • 规划数据管家 232
  • 持续测试 232
  • 学习最佳实践和利用模式 232
  • 第24章 十个大数据资源 234
  • Hurwitz & Associates 234
  • 标准化组织 234
  • 开放数据基金会 234
  • 云安全联盟 235
  • 美国国家标准和科技机构 235
  • Apache软件基金会 235
  • OASIS 235
  • 供应商的网站 236
  • 在线协作套件 236
  • 大数据会议 237
  • 第25章 十条“要”与“不要” 238
  • 要将所有业务单元都涵盖在大数据战略中 238
  • 要评估所有的大数据分发模型 238
  • 要将传统数据源作为大数据战略的一部分 238
  • 要计划持久化元数据 239
  • 要分发你的数据 239
  • 不要依赖于单一的大数据分析方法 239
  • 不要在准备充分之前就膨胀 239
  • 不要忽略数据集成的需求 239
  • 不要忘记安全地管理数据 240
  • 不要忽略数据的管理效率 240
  • 术语表 241

以上就是本次关于书籍资源的介绍和部分内容,我们还整理了以往更新的其它相关电子书资源内容,可以在下方直接下载,关于相关的资源我们在下方做了关联展示,需要的朋友们也可以参考下。

大数据相关资源

  • 大数据的互联网思维

    大数据的互联网思维

    《大数据的互联网思维》 是国内第一本将互联网思维应用到大数据领域的专著,记录了笔者在大数据时代的一些感想、心得。 本书共分10章,其中第1章阐述了大数据发展的现状,以及大数据发

    大小:44.9 MB大数据电子书

  • Storm技术内幕与大数据实践

    Storm技术内幕与大数据实践

    《Storm技术内幕与大数据实践》 内容主要围绕实时大数据系统的各个方面展开,从实时平台总体介绍到集群源码、运维监控、实时系统扩展、以用户画像为主的数据平台,最后到推荐、广告、

    大小:38.6 MBStorm电子书

  • Spark大数据分析实战

    Spark大数据分析实战

    本书首先从技术层面讲解了Spark的机制、生态系统与开发相关的内容;然后从应用角度讲解了日志分析、推荐系统、情感分析、协同过滤、搜索引擎、社交网络分析、新闻数据分析等多个常见的

    大小:31.9 MBSpark电子书

  • 大数据搜索引擎原理分析及编程实现

    大数据搜索引擎原理分析及编程实现

    本书向读者提供了一套完整的大数据时代背景下的搜索引擎解决方案,详尽地介绍了搜索引擎的技术架构、算法体系及取得的效果,以模块化的方式进行组织

    大小:13.8 MB机器学习电子书

  • 大数据时代的算法:机器学习、人工智能及其典型实例

    大数据时代的算法:机器学习、人工智能及其典型实例

    《 大数据时代的算法:机器学习、人工智能及其典型实例 》介绍在互联网行业中经常涉及的算法,包括排序算法、查找算法、资源分配算法、路径分析算法、相似度分析算法,以及与机器学习

    大小:34.1 MB大数据电子书

  • MongoDB大数据处理权威指南

    MongoDB大数据处理权威指南

    MongoDB大数据处理权威指南(第3版)对于MongoDB3干了细致升级,展现MongoDB的全部最新消息特点,包含2.2版导入的集聚架构、2.4版导入的哈希数据库索引及其3.2版本号的WiredTiger,还新列入Node.js和P

    大小:47.7 MBMongoDB电子书

  • 数据不说谎:大数据之下的世界

    数据不说谎:大数据之下的世界

    专业数据分析团队“城市数据团”全新力作,“团支书”结合社会热点,用大数据和数据挖掘分析数据背后的故事。趣味性强,语言幽默,知识丰富,教会读者用大数据做出正确的判断。

    大小:159.4 MB大数据电子书

  • 征信与大数据

    征信与大数据

    本书剖析国外成熟的知名征信机构的发展历程,商业模式和未来趋势,提取对中国征信业建设的启示和有益的经验,希望能够给混乱而有蓬勃发展的中国市场化征信提供借鉴,感兴趣的可以下载

    大小:86.8 MB大数据电子书

  • 微机原理与汇编语言实用教程

    微机原理与汇编语言实用教程 课后答案

    本书以80X86微处理器为例,详细介绍了微型计算机原理与汇编语言程序设计。全书共11章,分别介绍CPU、8086/8088指令系统、存储器系统、汇编语言程序设计基本方法与技巧、输入输出及中断使用方法、总线技术发展概况和实用附录等。为便于学习,每章都有丰富的应用实例和习题,帮助读者在实践中掌握微机原理与汇编语言所需的基本知识和基本技能。 本书深入浅出,循序渐进,注重应用示例分析,具有较强的系统性、先进性、实用性,是针对职业技术教

    大小:1.5 MB微机原理课后答案

  • 《液压与气压传动》教案

    《液压与气压传动》教案

    内容介绍 本书介绍液压传动与气压传动两部分内容。第一篇液压传动部分共分7章:液压传动基础、液压泵、液压缸与液压马达、液压控制阀、液压辅件、液压基本回路和典型液压传动系统。第二篇气压传动共分3章:气压传动概述、气动元件、气动回路及应用实例。 针对高职高专学生的学习特点,本书每章后附有能力训练和思考与练习题。附录列出了常见液压与气动元件的图形符号。 本书为高职高专机械类专业和机电一体化专业的教材,也可以作为行

    大小:4.23 MB传动配套资源

  • 编译原理及实现技术(第二版)

    编译原理及实现技术(第二版) 课后答案

    《编译原理及实现技术》是2010年机械工业出版社出版的图书,作者是刘磊。 编译原理是计算机学科的一门重要专业基础课。本书旨在介绍编译程序设计的基本原理、实现技术、方法和工具,充分考虑了教师便于教学,学生便于自学的问题。在介绍基本原理和实现技术中,注重循序渐进、深入浅出,每一章节都提供了编译程序实现的具体实例,每章末尾给出了丰富的习题以辅助学生更好地掌握编译过程。 本书包含了编译程序设计的基础理论和具体实现技

    大小:1.58 MB编译原理课后答案

  • 《C# 6.0本质论》配套资源

    《C# 6.0本质论》配套资源

    编辑推荐 ● C#入门及进阶的进阶之作 ● 内容全面翔实,讲解精彩 ● 全新升级版,涵盖C# 6.0 作为历年来深受读者欢迎的C#指南,本书针对C# 6.0和.NET 4.6引入的新功能和新编程模式进行了全面升级,向读者展示如何编写简洁、强大、健壮、安全和易于维护的C#代码。 长期的微软极有价值专家(MVP)和技术代言人Mark Michaelis与微软C#编译器团队的前C#主要开发者Eric Lippert这两位世界C#专家对这一语言进行了全面而深入的探讨,用简洁、可下载的代码示例阐释关

    大小:8.98 MBC#配套资源

  • ORB-SLAM2源码详解

    大小:2.50 MBORB-SLAM2

资源下载

相关声明:

大数据学习笔记

13小时37分钟前回答

phpexcel导入excel处理大数据(实例讲解)

先下载对应phpExcel 的包就行了https://github.com/PHPOffice/PHPExcel 下载完成 把那个Classes 这个文件夹里面的 文件跟文件夹拿出来就好了。 直接写到PHPExcel 这个文件里面的。调用很简单。引入phpExcel 这个类传递对应的excel 文件的路径就好了 现在上传到指定的目录,然后加载上传的excel文件读取这里读取是的时候不转换数组了。注意:是Sheet可以多个读取,php上传值要设置大,上传超时要设……

7小时31分钟前回答

Mysql提升大数据表拷贝效率的解决方案

前言 本文主要给大家介绍了关于Mysql提升大数据表拷贝效率的相关内容,分享出来供大家参考学习,我们大家在工作上会经常遇到量级比较大的数据表 ; 场景: 该数据表需要进行alter操作 比如增加一个字段,减少一个字段. 这个在一个几万级别数据量的数据表可以直接进行alter表操作,但是要在一个接近1000W的数据表进行操作,不是一件容易的事; 可能情况: 1.导致数据库崩溃或者卡死……

24小时37分钟前回答

30个mysql千万级大数据SQL查询优化技巧详解

1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索引而进行全表扫描,如:select id from t where num is null可以在num上设置默认值0,确保表中num列没有null值,然后这样查询:select id from t where num=0 3.应尽量避免在 where 子句中使用!=或操作符,否则引擎将放弃使用索……

7小时54分钟前回答

MySQL中使用innobackupex、xtrabackup进行大数据的备份和还原教程

大数据量备份与还原,始终是个难点。当MYSQL超10G,用mysqldump来导出就比较慢了。在这里推荐xtrabackup,这个工具比mysqldump要快很多。 一、Xtrabackup介绍 1、Xtrabackup是什么 Xtrabackup是一个对InnoDB做数据备份的工具,支持在线热备份(备份时不影响数据读写),是商业备份工具InnoDB Hotbackup的一个很好的替代品。 Xtrabackup有两个主要的工具:xtrabackup、innobackupex 1、xtrabackup只能备份InnoDB和Xtr……

8小时17分钟前回答

python分块读取大数据,避免内存不足的方法

如下所示: def read_data(file_name): ''' file_name:文件地址 ''' inputfile = open(file_name, 'rb') #可打开含有中文的地址 data = pd.read_csv(inputfile, iterator=True) loop = True chunkSize = 1000 #一千行一块 chunks = [] while loop: try: chunk = dcs.get_chunk(chunkSize) chunks.append(chunk) except StopIteration: loop = False print("Iteration is stopped.") data = pd.concat(chunks, ignore_index=True) #print(train.head()) return data 以上这篇python分块读取大数据,避免……