大数据技术体系详解:原理、架构与实践 PDF 全书超清版

  • 更新时间:
  • 5786人关注
  • 点击下载

给大家带来的一篇关于大数据相关的电子书资源,介绍了关于大数据、技术体系、原理、架构方面的内容,本书是由机械工业出版社出版,格式为PDF,资源大小96.2 MB,董西成编写,目前豆瓣、亚马逊、当当、京东等电子书综合评分为:9.1分

大数据技术体系详解

大数据技术体系详解电子书封面

读者评价

适合入门,了解整个大数据技术体系,介绍得比较全面,易懂
体系比较完善,没有太多废话,不是堆代码,适合大数据从业人员中级以下水平的读物
对了解大数据的总体架构和主要组建有帮助

内容介绍

本书站在大数据落地应用的角度,系统阐述大数据从数据收集,到数据存储、分布式协调及资源管理、计算引擎、分析工具,再到数据可视化这一完整流程,本书既包含主要技术的实现原理及其框架,也包含了具体落地指导,是帮助企业和个人整体了解大数据框架不可多得的参考书。本章主要包括6个部分共16章的内容,其中:第壹部分介绍了大数据体系架构,以及Google和Hadoop技术栈;第二部分介绍大数据分析相关技术,主要涉及关系型数据收集工具Sqoop与Canel、非关系型数据收集系统Flume以及分布式消息队列Kafka;第三部分介绍大数据存储相关技术,涉及数据存储格式、分布式文件系统以及分布式数据库;第四部分介绍资源管理和服务协调相关技术,涉及资源管理和调度系统YARN以及资源协调系统ZooKeeper;第五部分介绍计算引擎相关技术,涉及批处理、交互式处理以及流式实时处理三类引擎;第六部分数据分析相关技术,涉及基于数据分析语言HQL与SQL、大数据统一编程模型及机器学习库等。

内容节选

大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”
随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。《著云台》的分析师团队认为,大数据(Big data)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。
大数据包括结构化、半结构化和非结构化数据,非结构化数据越来越成为数据的主要部分。据IDC的调查报告显示:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。[7] 大数据就是互联网发展到现今阶段的一种表象或特征而已,没有必要神话它或对它保持敬畏之心,在以云计算为代表的技术创新大幕的衬托下,这些原本看起来很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值。
其次,想要系统的认知大数据,必须要全面而细致的分解它,着手从三个层面来展开:
第一层面是理论,理论是认知的必经途径,也是被广泛认同和传播的基线。在这里从大数据的特征定义理解行业对大数据的整体描绘和定性;从对大数据价值的探讨来深入解析大数据的珍贵所在;洞悉大数据的发展趋势;从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。
第二层面是技术,技术是大数据价值体现的手段和前进的基石。在这里分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。
第三层面是实践,实践是大数据的最终价值体现。在这里分别从互联网的大数据,政府的大数据,企业的大数据和个人的大数据四个方面来描绘大数据已经展现的美好景象及即将实现的蓝图。
大数据分析相比于传统的数据仓库应用,具有数据量大、查询分析复杂等特点。《计算机学报》刊登的“架构大数据:挑战、现状与展望”一文列举了大数据分析平台需要具备的几个重要特性,对当前的主流实现平台——并行数据库、MapReduce及基于两者的混合架构进行了分析归纳,指出了各自的优势及不足,同时也对各个方向的研究现状及作者在大数据分析方面的努力进行了介绍,对未来研究做了展望。
大数据的4个“V”,或者说特点有四个层面:第一,数据体量巨大。从TB级别,跃升到PB级别;第二,数据类型繁多。前文提到的网络日志、视频、图片、地理位置信息等等。第三,数据的来源,直接导致分析结果的准确性和真实性。若数据来源是完整的并且真实最终的分析结果以及决定将更加准确。第四,处理速度快,1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume(大量)、Velocity(高速)、Variety(多样)、Veracity(真实性)
从某种程度上说,大数据是数据分析的前沿技术。简言之,从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。明白这一点至关重要,也正是这一点促使该技术具备走向众多企业的潜力。
大数据时代,计算模式也发生了转变,从“流程”核心转变为“数据”核心。Hadoop体系的分布式计算框架已经是“数据”为核心的范式。非结构化数据及分析需求,将改变IT系统的升级方式:从简单增量到架构变化。大数据下的新思维——计算模式的转变。
科学进步越来越多地由数据来推动,海量数据给数据分析既带来了机遇,也构成了新的挑战。大数据往往是利用众多技术和方法,综合源自多个渠道、不同时间的信息而获得的。为了应对大数据带来的挑战,我们需要新的统计思路和计算方法。
大数据真正有意思的是数据变得在线了,这个恰恰是互联网的特点。非互联网时期的产品,功能一定是它的价值,今天互联网的产品,数据一定是它的价值。
数据能告诉我们,每一个客户的消费倾向,他们想要什么,喜欢什么,每个人的需求有哪些区别,哪些又可以被集合到一起来进行分类。大数据是数据数量上的增加,以至于我们能够实现从量变到质变的过程。

目录

  • 第一部分 概述篇
  • 第1章 企业级大数据技术体系概述 2
  • 1.1 大数据系统产生背景及应用场景 2
  • 1.1.1 产生背景 2
  • 1.1.2 常见大数据应用场景 3
  • 1.2 企业级大数据技术框架 5
  • 1.2.1 数据收集层 6
  • 1.2.2 数据存储层 7
  • 1.2.3 资源管理与服务协调层 7
  • 1.2.4 计算引擎层 8
  • 1.2.5 数据分析层 9
  • 1.2.6 数据可视化层 9
  • 1.3 企业级大数据技术实现方案 9
  • 1.3.1 Google大数据技术栈 10
  • 1.3.2 Hadoop与Spark开源大数据技术栈 12
  • 1.4 大数据架构:Lambda Architecture 15
  • 1.5 Hadoop与Spark版本选择及安装部署 16
  • 1.5.1 Hadoop与Spark版本选择 16
  • 1.5.2 Hadoop与Spark安装部署 17
  • 1.6 小结 18
  • 1.7 本章问题 18
  • 第二部分 数据收集篇
  • 第2章 关系型数据的收集 20
  • 2.1 Sqoop概述 20
  • 2.1.1 设计动机 20
  • 2.1.2 Sqoop基本思想及特点 21
  • 2.2 Sqoop基本架构 21
  • 2.2.1 Sqoop1基本架构 22
  • 2.2.2 Sqoop2基本架构 23
  • 2.2.3 Sqoop1与Sqoop2对比 24
  • 2.3 Sqoop使用方式 25
  • 2.3.1 Sqoop1使用方式 25
  • 2.3.2 Sqoop2使用方式 28
  • 2.4 数据增量收集CDC 31
  • 2.4.1 CDC动机与应用场景 31
  • 2.4.2 CDC开源实现Canal 32
  • 2.4.3 多机房数据同步系统Otter 33
  • 2.5 小结 35
  • 2.6 本章问题 35
  • 第3章 非关系型数据的收集 36
  • 3.1 概述 36
  • 3.1.1 Flume设计动机 36
  • 3.1.2 Flume基本思想及特点 37
  • 3.2 Flume NG基本架构 38
  • 3.2.1 Flume NG基本架构 38
  • 3.2.2 Flume NG高级组件 41
  • 3.3 Flume NG数据流拓扑构建方法 42
  • 3.3.1 如何构建数据流拓扑 42
  • 3.3.2 数据流拓扑实例剖析 46
  • 3.4 小结 50
  • 3.5 本章问题 50
  • 第4章 分布式消息队列Kafka 51
  • 4.1 概述 51
  • 4.1.1 Kafka设计动机 51
  • 4.1.2 Kafka特点 53
  • 4.2 Kafka设计架构 53
  • 4.2.1 Kafka基本架构 54
  • 4.2.2 Kafka各组件详解 54
  • 4.2.3 Kafka关键技术点 58
  • 4.3 Kafka程序设计 60
  • 4.3.1 Producer程序设计 61
  • 4.3.2 Consumer程序设计 63
  • 4.3.3 开源Producer与Consumer实现 65
  • 4.4 Kafka典型应用场景 65
  • 4.5 小结 67
  • 4.6 本章问题 67
  • 第三部分 数据存储篇
  • 第5章 数据序列化与文件存储格式 70
  • 5.1 数据序列化的意义 70
  • 5.2 数据序列化方案 72
  • 5.2.1 序列化框架Thrift 72
  • 5.2.2 序列化框架Protobuf 74
  • 5.2.3 序列化框架Avro 76
  • 5.2.4 序列化框架对比 78
  • 5.3 文件存储格式剖析 79
  • 5.3.1 行存储与列存储 79
  • 5.3.2 行式存储格式 80
  • 5.3.3 列式存储格式ORC、Parquet与CarbonData 82
  • 5.4 小结 88
  • 5.5 本章问题 89
  • 第6章 分布式文件系统 90
  • 6.1 背景 90
  • 6.2 文件级别和块级别的分布式文件系统 91
  • 6.2.1 文件级别的分布式系统 91
  • 6.2.2 块级别的分布式系统 92
  • 6.3 HDFS基本架构 93
  • 6.4 HDFS关键技术 94
  • 6.4.1 容错性设计 95
  • 6.4.2 副本放置策略 95
  • 6.4.3 异构存储介质 96
  • 6.4.4 集中式缓存管理 97
  • 6.5 HDFS访问方式 98
  • 6.5.1 HDFS shell 98
  • 6.5.2 HDFS API 100
  • 6.5.3 数据收集组件 101
  • 6.5.4 计算引擎 102
  • 6.6 小结 102
  • 6.7 本章问题 103
  • 第7章 分布式结构化存储系统 104
  • 7.1 背景 104
  • 7.2 HBase数据模型 105
  • 7.2.1 逻辑数据模型 105
  • 7.2.2 物理数据存储 107
  • 7.3 HBase基本架构 108
  • 7.3.1 HBase基本架构 108
  • 7.3.2 HBase内部原理 110
  • 7.4 HBase访问方式 114
  • 7.4.1 HBase shell 114
  • 7.4.2 HBase API 116
  • 7.4.3 数据收集组件 118
  • 7.4.4 计算引擎 119
  • 7.4.5 Apache Phoenix 119
  • 7.5 HBase应用案例 120
  • 7.5.1 社交关系数据存储 120
  • 7.5.2 时间序列数据库OpenTSDB 122
  • 7.6 分布式列式存储系统Kudu 125
  • 7.6.1 Kudu基本特点 125
  • 7.6.2 Kudu数据模型与架构 126
  • 7.6.3 HBase与Kudu对比 126
  • 7.7 小结 127
  • 7.8 本章问题 127
  • 第四部分 分布式协调与资源管理篇
  • 第8章 分布式协调服务ZooKeeper 130
  • 8.1 分布式协调服务的存在意义 130
  • 8.1.1 leader选举 130
  • 8.1.2 负载均衡 131
  • 8.2 ZooKeeper数据模型 132
  • 8.3 ZooKeeper基本架构 133
  • 8.4 ZooKeeper程序设计 134
  • 8.4.1 ZooKeeper API 135
  • 8.4.2 Apache Curator 139
  • 8.5 ZooKeeper应用案例 142
  • 8.5.1 leader选举 142
  • 8.5.2 分布式队列 143
  • 8.5.3 负载均衡 143
  • 8.6 小结 144
  • 8.7 本章问题 145
  • 第9章 资源管理与调度系统YARN 146
  • 9.1 YARN产生背景 146
  • 9.1.1 MRv1局限性 146
  • 9.1.2 YARN设计动机 147
  • 9.2 YARN设计思想 148
  • 9.3 YARN的基本架构与原理 149
  • 9.3.1 YARN基本架构 149
  • 9.3.2 YARN高可用 152
  • 9.3.3 YARN工作流程 153
  • 9.4 YARN资源调度器 155
  • 9.4.1 层级队列管理机制 155
  • 9.4.2 多租户资源调度器产生背景 156
  • 9.4.3 Capacity/Fair Scheduler 157
  • 9.4.4 基于节点标签的调度 160
  • 9.4.5 资源抢占
展开阅读
精选笔记:python怎么做大数据分析

5小时25分钟前回答

数据获取:公开数据、Python爬虫

python怎么做大数据分析

外部数据的获取方式主要有以下两种。(推荐学习:Python视频教程)

第一种是获取外部的公开数据集,一些科研机构、企业、政府会开放一些数据,你需要到特定的网站去下载这些数据。这些数据集通常比较完善、质量相对较高。

另一种获取外部数据的方式就是爬虫。

比如你可以通过爬虫获取招聘网站某一职位的招聘信息,爬取租房网站上某城市的租房信息,爬取豆瓣评分评分最高的电影列表,获取知乎点赞排行、网易云音乐评论排行列表。基于互联网爬取的数据,你可以对某个行业、某种人群进行分析。

在爬虫之前你需要先了解一些 Python 的基础知识:元素(列表、字典、元组等)、变量、循环、函数………

以及,如何用 Python 库(urllib、BeautifulSoup、requests、scrapy)实现网页爬虫。

掌握基础的爬虫之后,你还需要一些高级技巧,比如正则表达式、使用cookie信息、模拟用户登录、抓包分析、搭建代理池等等,来应对不同网站的反爬虫限制。

数据存取:SQL语言

在应对万以内的数据的时候,Excel对于一般的分析没有问题,一旦数据量大,就会力不从心,数据库就能够很好地解决这个问题。而且大多数的企业,都会以SQL的形式来存储数据。

SQL作为最经典的数据库工具,为海量数据的存储与管理提供可能,并且使数据的提取的效率大大提升。你需要掌握以下技能:

提取特定情况下的数据

数据库的增、删、查、改

数据的分组聚合、如何建立多个表之间的联系

数据预处理:Python(pandas)

很多时候我们拿到的数据是不干净的,数据的重复、缺失、异常值等等,这时候就需要进行数据的清洗,把这些影响分析的数据处理好,才能获得更加精确地分析结果。

对于数据预处理,学会 pandas (Python包)的用法,应对一般的数据清洗就完全没问题了。需要掌握的知识点如下:

选择:数据访问

缺失值处理:对缺失数据行进行删除或填充

重复值处理:重复值的判断与删除

异常值处理:清除不必要的空格和极端、异常数据

相关操作:描述性统计、Apply、直方图等

合并:符合各种逻辑关系的合并操作

分组:数据划分、分别执行函数、数据重组

Reshaping:快速生成数据透视表

概率论及统计学知识

需要掌握的知识点如下:

基本统计量:均值、中位数、众数、百分位数、极值等

其他描述性统计量:偏度、方差、标准差、显著性等

其他统计知识:总体和样本、参数和统计量、ErrorBar

概率分布与假设检验:各种分布、假设检验流程

其他概率论知识:条件概率、贝叶斯等

有了统计学的基本知识,你就可以用这些统计量做基本的分析了。你可以使用 Seaborn、matplotlib 等(python包)做一些可视化的分析,通过各种可视化统计图,并得出具有指导意义的结果。

Python 数据分析

掌握回归分析的方法,通过线性回归和逻辑回归,其实你就可以对大多数的数据进行回归分析,并得出相对精确地结论。这部分需要掌握的知识点如下:

回归分析:线性回归、逻辑回归

基本的分类算法:决策树、随机森林……

基本的聚类算法:k-means……

特征工程基础:如何用特征选择优化模型

调参方法:如何调节参数优化模型

Python 数据分析包:scipy、numpy、scikit-learn等

在数据分析的这个阶段,重点了解回归分析的方法,大多数的问题可以得以解决,利用描述性的统计分析和回归分析,你完全可以得到一个不错的分析结论。

当然,随着你实践量的增多,可能会遇到一些复杂的问题,你就可能需要去了解一些更高级的算法:分类、聚类。

然后你会知道面对不同类型的问题的时候更适合用哪种算法模型,对于模型的优化,你需要去了解如何通过特征提取、参数调节来提升预测的精度。

你可以通过 Python 中的 scikit-learn 库来实现数据分析、数据挖掘建模和分析的全过程。

更多Python相关技术文章,请访问Python教程栏目进行学习!

以上就是python怎么做大数据分析的详细内容,更多请关注码农之家其它相关文章!

展开阅读

资源下载

相关资源

  • 大数据治理

    大数据治理

    大数据治理匠心独运,揭开了大数据的迷人景致,为我们应对大数据领域的挑战,提供了必要的智力成果。感兴趣的可以了解一下

    大小:40.5 MB大数据

    立即下载
  • 数据算法:Hadoop/Spark大数据处理技巧

    数据算法:Hadoop/Spark大数据处理技巧

    数据算法:Hadoop/Spark大数据处理技巧 介绍了很多基本设计模式、优化技术和数据挖掘及机器学习解决方案,以解决生物信息学、基因组学、统计和社交网络分析等领域的很多问题。这本书还概

    大小:34.1 MB大数据

    立即下载
  • 云端时代杀手级应用:大数据分析

    云端时代杀手级应用:大数据分析

    云端时代杀手级应用:大数据分析源源不绝的庞杂数据量,彻底改变游戏规则,谁能理出脉络、洞察商机、领先创新,就能成为新赢家 作者:胡世忠著 出版时间:2013-6-1 【图书简介】 《云端时代杀手级应用:大数据分析》分什么是大数据、大数据大商机、技术与前瞻3个部分。第一部分介绍大数据分析的概念,以及企业、政府部门可应用的范畴。什么是大数据分析?与个人与企业有什么关系?将对全球产业造成怎样的冲击?第二部分完整介绍大数据在各

    大小:43.39MB大数据分析

    立即下载
  • 机器70年 互联网、大数据、人工智能带来的人类变革

    机器70年 互联网、大数据、人工智能带来的人类变革

    这是一本对科技未来发展有预测性解释的读本,回顾了人类历史上数个伟大科技创新时刻,探讨以互联网、大数据、人工智能为代表的技术变革

    大小:4.5 MB科技

    立即下载
  • 物联网之云:云平台搭建与大数据处理

    物联网之云:云平台搭建与大数据处理

    本书为“物联网工程实战丛书”第4卷。本书阐述了云计算的基本概念、工作原理和信息处理流程,详细讲述了云计算的数学基础及大数据处理方法,并给出了云计算和雾计算的项目研发流程,

    大小:134 MB物联网

    立即下载

学习笔记

18小时21分钟前回答

Hadoop集成Spring的使用详细教程(快速入门大数据)

官网sprng-hadoop https://spring.io/projects/spring-hadoop 添加依赖 dependencies dependency groupIdorg.springframework.data/groupId artifactIdspring-data-hadoop/artifactId version2.5.0.RELEASE/version /dependency/dependencies 使用spring hadoop配置及查看HDFS文件 新建资源文件beans.xml xml version="1.0" encoding="UTF-8"beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:hdp="http://www.springframework.org/schema/hadoop" xsi:schemaLocation=" http://www.springframework.org/schema/beans http://www.springframework.org/schema/beans/spring-beans.xsd http://www.springframework.org/schema/hadoop http://www.springframework.org/schema/hadoop/spring-hadoop.xsd" hdp:configuration id="hadoopConfiguration" fs.defaultFS=hd……

16小时25分钟前回答

vue大数据表格卡顿问题的完美解决方案

前言 vue渲染小数据挺快,大数据vue开始出现卡顿现象,本文讲给大家详细介绍关于vue大数据表格卡顿问题的解决方法 点我在线体验Demo(请用电脑查看) 亲测苹果电脑,chrome浏览器无卡顿现象,其它浏览器并未测试,如遇到卡顿请备注系统和浏览器,方便我后续优化,谢谢 先看一下效果,一共1000 X 100 = 10W个单元格基本感受不到卡顿,而且每个单元格点击可以编辑,支持固定头和固定列 项目源代码地址 Github(本地下载) 解决问题核心点:横向滚动加载,竖向滚动加载 项目背景 笔者最近在做广告排期功能,需要进行点位预占,大的合同可能需要对多个资源排期,周期可能到几年这样,然后我们的页面交互是这……

网友NO.41870
网友NO.41870

从一开始的python基础,关系型数据库MySQL等,到现在学习的数据分析以及处理,从一开始对大数据分析的陌生,到现在有了一定的项目开发经验,三个月的时间,大数据培训带给自己的不仅仅是知识层面的提升,还有项目经验的实践分享都让我成长了很多。 有多少付出就有多少回报,在科多大数据培训班上,我可能比别的同学少了一些基础,那我就要努力补回来!在科多,我更是学会了要朝着自己的目标奋勇前进!现在的日子虽然每天学习压力非常大,我必坚持不放弃。

网友NO.23636
网友NO.23636

大数据培训如火如荼地进行着,想想自己在参加培训之前的犹豫,在加入千锋大数据培训班的两个月之后,真心为自己当初的决定感到庆幸。 这两个月的时间改变了我很多,刚入学时候的我,多么盼望着早日学成,步入社会迎接各种挑战。可是慢慢的我知道不能急于求成,心急吃不了热豆腐。 还记得转折点是在于有一次周考结束后,看着自己的成绩是在是不如人意,正心灰意冷,心想着自己是否不适合这个行业,想要放弃的时候。 老师找到我,开导我说像我这种跨行来到千锋参加大数据培训的学员比比皆是。像我们这种零基础学员选择大数据,就要一步一步把基础学牢固,不要想着赶快学完,基础学不牢固在以后的学习中很容易就“崩”掉的。