标签分类 热门分类
当前位置:首页 > 数据库电子书 > 大数据电子书网盘下载
自己动手做大数据系统 自己动手做大数据系统
baidu_228988

baidu_228988 提供上传

资源
24
粉丝
5
喜欢
156
评论
15

    自己动手做大数据系统 PDF 高清版

    大数据电子书
    • 发布时间:

    给大家带来的一篇关于大数据相关的电子书资源,介绍了关于大数据、系统方面的内容,本书是由电子工业出版社出版,格式为PDF,资源大小18.5 MB,张魁编写,目前豆瓣、亚马逊、当当、京东等电子书综合评分为:8.7,更多相关的学习资源可以参阅 数据库电子书、等栏目。

  • 自己动手做大数据系统 PDF 下载
  • 下载地址:https://pan.baidu.com/s/1Oy7oFnlaJOfKnAkv98rb8
  • 分享码:mcg2
  • 自己动手做大数据系统 PDF

    假如你是一名在校学生,对互联网大数据很感兴趣,也了解应用的公司很多,市场的需求也是飞速发展,但烦扰自己基本不足,力不从心;也看了许多互联网大数据层面的书藉、搏客、视頻等,但觉得发展并不大;假如你是一名在职员工,但现阶段关键应用传统式技术性,尽管对互联网大数据很有兴趣爱好,也方知其对将来的危害,不因時间不足,虽然必须的基本,经常都是打二天鱼、晒3天网,进度并不是很理想化。

    假如给你所述疑虑或碰到类似难题,《自己动手做大数据系统》恰好比较合适你。《自己动手做大数据系统》从OpenStack云服务平台构建、手机软件布署、要求开发设计保持到結果展现,以竖向视角解读了规模性互联网大数据新项目发布的全部步骤;以进行1个实际上新项目要求围绕各章节目录,叙述了Hadoop生态链中互联网技术网络爬虫、Sqoop、Hive、HBase部件协调工作步骤,并展现了Spark测算架构、R制图软件和SparkRHive部件的使用说明。《自己动手做大数据系统》的一整特点是出示了操作过程自然环境,客户能够免费在线登陆云服务平台来动手能力实际操作书中的统计数据和编码

    目录

    • 第1章 为什么要自己动手做大数据系统 1
    • 1.1 大数据时代 1
    • 1.2 实战大数据项目 2
    • 1.3 大数据演练平台 2
    • 第2章 项目背景及准备 4
    • 2.1 项目背景 4
    • 2.2 项目简介 4
    • 2.3 项目架构 4
    • 2.4 操作系统 5
    • 2.5 数据存储 7
    • 2.6 数据处理 8
    • 2.7 开发工具 9
    • 2.8 调试工具 10
    • 2.9 版本管理 10
    • 第3章 大数据环境搭建和配置 11
    • 3.1 各组件功能说明 11
    • 3.1.1 各种数据源的采集工具 12
    • 3.1.2 企业大数据存储工具 12
    • 3.1.3 企业大数据系统的数据仓库工具 12
    • 3.1.4 企业大数据系统的分析计算工具 13
    • 3.1.5 企业大数据系统的数据库工具 13
    • 3.2 大数据系统各组件安装部署配置 13
    • 3.2.1 安装的前期准备工作 13
    • 3.2.2 Hadoop基础环境安装及配置 15
    • 3.2.3 Hive安装及配置 21
    • 3.2.4 Sqoop安装及配置 24
    • 3.2.5 Spark安装及配置 30
    • 3.2.6 Zookeeper安装及配置 31
    • 3.2.7 HBase安装及配置 33
    • 3.3 自动化安装及部署说明 35
    • 3.3.1 自动化安装及部署整体架构设计 35
    • 3.3.2 大数据系统自动化部署逻辑调用关系 36
    • 3.4 本章小结 43
    • 第4章 大数据的获取 44
    • 4.1 使用爬虫获取互联网数据 45
    • 4.2 Python和Scrapy 框架的安装 45
    • 4.3 抓取和解析招聘职位信息 47
    • 4.4 职位信息的落地 51
    • 4.5 两个爬虫配合工作 53
    • 4.6 让爬虫的架构设计更加合理 55
    • 4.7 获取数据的其他方式 57
    • 4.8 使用Sqoop同步论坛中帖子数据 57
    • 4.9 本章小结 59
    • 第5章 大数据的处理 60
    • 5.1 Hive是什么 60
    • 5.2 为什么使用Hive做数据仓库建模 60
    • 5.3 飞谷项目中Hive建模步骤 61
    • 5.3.1 逻辑模型的创建 62
    • 5.3.2 物理模型的创建 67
    • 5.3.3 将爬虫数据导入stg_job表 74
    • 5.4 使用Hive进行数据清洗转换 77
    • 5.5 数据清洗转换的必要性 78
    • 5.6 使用HiveQL清洗数据、提取维度信息 79
    • 5.6.1 使用HQL清洗数据 79
    • 5.6.2 提取维度信息 82
    • 5.7 定义Hive UDF封装处理逻辑 85
    • 5.7.1 Hive UDF的开发、部署和调用 86
    • 5.7.2 Python版本的UDF 89
    • 5.8 使用左外连接构造聚合表rpt_job 92
    • 5.9 让数据处理自动调度 96
    • 5.9.1 HQL的几种执行方式 96
    • 5.9.2 Hive Thrift服务 99
    • 5.9.3 使用JDBC连接Hive 100
    • 5.9.4 Python调用HiveServer服务 103
    • 5.9.5 用crontab实现的任务调度 105
    • 5.10 本章小结 107
    • 第6章 大数据的存储 108
    • 6.1 NoSQL及HBase简介 108
    • 6.2 HBase中的主要概念 110
    • 6.3 HBase客户端及JavaAPI 111
    • 6.4 Hive数据导入HBase的两种方案 114
    • 6.4.1 利用既有的JAR包实现整合 114
    • 6.4.2 手动编写MapReduce程序 116
    • 6.5 使用Java API查询HBase中的职位信息 122
    • 6.5.1 为什么是HBase而非Hive 122
    • 6.5.2 多条件组合查询HBase中的职位信息 123
    • 6.6 如何显示职位表中的某条具体信息 132
    • 6.7 本章小结 133
    • 第7章 大数据的展示 134
    • 7.1 概述 134
    • 7.2 数据分析的一般步骤 135
    • 7.3 用R来做数据分析展示 135
    • 7.3.1 在Ubuntu上安装R 135
    • 7.3.2 R的基本使用方式 137
    • 7.4 用Hive充当R的数据来源 139
    • 7.4.1 RHive组件 139
    • 7.4.2 把R图表整合到Web页面中 145
    • 7.5 本章小结 151
    • 第8章 大数据的分析挖掘 152
    • 8.1 基于Spark的数据挖掘技术 152
    • 8.2 Spark和Hadoop的关系 153
    • 8.3 在Ubuntu上安装Spark集群 154
    • 8.3.1 JDK和Hadoop的安装 154
    • 8.3.2 安装Scala 154
    • 8.3.3 安装Spark 155
    • 8.4 Spark的运行方式 157
    • 8.5 使用Spark替代Hadoop Yarn引擎 160
    • 8.5.1 使用spark-sql查看Hive表 160
    • 8.5.2 在beeline客户端使用Spark引擎 161
    • 8.5.3 在Java代码中引用Spark的ThriftServer 163
    • 8.6 对招聘公司名称做全文检索 168
    • 8.6.1 从HDFS数据源构造JavaRDD 169
    • 8.6.2 使用Spark SQL操作RDD 173
    • 8.6.3 把RDD运行结果展现在前端 174
    • 8.7 如何把Spark用得更好 175
    • 8.8 SparkR组件的使用 177
    • 8.8.1 SparkR的安装及启动 177
    • 8.8.2 运行自带的Sample例子 179
    • 8.8.3 利用SparkR生成职位统计饼图 179
    • 8.9 本章小结 181
    • 第9章 自己动手搭建支撑大数据系统的云平台 182
    • 9.1 云平台架构 182
    • 9.1.1 一期云基础平台架构 182
    • 9.1.2 二期云基础平台架构 184
    • 9.2 云平台搭建及部署 185
    • 9.2.1 安装组件前准备 185
    • 9.2.2 Identity(Keystone)组件 190
    • 9.2.3 Image(Glance)组件 198
    • 9.2.4 Compute(Nova)组件 201
    • 9.2.5 Storage(Cinder)组件 206
    • 9.2.6 Networking(Neutron)组件 210
    • 9.2.7 Ceph分布式存储系统 221
    • 9.2.8 Dashboard(Horizon)组件 230
    • 9.3 Identity(Keystone)与LDAP的整合 232
    • 9.4 配置Image组件大镜像部署 235
    • 9.5 配置业务系统无缝迁移 236
    • 9.6 本章小结 237
    • 参考文献 238

    上一篇:从零开始学微信小程序开发  下一篇:应用随机过程 概率模型导论

    展开 +

    收起 -

     
    大数据 相关电子书
    关于大数据的学习笔记
    网友NO.637736

    python和大数据有什么关系

    自从2004年以后,python的使用率呈线性增长。2011年1月,它被TIOBE编程语言排行榜评为2010年度语言。由于Python语言的简洁性、易读性以及可扩展性,在国外用Python做科学计算的研究机构日益增多,一些知名大学已经采用Python来教授程序设计课程。 数据就是资产。大数据工程师是现在十分火热、高薪的职位。做大数据开发和分析不仅要用到Java,Python也是较重要的语言。 大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。(推荐学习:Python视频教程) 为什么是python大数据? 从大数据的百科介绍上看到,大数据想要成为信息资产,需要有两步,一是数据怎么来,二是数据处理。 数据怎么来? 在数据怎么来这个问题上,数据挖掘无疑是很多公司或者个人的优选,毕竟大部分公司或者个人是没有能力产生这么多数据的,只能是挖掘互联网上的相关数据。 网络爬虫是Python的传统强势领域,较流行的爬虫框架Scrapy,HTTP工具包urlib2,HTML解析工具beautifulsoup,XML解析器lxml,等等,都是能够独当一面的类库。 当然,网络爬虫并不仅仅只是打开网页,解析HTML怎么简单。高效的爬虫要能够支持大量灵……

    网友NO.323623

    Mysql提升大数据表拷贝效率的解决方案

    前言 本文主要给大家介绍了关于Mysql提升大数据表拷贝效率的相关内容,分享出来供大家参考学习,我们大家在工作上会经常遇到量级比较大的数据表 ; 场景: 该数据表需要进行alter操作 比如增加一个字段,减少一个字段. 这个在一个几万级别数据量的数据表可以直接进行alter表操作,但是要在一个接近1000W的数据表进行操作,不是一件容易的事; 可能情况: 1.导致数据库崩溃或者卡死 2.导致其他进程 进行数据库读写I/O变慢 3.还有一个可能就是数据格式不一致 导致数据无法写入(比如一个varchar类型要改为int类型,当数据长度过大时会报错) 解决方案:-- 1.重新创建一张数据表 create new_table select * from old_table 这种形式相当于复制一张新的数据表 ----(不建议): 这里面仅仅复制数据表的字段和数据 , 但是表结构 主键,索引和默认值都不会拷贝过来 2.分成两个步骤 1). create new_table like old_table 创建一个新表,表结构和old_table一致(包含主键,索引和默认值等) 2). insert into new_table select * from old_table 把old_table的数据全部拷贝到new_table里面去 ----(如果数据量少的话,在几万行左右建议使用此方案, 如果数据量到达数百万 上千万时, 这个也是不适用的) 扩展: 如果你只要拷贝一部分数据表的话,可以指定 insert into new_table (字段1,字段2) select 字段1,字段2 from ol……

    网友NO.545382

    大数据专业学什么

    大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。目前,大数据算是非常火的专业,下面我将和大家谈谈大数据专业学什么? 大数据专业分为两种,其一是大数据开发,其二是数据分析与挖掘。 1、大数据开发:Ja-va、大数据基础、Hadoop体系、Scala、kafka、Spark等内容; 2、数据分析与挖掘:Python、关系型数据库MySQL、文档数据库MongoDB、内存数据库Redis、数据处理、数据分析等。 以上就是大数据专业学什么的详细内容,更多请关注码农之家其它相关文章! ……

    网友NO.850018

    大数据用什么语言?

    大数据是这近年来一直比较火的一个词语,让很多人都情不自禁走入大数据的学习中。可是你知道大数据用什么语言吗? 1、Python语言 十多年来,Python在学术界当中一直很流行,尤其是在自然语言处理(NLP)等领域。因而,如果你有一个需要NLP处理的项目,就会面临数量多得让人眼花缭乱的选择,包括经典的NTLK、使用GenSim的主题建模,或者超快、准确的spaCy。同样,说到神经网络,Python同样游刃有余,有Theano和Tensorflow;随后还有面向机器学习的scikit-learn,以及面向数据分析的NumPy和Pandas。 还有Juypter/iPython――这种基于Web的笔记本服务器框架让你可以使用一种可共享的日志格式,将代码、图形以及几乎任何对象混合起来。这一直是Python的杀手级功能之一,不过这年头,这个概念证明大有用途,以至于出现在了奉行读取-读取-输出-循环(REPL)概念的几乎所有语言上,包括Scala和R。 Python往往在大数据处理框架中得到支持,但与此同时,它往往又不是“一等公民”。比如说,Spark中的新功能几乎总是出现在Scala/Java绑定的首位,可能需要用PySpark编写面向那些更新版的几个次要版本(对Spark Streaming/MLLib方面的开发工具而言尤为如此)。 与R相反,Python是一种传统的面向对象语言,所以大多数开发人员用起来会相当得心应手,而……

    Copyright 2018-2020 xz577.com 码农之家

    电子书资源由网友、会员提供上传,本站记录提供者的基本信息及资源来路

    鸣谢: “ 码小辫 ” 公众号提供回调API服务、“ 脚本CDN ”提供网站加速(本站寻求更多赞助支持)

    版权投诉 / 书籍推广 / 赞助:520161757@qq.com

    上传资源(网友、会员均可提供)

    查看最新会员资料及资源信息