当前位置:首页 > 数据库 >
《开源大数据分析引擎Impala实战》电子书封面

开源大数据分析引擎Impala实战

  • 发布时间:2020年06月11日 14:26:02
  • 作者:贾传青
  • 大小:98.3 MB
  • 类别:Impala电子书
  • 格式:PDF
  • 版本:高清版
  • 评分:7.9

    开源大数据分析引擎Impala实战 PDF 高清版

      给大家带来的一篇关于Impala相关的电子书资源,介绍了关于大数据分析、Impala方面的内容,本书是由清华大学出版社出版,格式为PDF,资源大小98.3 MB,贾传青编写,目前豆瓣、亚马逊、当当、京东等电子书综合评分为:7.9。

      内容介绍

      Impala是Cloudera企业核心开发设计的新式查询网站,它出示SQL词义,能查寻储存在Hadoop的HDFS和HBase中的PB级互联网大数据。Impala1.0版比原先根据MapReduce的HiveSQL查寻速率提高3~90倍,因而,Impala有可能彻底替代Hive。作者根据自身在做好本职工作中运用Impala的实践活动和感受撰写了这书。

      这书共有10章,全方位详细介绍开源系统大数据分析模块Impala的技术性情况、安裝与配备、构架、操作步骤、性能优化,及其富有科技含量的运用设计原理和运用实例。这书围绕现阶段计算技术发展趋势网络热点,合适全部大数据分析人员、java开发人员和信息化管理人员参照应用。

      目录

      • 第 1章 Impala概述、安装与配置 1
      • 1.1 Impala概述 . 1
      • 1.2 Cloudera Manager安装准备 2
      • 1.3 CM及 CDH安装 . 10
      • 1.4 Hive安装 23
      • 1.5 Impala安装 . 26
      • 第 2章 Impala入门示例 29
      • 2.1 数据加载 . 29
      • 2.2 数据查询 . 36
      • 2.3 分区表 . 37
      • 2.4 外部分区表 . 41
      • 2.5 笛卡尔连接 . 44
      • 2.6 更新元数据 . 45
      • 第 3章 Impala概念及架构. 47
      • 3.1 Impala服务器组件 . 47
      • 3.1.1 Impala Daemon. 47
      • 3.1.2 Impala Statestore 48
      • 3.1.3 Impala Catalog 49
      • 3.2 Impala应用编程 . 51
      • 3.2.1 Impala SQL方言 . 52
      • 3.2.2 Impala编程接口概述 52
      • 3.3 与 Hadoop生态系统集成 53
      • 3.3.1 与 Hive集成 53
      • 3.3.2 与 HDFS集成 53
      • 3.3.3 使用 HBase. 54
      • 第 4章 SQL语句 . 55
      • 4.1 注释 . 55
      • 4.2 数据类型 . 56
      • 4.2.1 BIGINT. 56
      • 4.2.2 BOOLEAN . 57
      • 4.2.3 DOUBLE 58
      • 4.2.4 FLOAT . 59
      • 4.2.5 INT 59
      • 4.2.6 REAL 60
      • 4.2.7 SMALLINT 60
      • 4.2.8 STRING 61
      • 4.2.9 TIMESTAMP . 62
      • 4.2.10 TINYINT 66
      • 4.3 常量 . 66
      • 4.3.1 数值常量 66
      • 4.3.2 字符串常量 67
      • 4.3.3 布尔常量 67
      • 4.3.4 时间戳常量 68
      • 4.3.5 NULL 68
      • 4.4 SQL操作符. 70
      • 4.4.1 BETWEEN 操作符 . 70
      • 4.4.2 比较操作符 71
      • 4.4.3 IN操作符 . 72
      • 4.4.4 IS NULL操作符 72
      • 4.4.5 LIKE操作符 73
      • 4.4.6 REGEXP操作符 74
      • 4.5 模式对象和对象名称 . 75
      • 4.5.1 别名 75
      • 4.5.2 标示符 76
      • 4.5.3 数据库 76
      • 4.5.4 表 77
      • 4.5.5 视图 78
      • 4.5.6 函数 83
      • 4.6 SQL语句. 83
      • 4.6.1 ALTER TABLE . 84
      • 4.6.2 ALTER VIEW 90
      • 4.6.3 COMPUTE STATS 92
      • 4.6.4 CREATE DATABASE 95
      • 4.6.5 CREATE FUNCTION . 96
      • 4.6.6 CREATE TABLE. 98
      • 4.6.7 CREATE VIEW . 103
      • 4.6.8 DESCRIBE.104
      • 4.6.9 DROP DATABASE . 106
      • 4.6.10 DROP FUNCTION 107
      • 4.6.11 DROP TABLE 107
      • 4.6.12 DROP VIEW 108
      • 4.6.13 EXPLAIN .108
      • 4.6.14 INSERT 110
      • 4.6.15 INVALIDATE METADATA 116
      • 4.6.16 LOAD DATA. 120
      • 4.6.17 REFRESH.124
      • 4.6.18 SELECT 125
      • 4.6.19 SHOW 143
      • 4.6.20 USE. 147
      • 4.7 内嵌函数 . 148
      • 4.7.1 数学函数 150
      • 4.7.2 类型转换函数 155
      • 4.7.3 时间和日期函数 155
      • 4.7.4 条件函数 160
      • 4.7.5 字符串函数 161
      • 4.7.6 特殊函数 166
      • 4.8 聚集函数 . 167
      • 4.8.1 AVG 167
      • 4.8.2 COUNT 168
      • 4.8.3 GROUP_CONCAT 169
      • 4.8.4 MAX. 169
      • 4.8.5 MIN 170
      • 4.8.6 NDV 170
      • 4.8.7 SUM 171
      • 4.9 用户自定义函数 UDF 171
      • 4.9.1 UDF概念 . 172
      • 4.9.2 安装 UDF开发包 176
      • 4.9.3 编写 UDF . 176
      • 4.9.4 编写 UDAF 179
      • 4.9.5 编译和部署 UDF . 183
      • 4.9.6 UDF性能 . 184
      • 4.9.7 创建和使用 UDF示例 184
      • 4.9.8 UDF 安全 193
      • 4.9.9 Impala UDF的限制 . 193
      • 4.10 Impala SQL &Hive QL . 193
      • 4.11 将 SQL移植到 Impala上 195
      • 第 5章 Impala shell . 201
      • 5.1 命令行选项 . 201
      • 5.2 连接到 Impalad . 209
      • 5.3 运行命令 . 210
      • 5.4 命令参考 . 210
      • 5.5 查询参数设置 . 211
      • 第 6章 Impala管理 228
      • 6.1 准入控制和查询队列 . 228
      • 6.1.1 准入控制概述 228
      • 6.1.2 准入控制和 YARN 229
      • 6.1.3 并发查询限制 229
      • 6.1.4 准入控制和 Impala客户端协同工作 . 230
      • 6.1.5 配置准入控制 230
      • 6.1.6 使用准入控制指导原则 236
      • 6.2 使用 YARN资源管理(CDH5). 237
      • 6.2.1 Llama进程 . 237
      • 6.2.2 检查计算的资源和实际使用的资源 237
      • 6.2.3 资源限制如何生效 238
      • 6.2.4 启用 Impala资源管理 . 238
      • 6.2.5 资源管理相关 impala-shell参数 238
      • 6.2.6 Impala资源管理的限制 238
      • 6.3 为进程,查询,会话设定超时限制 . 239
      • 6.4 通过代理实现 Impala高可用性 240
      • 6.5 管理磁盘空间 . 243
      • 第 7章 Impala存储 245
      • 7.1 文件格式选择 . 245
      • 7.2 Text 247
      • 7.2.1 查询性能 247
      • 7.2.2 创建文本表 248
      • 7.2.3 数据文件 249
      • 7.2.4 加载数据 249
      • 7.2.5 LZO压缩 . 250
      • 7.3 Parquet . 253
      • 7.3.1 创建 Parquet表 253
      • 7.3.2 加载数据 254
      • 7.3.3 查询性能 255
      • 7.3.4 Snappy/Gzip压缩 256
      • 7.3.5 与其他组件交换 Parquet数据文件 260
      • 7.3.6 Parquet数据文件组织方式. 260
      • 7.4 Avro . 263
      • 7.4.1 创建 Avro表 263
      • 7.4.2 使用 Hive创建的 Avro表 265
      • 7.4.3 通过 JSON指定 Avro模式 265
      • 7.4.4 启用压缩 265
      • 7.4.5 模式进化 266
      • 7.5 RCFile 268
      • 7.5.1 创建 RCFile表和加载数据. 268
      • 7.5.2 启用压缩 269
      • 7.6 SequenceFile 270
      • 7.6.1 创建和加载数据 270
      • 7.6.2 启用压缩 271
      • 7.7 HBase. 272
      • 7.7.1 支持的 Hbase列类型 273
      • 7.7.2 性能问题 273
      • 7.7.3 适用场景 280
      • 7.7.4 数据加载 281
      • 7.7.5 启用压缩 281
      • 7.7.6 限制 282
      • 7.7.7 示例 282
      • 第 8章 Impala分区 284
      • 8.1 分区技术适用场合 . 284
      • 8.2 分区表相关 SQL语句 285
      • 8.3 分区修剪 . 285
      • 8.4 分区键列 . 288
      • 8.5 使用不同的文件格式 . 288
      • 第 9章 Impala性能优化 290
      • 9.1 最佳实践 . 290
      • 9.2 连接查询优化 . 291
      • 9.3 使用统计信息 . 301
      • 9.4 基准测试 . 309
      • 9.5 控制资源使用 . 309
      • 9.6 性能测试 . 310
      • 9.7 使用 EXPLAIN信息 311
      • 9.8 使用 PROFILE信息. 312
      • 第 10章 Impala设计原则与应用案例 322
      • 10.1 设计原则 . 322
      • 10.2 应用案例 . 323

      学习笔记

      Python中大数据处理详解

      分享 知识要点: lubridate包拆解时间 | POSIXlt 利用决策树分类,利用随机森林预测 利用对数进行fit,和exp函数还原 训练集来自Kaggle华盛顿自行车共享计划中的自行车租赁数据,分析共享自行车与天气、时间等关系。数据集共11个变量,10000多行数据。 首先看一下官方给出的数据,一共两个表格,都是2011-2012年的数据,区别是Test文件是每个月的日期都是全的,但是没有注册用户和随意用户。而Train文件是每个月只有1-20天,但有两类用户的数量。 求解:补全Train文件里21-30号的用户数量。评价标准是预测与真实数量的比较。 1.png 首先加载文件和包 library(lubridate)library(randomForest)library(readr)setwd(E:)data-read_csv(t……

      Python如何处理大数据?3个技巧效率提升攻略(推荐)

      如果你有个5、6 G 大小的文件,想把文件内容读出来做一些处理然后存到另外的文件去,你会使用什么进行处理呢?不用在线等,给几个错误示范:有人用multiprocessing 处理,但是效率非常低。于是,有人用python处理大文件还是会存在效率上的问题。因为效率只是和预期的时间有关,不会报错,报错代表程序本身出现问题了~ 所以,为什么用python处理大文件总有效率问题? 如果工作需要,立刻处理一个大文件,你需要注意两点: 01、大型文件的读取效率 面对100w行的大型数据,经过测试各种文件读取方式,得出结论: with open(filename,"rb") as f: for fLine in f: pass 方式最快,100w行全遍历2.7秒。 基本满足中大型文……

      深入理解mysql中max_allowed_packet参数的配置方法(避免大数据写入或者更新失败)

      MySQL根据配置文件会限制Server接受的数据包大小。有时候大的插入和更新会受 max_allowed_packet 参数限制,导致写入或者更新失败。 查看目前配置: show VARIABLES like %max_allowed_packet%; 显示的结果为: +--------------------+---------+ | Variable_name | Value | +--------------------+---------+ | max_allowed_packet | 1048576 | +--------------------+---------+ 以上说明目前的配置是:1M 修改方法 1、修改配置文件 可以编辑my.cnf来修改(windows下my.ini),在[mysqld]段或者mysql的server配置段进行修改。 max_allowed_packet = 20M 如果找不到my.cnf可以通过 mysql --help | grep my.cnf 去寻找my.cnf文件。 linux下该文件在/etc/下。 2、在mysql命令行中修改 在mysql 命令行中运行: se……

      为什么入门大数据选择Python而不是Java?

      马云说:“未来最大的资源就是数据,不参与大数据十年后一定会后悔。”毕竟出自wuli马大大之口,今年二月份我开始了学习大数据的道路,直到现在对大数据的学习脉络和方法也渐渐清晰。今天我们就来谈谈学习大数据入门语言的选择。当然并不只是我个人之见,此外我搜集了各路大神的见解综合起来跟大家做个讨论。 java和python的区别到底在哪里? 官方解释:Java是一门面向对象编程语言,不仅吸收了C++语言的各种优点,还摒弃了C++里难以理解的多继承、指针等概念,因此Java语言具有功能强大和简单易用两个特征。Java语言作为静态面向对象编程语言的代表,极好地实现了面向对象理论,允许程序……

      用SQL语句解决mysql导入大数据文件的问题

      对于经常使用MYSQL的人来说,phpmyadmin是一个必备的工具。这个工具非常强大,几乎可以完成所有的数据库操作,但是它也有一个弱点,对于往远程服务器上导入较大的数据文件的时候会速度奇慢,甚至出现长期没有响应的情况。 为什么会出现这样的情况呢?当我们选择一个sql数据文件并提交的时候,服务器首先要先把文件上传到服务器,然后才会执行导入代码把数据导入到数据库。我们知道phpmyadmin是通过web方式上传的数据文件,而web方式上传是很不稳定的,尤其是网速慢的时候,这就是为什么我们会有那么多次在电脑前面苦苦等待而最终却没有结果的原因。 通过上面的分析,我们知道这个问题是出在……

      以上就是本次介绍的Impala电子书的全部相关内容,希望我们整理的资源能够帮助到大家,感谢大家对码农之家的支持。

      上一篇:Splunk大数据分析

      下一篇:ArcGIS Engine地理信息系统开发教程

      展开 +

      收起 -

      下载地址:百度网盘下载
      Impala相关电子书
      大数据架构详解:从数据获取到深度学习
      大数据架构详解:从数据获取到深度学习 高清版

      《大数据架构详解:从数据获取到深度学习》 从架构、业务、技术三个维度深入浅出地介绍了大数据处理领域端到端的知识。主要内容包括三部分:第一部分从数据的产生、采集、计算、存储

      立即下载
      Spark大数据商业实战三部曲
      Spark大数据商业实战三部曲 超清扫描版

      本书基于Spark 2.2.X,以Spark商业案例实战和Spark在生产环境下几乎所有类型的性能调优为核心,循序渐进地全面解析了Spark 2.2,完全全面,欢迎下载

      立即下载
      Storm实战:构建大数据实时计算
      Storm实战:构建大数据实时计算 高清版

      随着大数据实时处理需求的强劲增长,Storm的出现填补了大数据处理生态系统的缺失,并被越来越多的公司所采用。阿里巴巴集团数据平台事业部商家数据业务部正是最早使用Storm的技术团队之

      立即下载
      大数据分析:方法与应用
      大数据分析:方法与应用 全书清晰版

      这书详细介绍大数据挖掘、统计分析学习培训和系统识别中与数据分析有关的基础理论、方式及专用工具。方式学习培训的总体目标是使学员可以依照实证分析的标准和大数据挖掘的流程开展互

      立即下载
      大数据系统构建
      大数据系统构建 高清版

      随着社交网络、网络分析和智能型电子商务的兴起,传统的数据库系统显然已无法满足海量数据的管理需求。 作为一种新的处理模式,大数据系统应运而生,它使用多台机器并行工作,能够对

      立即下载
      企业大数据处理:Spark、Druid、Flume与Kafka应用实践
      企业大数据处理:Spark、Druid、Flume与Kafka应用实践 扫描超清版 立即下载
      Hadoop大数据平台构建与应用
      Hadoop大数据平台构建与应用 完整影印版

      具有较强的实用性和可操作性,语言精练,通俗易懂,操作步骤描述详尽,并配有大量操作图例,感兴趣的可以下载学习

      立即下载
      读者留言
      戴明杰

      戴明杰 提供上传

      资源
      29
      粉丝
      22
      喜欢
      140
      评论
      4

      Copyright 2018-2020 www.xz577.com 码农之家

      版权投诉 / 书籍推广 / 赞助:520161757@qq.com