当前位置:首页 > 计算机理论 >
《Hive编程指南》电子书封面

Hive编程指南

  • 发布时间:2019年11月07日 21:59:06
  • 作者:Edward Capriolo
  • 大小:6.12 MB
  • 类别:Hive编程电子书
  • 格式:PDF
  • 版本:高质量版
  • 评分:9.4

    Hive编程指南 PDF 高质量版

      给大家带来的一篇关于Hive编程相关的电子书资源,介绍了关于Hive编程、Hive指南方面的内容,本书是由人民邮电出版社出版,格式为PDF,资源大小6.12 MB,Edward Capriolo编写,目前豆瓣、亚马逊、当当、京东等电子书综合评分为:8.5。

      内容介绍

      Hive编程指南 PDF

      Hive编程指南》是一本Apache Hive的编程指南,致力于详细介绍怎么使用Hive的SQL方式 HiveQL来归纳、查寻和剖析储存在Hadoop分布式文件系统上的大数据结合。本书根据很多的案例,最先详细介绍如何在客户自然环境下安裝和配备Hive,并对Hadoop和MapReduce开展详细论述,*终演试Hive如何在Hadoop生态体系开展工作中。

      《Hive编程指南》合适对大数据很感兴趣的发烧友及其已经应用Hadoop系统软件的数据库管理员阅读文章应用。

      目录

      • dy 章 基础知识 
      • 1.1 Hadoop和MapReduce综述 
      • 1.2 Hadoop生态系统中的Hive 
      • 1.2.1 Pig 
      • 1.2.2 HBase 
      • 1.2.3 Cascading、Crunch及其他 
      • 1.3 Java和Hive:词频统计算法 
      • 1.4 后续事情 
      • 第2章 基础操作 
      • 2.1 安装预先配置好的虚拟机 
      • 2.2 安装详细步骤 
      • 2.2.1 装Java 
      • 2.2.2 安装Hadoop 
      • 2.2.3 本地模式、伪分布式模式和分布式模式 
      • 2.2.4 测试Hadoop 
      • 2.2.5 安装Hive 
      • 2.3 Hive内部是什么 
      • 2.4 启动Hive 
      • 2.5 配置Hadoop环境 
      • 2.5.1 本地模式配置 
      • 2.5.2 分布式模式和伪分布式模式配置 
      • 2.5.3 使用JDBC连接元数据 
      • 2.6 Hive命令 
      • 2.7 命令行界面 
      • 2.7.1 CLI 选项 
      • 2.7.2 变量和属性 
      • 2.7.3 Hive中“一次使用”命令 
      • 2.7.4 从文件中执行Hive查询 
      • 2.7.5 hiverc文件 
      • 2.7.6 使用Hive CLI的更多介绍 
      • 2.7.7 查看操作命令历史 
      • 2.7.8 执行shell命令 
      • 2.7.9 在Hive内使用Hadoop的dfs命令 
      • 2.7.10 Hive脚本中如何进行注释 
      • 2.7.11 显示字段名称 
      • 第3章 数据类型和文件格式 
      • 3.1 基本数据类型 
      • 3.2 集合数据类型 
      • 3.3 文本文件数据编码 
      • 3.4 读时模式 
      • 第4章 HiveQL:数据定义 
      • 4.1 Hive中的数据库 
      • 4.2 修改数据库 
      • 4.3 创建表 
      • 4.3.1 管理表 
      • 4.3.2 外部表 
      • 4.4 分区表、管理表 
      • 4.4.1 外部分区表 
      • 4.4.2 自定义表的存储格式 
      • 4.5 删除表 
      • 4.6 修改表 
      • 4.6.1 表重命名 
      • 4.6.2 增加、修改和删除表分区 
      • 4.6.3 修改列信息 
      • 4.6.4 增加列 
      • 4.6.5 删除或者替换列 
      • 4.6.6 修改表属性 
      • 4.6.7 修改存储属性 
      • 4.6.8 众多的修改表语句 
      • 第5章 HiveQL:数据操作 
      • 5.1 向管理表中装载数据 
      • 5.2 通过查询语句向表中插入数据 
      • 5.3 单个查询语句中创建表并加载数据 
      • 5.4 导出数据 
      • 第6章 HiveQL:查询 
      • 6.1 SELECT…FROM语句 
      • 6.1.1 使用正则表达式来指定列 
      • 6.1.2 使用列值进行计算 
      • 6.1.3 算术运算符 
      • 6.1.4 使用函数 
      • 6.1.5 LIMIT语句 
      • 6.1.6 列别名 
      • 6.1.7 嵌套SELECT语句 
      • 6.1.8 CASE…WHEN…THEN 句式 
      • 6.1.9 什么情况下Hive可以避免进行MapReduce 
      • 6.2 WHERE语句 
      • 6.2.1 谓词操作符 
      • 6.2.2 关于浮点数比较 
      • 6.2.3 LIKE和RLIKE 
      • 6.3 GROUP BY 语句 
      • 6.4 JOIN语句 
      • 6.4.1 INNER JOIN 
      • 6.4.2 JOIN优化 
      • 6.4.3 LEFT OUTER JOIN 
      • 6.4.4 OUTER JOIN 
      • 6.4.5 RIGHT OUTER JOIN 
      • 6.4.6 FULL OUTER JOIN 
      • 6.4.7 LEFT SEMI-JOIN 
      • 6.4.8 笛卡尔积JOIN 
      • 6.4.9 map-side JOIN 
      • 6.5 ORDER BY和SORT BY 
      • 6.6 含有SORT BY 的DISTRIBUTE BY 
      • 6.7 CLUSTER BY 
      • 6.8 类型转换 
      • 6.9 抽样查询 
      • 6.9.1 数据块抽样 
      • 6.9.2 分桶表的输入裁剪 
      • 6.10 UNION ALL 
      • 第7章 HiveQL:视图 
      • 7.1 使用视图来降低查询复杂度 
      • 7.2 使用视图来限制基于条件过滤的数据 
      • 7.3 动态分区中的视图和map类型 
      • 7.4 视图零零碎碎相关的事情 
      • 第8章 HiveQL:索引 
      • 8.1 创建索引 
      • 8.2 重建索引 
      • 8.3 显示索引 
      • 8.4 删除索引 
      • 8.5 实现一个定制化的索引处理器 
      • 第9章 模式设计 
      • 9.1 按天划分的表 
      • 9.2 关于分区 
      • 9.3 wei一键和标准化 
      • 9.4 同一份数据多种处理 
      • 9.5 对于每个表的分区 
      • 9.6 分桶表数据存储 
      • 9.7 为表增加列 
      • 9.8 使用列存储表 
      • 9.8.1 重复数据 
      • 9.8.2 多列 
      • 9.9 (几乎)总是使用压缩 
      • dy 0章 调优 
      • 10.1 使用EXPLAIN 
      • 10.2 EXPLAIN EXTENDED 
      • 10.3 限制调整 
      • 10.4 JOIN优化 
      • 10.5 本地模式 
      • 10.6 并行执行 
      • 10.7 严格模式 
      • 10.8 调整mapper和reducer个数 
      • 10.9 JVM重用 
      • 10.10 索引 
      • 10.11 动态分区调整 
      • 10.12 推测执行 
      • 10.13 单个MapReduce中多个GROUP BY 
      • 10.14 虚拟列 
      • dy 1章 其他文件格式和压缩方法 
      • 11.1 确定安装编解码器 
      • 11.2 选择一种压缩编/解码器 
      • 11.3 开启中间压缩 
      • 11.4  终输出结果压缩 
      • 11.5 sequence file存储格式 
      • 11.6 使用压缩实践 
      • 11.7 存档分区 
      • 11.8 压缩:包扎 
      • dy 2章 开发 
      • 12.1 修改Log4J属性 
      • 12.2 连接Java调试器到Hive 
      • 12.3 从源码编译Hive 
      • 12.3.1 执行Hive测试用例 
      • 12.3.2 执行hook 
      • 12.4 配置Hive和Eclipse 
      • 12.5 Maven工程中使用Hive 
      • 12.6 Hive中使用hive_test进行单元测试 
      • 12.7 新增的插件开发工具箱(PDK) 
      • dy 3章 函数 
      • 13.1 发现和描述函数 
      • 13.2 调用函数 
      • 13.3 标准函数 
      • 13.4 聚合函数 
      • 13.5 表生成函数 
      • 13.6 一个通过日期计算其星座的UDF 
      • 13.7 UDF与GenericUDF 
      • 13.8 不变函数 
      • 13.9 用户自定义聚合函数 
      • 13.10 用户自定义表生成函数 
      • 13.10.1 可以产生多行数据的UDTF 
      • 13.10.2 可以产生具有多个字段的单行数据的UDTF 
      • 13.10.3 可以模拟复杂数据类型的UDTF 
      • 13.11 在 UDF中访问分布式缓存 
      • 13.12 以函数的方式使用注解 
      • 13.12.1 定数性(deterministic)标注 
      • 13.12.2 状态性(stateful)标注 
      • 13.12.3 wei一性 
      • 13.13 宏命令 
      • dy 4章 Streaming 
      • 14.1 恒等变换 
      • 14.2 改变类型 
      • 14.3 投影变换 
      • 14.4 操作转换 
      • 14.5 使用分布式内存 
      • 14.6 由一行产生多行 
      • 14.7 使用streaming进行聚合计算 
      • 14.8 CLUSTER BY、DISTRIBUTE BY、SORT BY 
      • 14.9 GenericMR Tools for Streaming to Java 
      • 14.10 计算cogroup 
      • dy 5章 自定义Hive文件和记录格式 
      • 15.1 文件和记录格式 
      • 15.2 阐明CREATE TABLE句式 
      • 15.3 文件格式 
      • 15.3.1 SequenceFile 
      • 15.3.2 RCfile 
      • 15.3.3 示例自定义输入格式:DualInputFormat 
      • 15.4 记录格式:SerDe 
      • 15.5 CSV和TSV SerDe 
      • 15.6 ObjectInspector 
      • 15.7 Thing Big Hive Reflection ObjectInspector 
      • 15.8 XML UDF 
      • 15.9 XPath相关的函数 
      • 15.10 JSON SerDe 
      • 15.11 Avro Hive SerDe 
      • 15.11.1 使用表属性信息定义Avro Schema 
      • 15.11.2 从指定URL中定义Schema 
      • 15.11.3 进化的模式 
      • 15.12 二进制输出 
      • dy 6章 Hive的Thrift服务 
      • 16.1 启动Thrift Server 
      • 16.2 配置Groovy使用HiveServer 
      • 16.3 连接到HiveServer 
      • 16.4 获取集群状态信息 
      • 16.5 结果集模式 
      • 16.6 获取结果 
      • 16.7 获取执行计划 
      • 16.8 元数据存储方法 
      • 16.9 管理HiveServer 
      • 16.9.1 生产环境使用HiveServer 
      • 16.9.2 清理 
      • 16.10 Hive ThriftMetastore 
      • 16.10.1 ThriftMetastore 配置 
      • 16.10.2 客户端配置 
      • dy 7章 存储处理程序和NoSQL 
      • 17.1 Storage Handler Background 
      • 17.2 HiveStorageHandler 
      • 17.3 HBase 
      • 17.4 Cassandra 
      • 17.4.1 静态列映射(Static Column Mapping) 
      • 17.4.2 为动态列转置列映射 
      • 17.4.3 Cassandra SerDe Properties 
      • 17.5 DynamoDB 
      • dy 8章 安全 
      • 18.1 和Hadoop安全功能相结合 
      • 18.2 使用Hive进行验证 
      • 18.3 Hive中的权限管理 
      • 18.3.1 用户、组和角色 
      • 18.3.2 Grant 和 Revoke权限 
      • 18.4 分区级别的权限 
      • 18.5 自动授权 
      • dy 9章 锁 
      • 19.1 Hive结合Zookeeper支持锁功能 
      • 19.2 显式锁和独占锁 
      • 第20章 Hive和Oozie整合 
      • 20.1 Oozie提供的多种动作(Action) 
      • 20.2 一个只包含两个查询过程的工作流示例 
      • 20.3 Oozie 网页控制台 
      • 20.4 工作流中的变量 
      • 20.5 获取输出 
      • 20.6 获取输出到变量 
      • 第21章 Hive和 网络服务系统(AWS) 
      • 21.1 为什么要弹性MapReduce 
      • 21.2 实例 
      • 21.3 开始前的注意事项 
      • 21.4 管理自有EMR Hive集群 
      • 21.5 EMR Hive上的Thrift Server服务 
      • 21.6 EMR上的实例组 
      • 21.7 配置EMR集群 
      • 21.7.1 部署hive-site.xml文件 
      • 21.7.2 部署.hiverc脚本 
      • 21.7.3 建立一个内存密集型配置 
      • 21.8 EMR上的持久层和元数据存储 
      • 21.9 EMR集群上的HDFS和S3 
      • 21.10 在S3上部署资源、配置和辅助程序脚本 
      • 21.11 S3上的日志 
      • 21.12 现买现卖 
      • 21.13 安全组 
      • 21.14 EMR和EC2以及Apache Hive的比较 
      • 21.15 包装 
      • 第22章 HCatalog 
      • 22.1 介绍 
      • 22.2 MapReduce 
      • 22.2.1 读数据 
      • 22.2.2 写数据 
      • 22.3 命令行 
      • 22.4 安全模型 
      • 22.5 架构 
      • 第23章 案例研究 
      • 23.1 m6d.com(Media6Degrees) 
      • 23.1.1 M 6D的数据科学,使用Hive和R 
      • 23.1.2 M6D UDF伪随机 
      • 23.1.3 M6D如何管理多MapReduce集群间的Hive数据访问 
      • 23.2 Outbrain 
      • 23.2.1 站内线上身份识别 
      • 23.2.2 计算复杂度 
      • 23.2.3 会话化 
      • 23.3 NASA喷气推进实验室 
      • 23.3.1 区域气候模型评价系统 
      • 23.3.2 我们的经验:为什么使用Hive 
      • 23.3.3 解决这些问题我们所面临的挑战 
      • 23.4 Photobucket 
      • 23.4.1 Photobucket 公司的大数据应用情况 
      • 23.4.2 Hive所使用的硬件资源信息 
      • 23.4.3 Hive提供了什么 
      • 23.4.4 Hive支持的用户有哪些 
      • 23.5 SimpleReach 
      • 23.6 Experiences and Needs from the Customer Trenches 
      • 23.6.1 介绍 
      • 23.6.2 Customer Trenches的用例 
      • 术语词汇表

      学习笔记

      mysql 5.7.18 Archive压缩版安装教程

      本文为大家分享了mysql 5.7.18 Archive压缩版安装的具体方法,供大家参考,具体内容如下 文章参考: 5.7.17 winx64安装配置图文教程 mysql 5.7 zip archive版本安装教程 官网 进入 进入 往下滑: 解压: 设置环境变量:好像没用到这个环境变量(可以尝试不设置) 1) 2) 新建my.ini 初始化 注意: 初始化只能一次,第二次执行mysqld –initialize会报错 初始化后找到mysql的密码: 输入密码是,黏贴:f6yL!frt!wn 修改密码为root(这是我设置的,根据自己的习惯设置) 精彩专题分享: mysql不同版本安装教程 mysql5.6各版本安装教程 mysql5.7各版本安装教程 mysql8.0各版本安装教程 以上就是本文的全部内容,希望对大家的学习有所……

      mysql zip archive 版本(5.7.19)安装教程详细介绍

      1. 从官网下载zip archive版本http://dev.mysql.com/downloads/mysql/ MySQL v5.7.19 官方正式版(32/64位 安装版与zip解压版) 2. 解压缩至相应目录,并配置环境变量(将*\bin添加进path中); 3. 理论上现在这样就可以直接安装服务了,但是因为是默认配置,我们使用的时候会出现很多问题。比如里面的汉字全是乱码之类的,所以建议先配置一下默认文件。在解压的mysql目录下,新建个my.ini,//在根目录新建my.ini文件,写入以下内容: [mysql]# 设置mysql客户端默认字符集default-character-set=utf8 [mysqld]#设置3306端口port = 3306 # 设置mysql的安装目录basedir=c:\mysql# 设置mysql数据库的数据的存放目录datadir=D:\mysql\mysql-5.7.17-winx64\data# 允许最大连……

      php打包压缩文件之ZipArchive方法用法分析

      本文实例讲述了php打包压缩文件之ZipArchive方法用法。分享给大家供大家参考,具体如下: 前面说到了php打包压缩文件之PclZip方法,今天来说下另一种更为简单的方法,使用ZipArchive来压缩文件。这个是php的扩展类,自php5.2版本以后就已经支持这个扩展,如果你在使用的时候出现错误,查看下php.ini里面的extension=php_zip.dll前面的分号有没有去掉,然后再重启Apache这样才能使用这个类库。 使用ZipArchive压缩文件是非常简单的,php官网已经给我提供了很多相关示例,大家可以看下 http://www.php.net/manual/zh/class.ziparchive.php,例如: ?php$zip = new ZipArchive; //首先实例化这个类if ($zip-open('test.zip') === TRUE) { //然后查看是否存……

      详解hbase与hive数据同步

      hive的表数据是可以同步到impala中去的。一般impala是提供实时查询操作的,像比较耗时的入库操作我们可以使用hive,然后再将数据同步到impala中。另外,我们也可以在hive中创建一张表同时映射hbase中的表,实现数据同步。 下面,笔者依次进行介绍。 一、impala与hive的数据同步 首先,我们在hive命令行执行showdatabases;可以看到有以下几个数据库: 然后,我们在impala同样执行showdatabases;可以看到: 目前的数据库都是一样的。 下面,我们在hive里面执行create databaseqyk_test;创建一个数据库,如下: 然后,我们使用qyk_test这个数据库创建一张表,执行create table user_info(idbigint, account string, name string, age int) row format d……

      以上就是本次介绍的Hive编程电子书的全部相关内容,希望我们整理的资源能够帮助到大家,感谢大家对码农之家的支持。

      上一篇:深入探索Android热修复技术原理

      下一篇:PHP7.0+MySQL网站开发全程实例

      展开 +

      收起 -

      • 《Hive编程指南》PDF下载

      Hive编程相关电子书
      Python编程之美:最佳实践指南
      Python编程之美:最佳实践指南 超清完整版

      这书由Python小区的高手KennethReitz进行并机构撰写,由小区数十名开发人员团体无私奉献。*的特点取决于,几近详细地小结了在Python程序编写时会采用的各种各样实践活动方法和工作经验,包含

      立即下载
      Java多线程编程实战指南:核心篇
      Java多线程编程实战指南:核心篇 超清影印版

      Java多线程编程实战指南以基本概念、原理与方法为主线,辅以丰富的实战案例和生活化实例,从Java虚拟机、操作系统和硬件多个层次与角度出发,循序渐进介绍Java平台下的多线程编程核心技术及相关工具

      立即下载
      NIO与Socket编程技术指南
      NIO与Socket编程技术指南 中文高清版

      本书主要介绍Java语言中高性能处理的原理技术:NIO和Socket。非常详细地讲解了NIO中的缓冲区、通道、选择器、编码,以及使用Socket技术实现TCP/IP和UDP编程,感兴趣的可以下载学习一下

      立即下载
      R语言编程指南
      R语言编程指南 完整版 立即下载
      Swift编程权威指南
      Swift编程权威指南 高清第2版

      Big Nerd Ranch是美国一家专业的移动开发技术培训机构,本书是其培训教材。 Swift编程权威指南(第2版) 系统讲解了在iOS和macOS平台上,使用苹果的Swift语言开发iPhone、iPad和Mac应用的基本概念和编程

      立即下载
      OpenGL编程指南
      OpenGL编程指南 中文第9版

      本书是OpenGL官方指南,素有“OpenGL* 宝书”美誉。结合OpenGL的新特性,全方位阐释OpenGL编程的各种技术细节、方法和佳实践,帮助程序员踏上OpenGL专家之路,欢迎下载

      立即下载
      动手玩转ScratchJr编程:STEAM创新教育指南
      动手玩转ScratchJr编程:STEAM创新教育指南 扫描清晰版

      本书讲解“年轻”且富有扩展性的编程工具ScratchJr。家长和老师可以通过本书中的动画、故事和游戏三方面的项目,与孩子们一起体验并学习编程,感兴趣的可以下载学习

      立即下载
      CUDA专家手册:GPU编程权威指南
      CUDA专家手册:GPU编程权威指南 超清版

      本书深度解析GPU的架构、系统软件、编程环境,以及CUDA编程各方面的知识和各种优化技术,感兴趣的可以下载学习

      立即下载
      读者留言
      32265569

      32265569 提供上传

      资源
      10
      粉丝
      24
      喜欢
      201
      评论
      5

      Copyright 2018-2020 xz577.com 码农之家

      本站所有电子书资源不再提供下载地址,只分享来路

      版权投诉 / 书籍推广 / 赞助:QQ:520161757