VIP会员
作者:CSDN
出版社:CSDN《程序员》
ISBN:1111111111117
VIP会员免费
(仅需0.8元/天)
¥ 40000.0
温馨提示: 价值40000元的1000本电子书,VIP会员随意看哦!
电子书推荐
-
Hive编程指南 完整中文版 清晰版pdf教程 评分:
第1章 基础知识 1.1 Hadoop和MapReduce综述 1.2 Hadoop生态系统中的Hive 1.2.1 Pig 1.2.2 HBase 1.2.3 Cascading、Crunch及其他 1.3 Java和Hive:词频统计算法 1.4 后续事情 第2章 基础操作 2.1 安装预先配置好的虚拟机 2.2 安装详细步骤 2.2.1 装Java 2.2.2 安装Hadoop 2.2.3 本地模式、伪分布式模式和分布式模式 2.2.4 测试Hadoop 2.2.5 安装Hive 2.3 Hive内部是什么 2.4 启动Hive 2.5 配置Hadoop环境 2.5.1 本地模式配置 2.5.2 分布式模式和伪分布式模式配置 2.5.3 使用BC连接元数据 2.6 Hive命令 2.7 命令行界面 2.7.1 CLI 选项 2.7.2 变量和属性 2.7.3 Hive中“一次使用”命令 2.7.4 从文件中执行Hive查询 2.7.5 hiverc文件 2.7.6 使用Hive CLI的更多介绍 2.7.7 查看操作命令历史 2.7.8 执行shell命令 2.7.9 在Hive内使用Hadoop的dfs命令 2.7.10 Hive脚本中如何进行注释 2.7.11 显示字段名称 第3章 数据类型和文件格式 3.1 基本数据类型 3.2 集合数据类型 3.3 文本文件数据编码 3.4 读时模式 第4章 HiveQL:数据定义 4.1 Hive中的数据库 4.2 修改数据库 4.3 创建表 4.3.1 管理表 4.3.2 外部表 4.4 分区表、管理表 4.4.1 外部分区表 4.4.2 自定义表的存储格式 4.5 删除表 4.6 修改表 4.6.1 表重命名 4.6.2 增加、修改和删除表分区 4.6.3 修改列信息 4.6.4 增加列 4.6.5 删除或者替换列 4.6.6 修改表属性 4.6.7 修改存储属性 4.6.8 众多的修改表语句 第5章 HiveQL:数据操作 5.1 向管理表中装载数据 5.2 通过查询语句向表中插入数据 5.3 单个查询语句中创建表并加载数据 5.4 导出数据 第6章 HiveQL:查询 6.1 SELECT…FROM语句 6.1.1 使用正则表达式来指定列 6.1.2 使用列值进行计算 6.1.3 算术运算符 6.1.4 使用函数 6.1.5 LIMIT语句 6.1.6 列别名 6.1.7 嵌套SELECT语句 6.1.8 CASE…WHEN…THEN 句式 6.1.9 什么情况下Hive可以避免进行MapReduce 6.2 WHERE语句 6.2.1 谓词操作符 6.2.2 关于浮点数比较 6.2.3 LIKE和RLIKE 6.3 GROUP BY 语句 6.4 JOIN语句 6.4.1 INNER JOIN 6.4.2 JOIN优化 6.4.3 LEFT OUTER JOIN 6.4.4 OUTER JOIN 6.4.5 RIGHT OUTER JOIN 6.4.6 FULL OUTER JOIN 6.4.7 LEFT SEMI-JOIN 6.4.8 笛卡尔积JOIN 6.4.9 map-side JOIN 6.5 ORDER BY和SORT BY 6.6 含有SORT BY 的DISTRIBUTE BY 6.7 CLUSTER BY 6.8 类型转换 6.9 抽样查询 6.9.1 数据块抽样 6.9.2 分桶表的输入裁剪 6.10 UNION ALL 第7章 HiveQL:视图 7.1 使用视图来降低查询复杂度 7.2 使用视图来限制基于条件过滤的数据 7.3 动态分区中的视图和map类型 7.4 视图零零碎碎相关的事情 第8章 HiveQL:索引 8.1 创建索引 8.2 重建索引 8.3 显示索引 8.4 删除索引 8.5 实现一个定制化的索引处理器 第9章 模式设计 9.1 按天划分的表 9.2 关于分区 9.3 唯一键和标准化 9.4 同一份数据多种处理 9.5 对于每个表的分区 9.6 分桶表数据存储 9.7 为表增加列 9.8 使用列存储表 9.8.1 重复数据 9.8.2 多列 9.9 (几乎)总是使用压缩 第10章 调优 10.1 使用EXPLAIN 10.2 EXPLAIN EXTENDED 10.3 限制调整 10.4 JOIN优化 10.5 本地模式 10.6 并行执行 10.7 严格模式 10.8 调整mapper和reducer个数 10.9 JVM重用 10.10 索引 10.11 动态分区调整 10.12 推测执行 10.13 单个MapReduce中多个GROUP BY 10.14 虚拟列 第11章 其他文件格式和压缩方法 11.1 确定安装编解码器 11.2 选择一种压缩编/解码器 11.3 开启中间压缩 11.4 最终输出结果压缩 11.5 sequence file存储格式 11.6 使用压缩实践 11.7 存档分区 11.8 压缩:包扎 第12章 开发 12.1 修改Log4J属性 12.2 连接Java调试器到Hive 12.3 从源码编译Hive 12.3.1 执行Hive测试用例 12.3.2 执行hook 12.4 配置Hive和Eclipse 12.5 Maven工程中使用Hive 12.6 Hive中使用hive_test进行单元测试 12.7 新增的插件开发工具箱(PDK) 第13章 函数 13.1 发现和描述函数 13.2 调用函数 13.3 标准函数 13.4 聚合函数 13.5 表生成函数 13.6 一个通过日期计算其星座的UDF 13.7 UDF与GenericUDF 13.8 不变函数 13.9 用户自定义聚合函数 13.10 用户自定义表生成函数 13.10.1 可以产生多行数据的UDTF 13.10.2 可以产生具有多个字段的单行数据的UDTF 13.10.3 可以模拟复杂数据类型的UDTF 13.11 在 UDF中访问分布式缓存 13.12 以函数的方式使用注解 13.12.1 定数性(deterministic)标注 13.12.2 状态性(stateful)标注 13.12.3 唯一性 13.13 宏命令 第14章 Streaming 14.1 恒等变换 14.2 改变类型 14.3 投影变换 14.4 操作转换 14.5 使用分布式内存 14.6 由一行产生多行 14.7 使用streaming进行聚合计算 14.8 CLUSTER BY、DISTRIBUTE BY、SORT BY 14.9 GenericMR Tools for Streaming to Java 14.10 计算cogroup 第15章 自定义Hive文件和记录格式 15.1 文件和记录格式 15.2 阐明CREATE TABLE句式 15.3 文件格式 15.3.1 SequenceFile 15.3.2 RCfile 15.3.3 示例自定义输入格式:DualInputFormat 15.4 记录格式:SerDe 15.5 CSV和TSV SerDe 15.6 ObjectInspector 15.7 Thing Big Hive Reflection ObjectInspector 15.8 XML UDF 15.9 XPath相关的函数 15.10 JSON SerDe 15.11 Avro Hive SerDe 15.11.1 使用表属性信息定义Avro Schema 15.11.2 从指定URL中定义Schema 15.11.3 进化的模式 15.12 二进制输出 第16章 Hive的Thrift服务 16.1 启动Thrift Server 16.2 配置Groovy使用HiveServer 16.3 连接到HiveServer 16.4 获取集群状态信息 16.5 结果集模式 16.6 获取结果 16.7 获取执行计划 16.8 元数据存储方法 16.9 管理HiveServer 16.9.1 生产环境使用HiveServer 16.9.2 清理 16.10 Hive ThriftMetastore 16.10.1 ThriftMetastore 配置 16.10.2 客户端配置 第17章 存储处理程序和NoSQL 17.1 Storage Handler Background 17.2 HiveStorageHandler 17.3 HBase 17.4 Cassandra 17.4.1 静态列映射(Static Column Mapping) 17.4.2 为动态列转置列映射 17.4.3 Cassandra SerDe Properties 17.5 DynamoDB 第18章 安全 18.1 和Hadoop安全功能相结合 18.2 使用Hive进行验证 18.3 Hive中的权限管理 18.3.1 用户、组和角色 18.3.2 Grant 和 Revoke权限 18.4 分区级别的权限 18.5 自动授权 第19章 锁 19.1 Hive结合Zookeeper支持锁功能 19.2 显式锁和独占锁 第20章 Hive和Oozie整合 20.1 Oozie提供的多种动作(Action) 20.2 一个只包含两个查询过程的工作流示例 20.3 Oozie 网页控制台 20.4 工作流中的变量 20.5 获取输出 20.6 获取输出到变量 第21章 Hive和网络服务系统(AWS) 21.1 为什么要弹性MapReduce 21.2 实例 21.3 开始前的注意事项 21.4 管理自有EMR Hive集群 21.5 EMR Hive上的Thrift Server服务 21.6 EMR上的实例组 21.7 配置EMR集群 21.7.1 部署hive-site.xml文件 21.7.2 部署.hiverc脚本 21.7.3 建立一个内存密集型配置 21.8 EMR上的持久层和元数据存储 21.9 EMR集群上的HDFS和S3 21.10 在S3上部署资源、配置和辅助程序脚本 21.11 S3上的日志 21.12 现买现卖 21.13 安全组 21.14 EMR和EC2以及Apache Hive的比较 21.15 包装 第22章 HCatalog 22.1 介绍 22.2 MapReduce 22.2.1 读数据 22.2.2 写数据 22.3 命令行 22.4 安全模型 22.5 架构 第23章 案例研究 23.1 m6d.(Media6Degrees) 23.1.1 M 6D的数据科学,使用Hive和R 23.1.2 M6D UDF伪随机 23.1.3 M6D如何管理多MapReduce集群间的Hive数据访问 23.2 Outbrain 23.2.1 站内线上身份识别 23.2.2 计算复杂度 23.2.3 会话化 23.3 NASA喷气推进实验室 23.3.1 区域气候模型评价系统 23.3.2 我们的经验:为什么使用Hive 23.3.3 解决这些问题我们所面临的挑战 23.4 Photobucket 23.4.1 Photobucket 公司的大数据应用情况 23.4.2 Hive所使用的硬件资源信息 23.4.3 Hive提供了什么 23.4.4 Hive支持的用户有哪些 23.5 SimpleReach 23.6 Experiences and Needs from the Customer Trenches 23.6.1 介绍 23.6.2 Customer Trenches的用例
上传时间:2014-07 大小:26.31MB
- 1.51MB
Hive编程指南.pdf
2021-01-12Hive编程指南.pdf
- 25.32MB
Hive权威指南
2018-06-19hive编程指南你值得拥有的书hive编程指南你值得拥有的书
- 422KB
大数据之Hive官方文档简要翻译(中文文档)
2020-11-15将官方文档做了简要翻译 此页面仅记录配置单元2.x及更早版本中的元存储。对于3.x及更高版本,请参阅AdminManual Metastore 3.0管理。 介绍 所有表和分区的元数据都是通过配置单元元存储区访问的。元数据使用JPOX ORM解决方案(Data Nucleus)持久化,因此它支持的任何数据库都可以被Hive使用。大多数商业关 系数据库和许多开源数据库都受到支持。请参阅下面一节中支持的数据库列表。
- 26.80MB
Hive编程指南_PDF_中文高清版.pdf
2017-02-04Hive编程指南_PDF_中文高清版.pdf
- 104KB
【官网汉化中文】Hive函数运算符使用方法大全
2021-04-01hive所有函数 包括UDTs、UDAF、UDTF函数和运算符等,中文汉化,翻译并测试
- 26.30MB
Hive编程指南.中文版.完整
2015-07-30Hive编程指南.中文版.完整.高清 PDF
- 26.80MB
Hive编程指南 PDF 中文高清版
2017-08-29Hive编程指南 PDF 中文高清版
- 26.80MB
hive编程指南 PDF 中文高清版
2016-09-13为Hive编程指南PDF中文高清版
- 26.34MB
Hive编程指南 中文版(带书签)
2017-05-25Hive编程指南 ,中文版,带书签, 完整版
- 26.80MB
Hive编程指南 PDF 中文高清版.pdf
2017-04-07Hive编程相关的数据,值得一看
- 26.30MB
Hive编程指南--高清版.pdf
2017-03-16Hive编程指南--高清版.pdf 个人收集电子书,仅用学习使用,不可用于商业用途,如有版权问题,请联系删除!
- 723KB
Hive学习总结及应用.pdf
2021-11-23Hive学习总结及应用.pdf
- 1.17MB
HIVE从入门到精通.pdf
2020-01-17Hive从入门到精通,适合想学hive的小白看
- 27.64MB
Hive编程指南[书签版].pdf
2017-03-06hive 入门学习,适用于需要系统性的了解hive的工作原理以及开发技巧的人群
- 26.80MB
Hive编程指南
2015-10-30Hive编程指南 PDF 中文高清版
- 26.30MB
Hive编程指南(中文版).pdf
2016-03-15 - 62B
Spark 2.0.2 Spark 2.2 中文文档 本资源为网页,不是PDF
2017-12-07编程指南 快速入门 Spark 编程指南 概述 Spark 依赖 Spark 的初始化 Shell 的使用 弹性分布式数据集(RDDS) 并行集合 外部数据集 RDD 操作 RDD 持久化 共享变量 Broadcast Variables (广播变量) ...
- 319.95MB
【推荐】最强大数据学习与最佳实践资料合集(基础+架构+数仓+治理+案例)(100份).zip
2021-10-18Google-MapReduce中文版_1.0 Hadoop安装及分布式部署 Hadoop精选面试题和MapReduce编程企业级编程实践 HDFS-part2-原理详解 HDFS核心内容及命令-2020 hive安装 hive语法和常用函数 Kafka安装 kylin安装 mapreduce...
- 1.98MB
Hive教程.pdf
2016-10-15自己学习时整理的一个电子文档,希望能对其他人有用
- 1.48MB
Hive用户指南(Hive_user_guide)_中文版.pdf
2020-01-141. HIVE结构 Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数 据提取转化加载 (ETL),这是一种可以存储、 查询和分析存储在 Hadoop 中的大规模数据的 机制。 Hive 定义了简单的类 SQL 查询语言,称为 QL,它允许熟悉 SQL 的用户查询数据。 同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理 内建的 mapper 和 reducer 无法完成的复杂的分析工作。 1.1HIVE 架构 Hive 的结构可以分为以下几部分: 用户接口:包括 CLI, Client, WUI 元数据存储。通常是存储在关系数据库如 mysql, derby 中 6 解释器、编译器、优化器、执行器 Hadoop:用 HDFS 进行存储,利用 MapReduce 进行计算 1、 用户接口主要有三个: CLI,Client 和 WUI。其中最常用的是 CLI , Cli 启动的时候, 会同时启动一个 Hive 副本。 Client 是 Hive 的客户端,用户连接至 Hive Server 。 在启动 Client 模式的时候, 需要指出 Hive Server 所在节点,并且在该节点启动 Hive Server 。 WUI 是通过浏览器访问 Hive 。 2、 Hive 将元数据存储在数据库中,如 mysql 、 derby 。 Hive 中的元数据包括表的名字, 表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。 3、 解释器、编译器、优化器完成 HQL 查询语句从词法分析、语法分析、编译、优化以及 查询计划的生成。生成的查询计划存储在 HDFS 中,并在随后有 MapReduce 调用执行。 4、 Hive 的数据存储在 HDFS 中,大部分的查询由 MapReduce 完成(包含 * 的查询,比 如 select * from tbl 不会生成 MapRedcue 任务)。 1.2Hive 和 Hadoop 关系 Hive 构建在 Hadoop 之上, HQL 中对查询语句的解释、优化、生成查询计划是由 Hive 完成的 所有的数据都是存储在 Hadoop 中 查询计划被转化为 MapReduce 任务,在 Hadoop 中执行(有些查询没有 MR 任 务,如: select * from table ) Hadoop和 Hive 都是用 UTF-8 编码的 7 1.3Hive 和普通关系数据库的异同 Hive RDBMS 查询语言 HQL SQL 数据存储 HDFS Raw Device or Local FS 索引 无 有 执行 MapReduce Excutor 执行延迟 高 低 处理数据规模 大 小 1. 查询语言。由于 SQL 被广泛的应用在数据仓库中,因此,专门针对 Hive 的特性设计 了类 SQL 的查询语言 HQL。熟悉 SQL 开发的开发者可以很方便的使用 Hive 进行开 发。 2. 数据存储位置。 Hive 是建立在 Hadoop 之上的,所有 Hive 的数据都是存储在 HDFS 中 的。而数据库则可以将数据保存在块设备或者本地文件系统中。 3. 数据格式。 Hive 中没有定义专门的数据格式,数据格式可以由用户指定,用户定义数 据格式需要指定三个属性:列分隔符(通常为空格、” t ”、” x001″)、行分隔符 (” n”)以及读取文件数据的方法( Hive 中默认有三个文件格式 TextFile , SequenceFile 以及 RCFile )。由于在加载数据的过程中,不需要从用户数据格式到 Hive 定义的数据格式的转换,因此, Hive 在加载的过程中不会对数据本身进行任何修 改,而只是将数据内容复制或者移动到相应的 HDFS 目录中。而在数据库中,不同的数 据库有不同的存储引擎,定义了自己的数据格式。所有数据都会按照一定的组织存储, 因此,数据库加载数据的过程会比较耗时。 4. 数据更新。由于 Hive 是针对数据仓库应用设计的,而数据仓库的内容是读多写少的。 因此, Hive 中不支持对数据的改写和添加,所有的数据都是在加载的时候中确定好的。 而数据库中的数据通常是需要经常进行修改的,因此可以使用 INSERT INTO ... VALUES 添加数据,使用 UPDATE ... SET 修改数据。 5. 索引。之前已经说过, Hive 在加载数据的过程中不会对数据进行任何处理,甚至不会 对数据进行扫描,因此也没有对数据中的某些 Key 建立索引。 Hive 要访问数据中满足 条件的特定值时,需要暴力扫描整个数据,因此访问延迟较高。由于 MapReduce 的引 入, Hive 可以并行访问数据,因此即使没有索引,对于大数据量的访问, Hive 仍然 可以体现出优势。数据库中,通常会针对一个或者几个列建立索引,因此对于少量的特 定条件的数据的访问,数据库可以有很高的效率,较低的延迟。由于数据的访问延迟较 高,决定了 Hive 不适合在线数据查询。 6. 执行。 Hive 中大多数查询的执行是通过 Hadoop 提供的 MapReduce 来实现的(类似 select * from tbl 的查询不需要 MapReduce)。而数据库通常有自己的执行引擎。
- 3.27MB
Hive 简明教程.pdf
2018-06-21Hive 简明教程 第一部分:完全以日常使用为目标,整理了常用的Hive 语法,而抛弃了不常用的部分,用来 满足不懂技术的分析人员来快速使用Hive 进行常见的日常数据分析。 第二部分:如果想能写出高效的Hive 语句,必须要先了解Hive 执行原理,然后掌握一系列 的优化方法。所以第二部分主要内容是Hive 原理与优化。 第三部分:讲解Hive 的一系列技术细节,以满足技术人员想了解技术细节的要求,为能更加 高效和灵活地使用Hive 提供技术基础
- 1.18MB
hive官方文档整理
2014-09-01hive官方的文档整理成pdf,通过这个文档,你可以全方位的了解hive的使用和例子。
- 1.49MB
hive官方翻译文档
2018-07-29hive hbase官方翻译文档,有很高的使用价值,方便快速入门
- 372KB
hive入门.pdf
2014-06-03hive入门,介绍hive相关简单知识和例子。
- 1.50MB
HiveSQL基础(一).pdf
2020-12-18HiveSQL基础(一).pdf
- 26.80MB
Hive编程PDF
2015-05-20《Hive编程指南》是一本ApacheHive的编程指南,旨在介绍如何使用Hive的SQL方法——HiveQL来汇总、查询和分析存储在Hadoop分布式文件系统上的大数据集合。《Hive编程指南》通过大量的实例,首先介绍如何在用户环境下安装和配置Hive,并对Hadoop和MapReduce进行详尽阐述,最终演示Hive如何在Hadoop生态系统进行工作。
- 7.69MB
Hive入门基础知识.pdf
2019-08-03Hive入门基础知识.pdf
- 7.93MB
Programming Hive (hive编程).pdf
2016-01-02hive编程这本书全面介绍了hive的各个特性以及如何使用hive来存取数据,是hive初学者理想的自学资料。
- 992KB
Hive 入门教程-Apache Hive入门介绍与HQL语法解析
2010-10-26Hive入门经典教程 Apache Hive 淘宝团队验证