2021年-Hive大数据仓库-期末考试知识点重点-笔记整理.pdf

需积分: 5 142 浏览量 2021-10-11 22:21:50 上传评论 1 收藏 1.76MB PDF 举报

Hive大数据仓库知识点 Hive是一种基于Hadoop的大数据仓库工具，可以将结构化的数据文件映射为一个表，并提供类SQL查询功能。Hive的优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计。延迟较高，使得Hive适合用于离线的数据分析和清洗工作。 Hive与Hbase的区别： * Hive是基于Hadoop的大数据仓库工具，可以将结构化的数据文件映射为一个表，并提供简单的SQL查询功能。 * HBase是Hadoop的数据库，一个面向列、分布式、可扩展、大数据的存储。 * Hive是逻辑表，依赖于HDFS和MapReduce，HBase是物理表，提供一个超大的内存hash表，搜索引擎通过它来存储索引，方便查询操作。 Hive的运行机制： 1. 接收SQL语句 2. 进行词法分析和语法分析 3. 进行语义分析 4. 生成逻辑计划，得到算树 5. 逻辑计划优化，包括剪枝和谓词下推等 6. 物理计划生成，将逻辑计划生成包含由MapReduce任务组成的DAG的物理计划 7. 物理计划执行，将DAG发送到Hadoop集群进行执行 8. 将查询结果返回 Hive的特点： * 基于Hadoop的大数据仓库工具 * 可以将结构化的数据文件映射为一个表 * 提供简单的SQL查询功能 * 依赖于HDFS和MapReduce * 逻辑表，纯逻辑的 * 延迟较高，适合用于离线的数据分析和清洗工作 HBase的特点： * Hadoop的数据库 * 面向列、分布式、可扩展、大数据的存储 * 物理表，提供一个超大的内存hash表，搜索引擎通过它来存储索引，方便查询操作 * 适合用于实时操作，延迟较低大数据仓库的定义： * 是一个面向主题的，集成的，不可更新的，随时间不变化的数据集成 Hive的应用场景： * 数据分析和清洗 * 离线数据处理 * 大数据仓库建设 HBase的应用场景： * 实时数据处理 * 大数据存储 * 云计算平台 Hive是一种基于Hadoop的大数据仓库工具，可以将结构化的数据文件映射为一个表，并提供类SQL查询功能。Hive的优点是学习成本低，适合用于离线的数据分析和清洗工作。HBase是Hadoop的数据库，一个面向列、分布式、可扩展的大数据存储，适合用于实时操作。

资源推荐

资源详情

资源评论