Hive大数据仓库知识点 Hive是一种基于Hadoop的大数据仓库工具,可以将结构化的数据文件映射为一个表,并提供类SQL查询功能。Hive的优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计。延迟较高,使得Hive适合用于离线的数据分析和清洗工作。 Hive与Hbase的区别: * Hive是基于Hadoop的大数据仓库工具,可以将结构化的数据文件映射为一个表,并提供简单的SQL查询功能。 * HBase是Hadoop的数据库,一个面向列、分布式、可扩展、大数据的存储。 * Hive是逻辑表,依赖于HDFS和MapReduce,HBase是物理表,提供一个超大的内存hash表,搜索引擎通过它来存储索引,方便查询操作。 Hive的运行机制: 1. 接收SQL语句 2. 进行词法分析和语法分析 3. 进行语义分析 4. 生成逻辑计划,得到算树 5. 逻辑计划优化,包括剪枝和谓词下推等 6. 物理计划生成,将逻辑计划生成包含由MapReduce任务组成的DAG的物理计划 7. 物理计划执行,将DAG发送到Hadoop集群进行执行 8. 将查询结果返回 Hive的特点: * 基于Hadoop的大数据仓库工具 * 可以将结构化的数据文件映射为一个表 * 提供简单的SQL查询功能 * 依赖于HDFS和MapReduce * 逻辑表,纯逻辑的 * 延迟较高,适合用于离线的数据分析和清洗工作 HBase的特点: * Hadoop的数据库 * 面向列、分布式、可扩展、大数据的存储 * 物理表,提供一个超大的内存hash表,搜索引擎通过它来存储索引,方便查询操作 * 适合用于实时操作,延迟较低 大数据仓库的定义: * 是一个面向主题的,集成的,不可更新的,随时间不变化的数据集成 Hive的应用场景: * 数据分析和清洗 * 离线数据处理 * 大数据仓库建设 HBase的应用场景: * 实时数据处理 * 大数据存储 * 云计算平台 Hive是一种基于Hadoop的大数据仓库工具,可以将结构化的数据文件映射为一个表,并提供类SQL查询功能。Hive的优点是学习成本低,适合用于离线的数据分析和清洗工作。HBase是Hadoop的数据库,一个面向列、分布式、可扩展的大数据存储,适合用于实时操作。
- 粉丝: 1
- 资源: 5
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助