没有合适的资源?快使用搜索试试~ 我知道了~
开源的SQL on Hadoop工具比较
需积分: 10 11 下载量 166 浏览量
2015-12-31
12:03:04
上传
评论
收藏 783KB PDF 举报
温馨提示
试读
5页
大数据时代来临,越来越多的企业把数据存储在Hadoop上,本文对常用的sqlonhadoop工具进行了介绍。
资源推荐
资源详情
资源评论
成就无边界 IT 服务
www.shsnc.cn
1
开源的 SQL on Hadoop 工具比较
作者:吴泽锋,新炬网络高级技术专家。
随着大数据时代的来临,越来越多的企业把数据存储在 Hadoop 上,随之相关的数据
处理技术也从一开始的 Map Reduce 一统江湖,到现在各种技术竞相出现。最新的趋势是,
大家普遍希望能够快速得到查询结果,做交互式查询,同时也希望传统的 BI(Business
Intelligence,商务智能)工具可以直接和基于 Hadoop 的大数据平台连接起来,以便使用
现用工具进行可视化数据分析。下面对常用的 sql on hadoop 工具进行介绍及特点分析。
1.Apache Hive
Hive 是当前使用最为广泛的数据仓库工具,Hive 的数据都存储在 Hadoop 兼容的文
件系统(例如,Amazon S3、HDFS)中 ,所有的查询转化为 MapReduce 的 job 在 Hadoop
集群上执行。Hive 主要由 beeline、cli、hiveserver2、hiveserver、lineage、 metastore
等服务组成。Hive 定义了简单的类 SQL 查询语言,称为 HQL。可通过 cli 客户
端进行查询,也可通过 jdbc 连接进行访问。Hive 将外部的任务解析成一个
MapReduce 可执行计划,而启动 MapReduce 是一个高延迟的一件事,每次提交
任务和执行任务都需要消耗很多时间,这也就决定 Hive 只能处理一些高延迟的应
用。Hive 不能对表数据进行修改(不能更新、删除、插入;只能通过文件追加数据、
重新导入数据)。
特点:
支持索引,将元数据保存在关系数据库中,大大减少了在查询过程中执行语义检查
的时间。
可以直接使用存储在 Hadoop 文件系统中的数据。
资源评论
新炬网络
- 粉丝: 20
- 资源: 65
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功