没有合适的资源?快使用搜索试试~ 我知道了~
1:什么是hive:由facebook开源的用于解决海量结构化日志的数据统计 2:hive是基于hadoop的数据仓库工具,可以将结构化的数据文件映谢成一张表,并提供类SQL查询功能。 本质:将Hql转化成mpareduce 其基本执行过程: 数据仓库通过sql进行统计分析——–>将SQL语言中常用的操作(select,where,group等)用mapreduce写成很多模板 所有的mapreduce模板封装在hive中—>通过hive框架匹配出相应的mapreduce模板—->运行mapreduece生成相应的分析结果—>result->client—>用户根据业务需求编写相应的
资源推荐
资源详情
资源评论
大数据大数据:hive1
1:什么是hive:由facebook开源的用于解决海量结构化日志的数据统计
2:hive是基于hadoop的数据仓库工具,可以将结构化的数据文件映谢成一张表,并提供类SQL查询功能。
本质:将Hql转化成mpareduce
其基本执行过程:
数据仓库通过sql进行统计分析——–>将SQL语言中常用的操作(select,where,group等)用mapreduce写成很多模板
所有的mapreduce模板封装在hive中—>通过hive框架匹配出相应的mapreduce模板—->运行mapreduece生成相应的分析结果
—>result->client—>用户根据业务需求编写相应的sql语句。
hive的优缺点:的优缺点:
优点:
1)操作接口采用类sql语法,提供快速开发的能力(简单、容易上行)
2)避免了去写mapreduce,减少开发人员的学习成本。
3)hive的执行延迟比较高,因此hive常用于数据分析,对实时性要求不高的场合。
4)hive的优势在于处理大数据,对于小数据没有优势,因为hive的执行延迟比较高
5)hive支持用户自定义函数,用户可以根据自已的需求来实现自已的函数。
缺点:
hive的hql表达有限:
迭代式算法无法表达
数据挖掘方面不擅长,由于mapreduce数据处理流程的限制,效率更高的算法却无法实现。
hive的效率比较低
hive自动自成的mapduce,通常情况下不够智能化
hive的调优比较困难,粒度较粗
hive架构原理:架构原理:
用户cli: 客户端工具有:cli ,jdbc/odbc,webui如zeepline,hue
元数据:metastore
元数据包括:
表名,表属性的数据库(默认default)、表的拥有者同,列/分区字段,表的类型(是否是外部表)表的数据所有的目录等
默认存在有自还带的derby数据库(建议永远不要用,单实例数据能干什么呢),推荐存储metastore
2hadooop使用hdfs进行存储,使用mapreduece进行计算
驱动器dirver
解析器:
sql parser :将字符串转换成语法树AST,这一步一般第三工具完成,比如antlr,对AST进行语法分析,比如表是否存在
,字段是否存在,sql语义是否有误
编译器:
将AST编译生成逻辑执行计划
优化器:
对逻辑执行计划进行优化
资源评论
weixin_38612095
- 粉丝: 10
- 资源: 921
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功