Hive 表的分区规范 ( 分区表 )
•
分区表定义 ( 分区根据伪列 , 需指定类型 , 分桶是根据真实的列 , 不需要
指定类型 )
•
分区的目的就是将( Hive )表进行物理分割,实际使用时,当指定分区时,
实际扫描的也只是指定分区的物理 HDFS 文件 , 分区可以理解为分文件夹 .
•
使查询时提高效率,相当于按文件夹对文件进行分类,文件夹名可类比分区
字段。这个分区字段形式上存在于数据表中,在查询时会显示到客户端上,
但并不真正在存储在数据表文件中,是所谓伪列。这个列的值也是我们人为
规定的。
•
一个表可以有一个或者多个分区字段。一个分区就对应着一个包含多个文件
的文件夹。表或者分区使用 CLUSTERED BY 可以再被分桶。
评论0
最新资源