parquet-index:Parquet表的Spark SQL索引-源码

所需积分/C币:15 2021-01-28 17:27:04 136KB ZIP
13
收藏 收藏
举报

实木复合地板指数 Parquet表的Spark SQL索引 总览 包允许为Parquet表创建索引(作为和),以减少在Spark SQL中用于几乎交互式分析或点查询时的查询延迟。 它设计用于表不经常更改但经常用于查询的用例,例如使用Thrift JDBC / ODBC服务器。 建立索引后,架构和文件列表(包括分区)将自动从索引元存储中解析,而不是每次创建数据源时都推断架构。 项目是实验性的。 欢迎任何反馈,问题或PR。 文档反映了master分支中的更改,有关特定版本的文档,请选择相应的版本标签或分支。 元商店 Metastore保留有关所有索引表的信息,并且可以在本地文件系统或HDFS(请参阅下面的可用选项)上创建,并支持索引的内存中高速缓存(第一次扫描后)。 每个创建的索引都包括不同的统计信息(最小/最大/空),以及可选的是,对索引列的列过滤器统计信息(例如,bloom过滤器)。 支持的谓词 当提供的谓词包含一个或多个带索引列的过滤器时,将自动启用索引进行扫描。 如果没有在索引列上提供过滤器,则使用常规扫描,但具有已解决的分区和架构的优势。 分区修剪后会应用最小值/最大值统计信

...展开详情
立即下载 低至0.43元/次 身份认证VIP会员低至7折
一个资源只可评论一次,评论内容不能少于5个字
您会向同学/朋友/同事推荐我们的CSDN下载吗?
谢谢参与!您的真实评价是我们改进的动力~
  • 至尊王者

关注 私信
上传资源赚钱or赚积分
最新推荐
parquet-index:Parquet表的Spark SQL索引-源码 15积分/C币 立即下载
1/0