没有合适的资源?快使用搜索试试~ 我知道了~
最快和最安全的镶木地板 Rust 实现。 `不安全`免费。 针对 pyarrow 进行集成测试
共92个文件
rs:80个
md:2个
toml:2个
需积分: 5 0 下载量 37 浏览量
2021-06-28
19:14:58
上传
评论
收藏 111KB ZIP 举报
温馨提示
实木复合地板这是对官方parquet crate的重写,并考虑到了性能、并行性和安全性。与parquet相比,五个主要区别是:不使用unsafe将并行性委托给下游将读取(IO 密集型)与计算(CPU 密集型)分离删除下游的解压缩和解码批次它更快(读取箭头格式时为 10-20 倍)是否针对 pyarrow 3 和 (py)spark 3 进行了集成测试总体思路是提供读取压缩镶木地板页面的能力和一个工具包,将它们解压缩为他们最喜欢的内存格式。这允许此 crate 的迭代器执行最少的CPU 工作,从而最大化吞吐量。由消费者决定是否要以牺牲内存使用(例如,在线程中解压缩和反序列化页面)为代价通过并行性来利用这一点。功能实现阅读字典页面读写V1页面读写V2页面压缩和解压缩(全部)功能尚未(尚未)实现索引页位打包(已弃用)字节流拆分Parquet 格式针对不同的物理类型有多种编码策略。这个 crate 目前从几乎所有这些中读取,并支持对它们的一个子集进行编码。他们是:支持解码清楚的RLE词典RLE 混合动力车增量编码Delta 长度字节数组三角弦Delta 编码仍然是实验性的,因为我无法从 spa
资源推荐
资源详情
资源评论
收起资源包目录
jorgecarleitao-parquet2.zip (92个子文件)
parquet2-main
integration
write_pyarrow.py 3KB
Cargo.toml 802B
.github
workflows
test.yml 4KB
cancel.yml 253B
.gitmodules 123B
parquet-tools
Cargo.toml 443B
src
main.rs 2KB
lib
meta.rs 13KB
rows.rs 763B
lib.rs 196B
dump.rs 9KB
cli.yaml 1KB
README.md 477B
data
sample.parquet 18KB
src
types.rs 3KB
error.rs 2KB
serialization
mod.rs 29B
read
mod.rs 12KB
primitive_nested.rs 5KB
utils.rs 998B
boolean.rs 1KB
levels.rs 3KB
binary.rs 3KB
record_batch.rs 2KB
primitive.rs 3KB
write
mod.rs 3KB
primitive.rs 3KB
encoding
plain_byte_array
mod.rs 40B
decoder.rs 1KB
mod.rs 772B
delta_length_byte_array
mod.rs 40B
decoder.rs 2KB
bitpacking.rs 7KB
delta_byte_array
mod.rs 40B
decoder.rs 2KB
uleb128.rs 2KB
hybrid_rle
bitmap.rs 2KB
mod.rs 617B
decoder.rs 3KB
encoder.rs 1KB
zigzag_leb128.rs 706B
delta_bitpacked
mod.rs 40B
decoder.rs 6KB
lib.rs 13KB
statistics
mod.rs 5KB
fixed_len_binary.rs 2KB
boolean.rs 2KB
binary.rs 1KB
primitive.rs 2KB
compression.rs 10KB
read
page_dict
mod.rs 2KB
fixed_len_binary.rs 1KB
binary.rs 1KB
primitive.rs 1KB
mod.rs 4KB
metadata.rs 8KB
page.rs 4KB
page_iterator.rs 5KB
compression.rs 5KB
write
row_group.rs 2KB
mod.rs 2KB
file.rs 3KB
column_chunk.rs 4KB
page.rs 3KB
statistics.rs 6KB
compression.rs 2KB
stream.rs 1KB
dyn_iter.rs 504B
metadata
mod.rs 422B
column_descriptor.rs 2KB
file_metadata.rs 3KB
column_chunk_metadata.rs 4KB
column_order.rs 911B
row_metadata.rs 2KB
schema_descriptor.rs 4KB
sort.rs 3KB
schema
mod.rs 220B
io_thrift
mod.rs 2KB
from_thrift.rs 4KB
to_thrift.rs 3KB
io_message
mod.rs 55B
from_message.rs 38KB
types
physical_type.rs 1KB
mod.rs 342B
converted_type.rs 7KB
spec.rs 5KB
logical_to_converted.rs 2KB
parquet_type.rs 5KB
basic_type.rs 1KB
LICENSE 559B
README.md 7KB
testing
parquet-testing
.gitignore 32B
共 92 条
- 1
资源评论
weixin_38538021
- 粉丝: 1
- 资源: 889
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功