没有合适的资源?快使用搜索试试~ 我知道了~
gzipstream:gzipstream允许Python处理来自流媒体源的多部分gzip文件-python source fi...
共12个文件
py:6个
manifest:1个
gitignore:1个
需积分: 10 0 下载量 116 浏览量
2021-03-25
07:49:18
上传
评论
收藏 9KB ZIP 举报
温馨提示
gzipstream gzipstream允许Python处理来自流式源的多部分gzip文件。 该库最初旨在与Python 一起使用,以处理和其他Web存档数据。 安装 如果您使用的是pip,只需运行命令pip install -e git+https://github.com/commoncrawl/gzipstream.git#egg=gzipstream 。 如果需要,您还可以使用python setup.py install 。 用法 作为用法的示例, examples/streaming_commoncrawl_from_s3.py显示了如何使用gzipstream增量处理gzip压缩的Web存档(WARC)文件。 该文件的大小几乎为1 GB,是从2014-15 Common Crawl数据集中随机选择的,并托管在Amazon S3上。 如果没有gzipstream ,则只能通
资源推荐
资源详情
资源评论
收起资源包目录
gzipstream-master.zip (12个子文件)
gzipstream-master
setup.py 479B
.gitignore 544B
LICENSE 1KB
examples
streaming_commoncrawl_from_s3.py 1KB
README.md 1KB
gzipstream
gzipstreamfile.py 2KB
__init__.py 43B
tests
test_gzipstreamfile.py 695B
__init__.py 0B
test_data
crlf_at_1k_boundary.warc.gz 3KB
README 9B
MANIFEST 180B
共 12 条
- 1
资源评论
机器好奇心
- 粉丝: 26
- 资源: 4598
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功