没有合适的资源?快使用搜索试试~ 我知道了~
commoncrawl_downloader
共7个文件
py:2个
make_url_blocks:1个
txt:1个
需积分: 49 1 下载量 164 浏览量
2021-05-08
15:38:32
上传
评论
收藏 5KB ZIP 举报
温馨提示
commoncrawl_downloader 用法示例: docker build -t ccdl . docker run -e NUM_CORES=8 -v $PWD/output:/app/output -it ccdl 0,1,2,3,4,5,6,7,8,9 总共有3679个区块(编号为0-3678,含0和3678)。 要指定块,请提供以逗号分隔的块编号列表作为参数(无空格)。 所需资源 总共需要3.5PB的网络入口。 最终数据集应为200TB(警告:此数字非常粗略且外推;为了安全起见,请留出一些松弛空间!)。 还需要大约40k核心天(非超线程)(同样,通过外推得出的非常粗略的估计)。 输出格式 每个块输出为.jsonl.zst文件(信息: , )。 文件中的每个json对象都有一个text字段(包含网页)和一个meta字段,其中包含有关语言,WARC标头和HTTP响应标头
资源推荐
资源详情
资源评论
收起资源包目录
commoncrawl_downloader-master.zip (7个子文件)
commoncrawl_downloader-master
Dockerfile 253B
download_commoncrawl.py 6KB
requirements.txt 179B
make_url_blocks 322B
download_warc_urls.py 546B
README.md 1KB
indexes_20200607105929 5KB
共 7 条
- 1
资源评论
明天哇哈哈
- 粉丝: 26
- 资源: 4733
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功