没有合适的资源?快使用搜索试试~ 我知道了~
commoncrawl_downloader
共7个文件
py:2个
make_url_blocks:1个
txt:1个
需积分: 49 1 下载量 106 浏览量
2021-05-08
15:38:32
上传
评论 1
收藏 5KB ZIP 举报
温馨提示
commoncrawl_downloader 用法示例: docker build -t ccdl . docker run -e NUM_CORES=8 -v $PWD/output:/app/output -it ccdl 0,1,2,3,4,5,6,7,8,9 总共有3679个区块(编号为0-3678,含0和3678)。 要指定块,请提供以逗号分隔的块编号列表作为参数(无空格)。 所需资源 总共需要3.5PB的网络入口。 最终数据集应为200TB(警告:此数字非常粗略且外推;为了安全起见,请留出一些松弛空间!)。 还需要大约40k核心天(非超线程)(同样,通过外推得出的非常粗略的估计)。 输出格式 每个块输出为.jsonl.zst文件(信息: , )。 文件中的每个json对象都有一个text字段(包含网页)和一个meta字段,其中包含有关语言,WARC标头和HTTP响应标头
资源推荐
资源详情
资源评论
收起资源包目录
commoncrawl_downloader-master.zip (7个子文件)
commoncrawl_downloader-master
Dockerfile 253B
download_commoncrawl.py 6KB
requirements.txt 179B
make_url_blocks 322B
download_warc_urls.py 546B
README.md 1KB
indexes_20200607105929 5KB
共 7 条
- 1
资源评论
明天哇哈哈
- 粉丝: 27
- 资源: 4733
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Vue+NodeJS的学生社团管理系统(前后端代码)
- 基于SSM+JSP的快递管理系统(前后端代码)
- 全球火点数据-modis-2015-2023年
- YOLOv8完整网络结构图详细visio
- LCD1602电子时钟程序
- 西北太平洋热带气旋【灾害风险统计】及【登陆我国次数评估】数据集-1980-2023
- 全球干旱数据集【自校准帕尔默干旱程度指数scPDSI】-190101-202312-0.5x0.5
- 基于Python实现的VAE(变分自编码器)训练算法源代码+使用说明
- 全球干旱数据集【标准化降水蒸发指数SPEI-12】-190101-202312-0.5x0.5
- C语言小游戏-五子棋-详细代码可运行
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功