没有合适的资源?快使用搜索试试~ 我知道了~
openwebtext:OpenAI未发布的WebText数据集刮板的开放克隆。 此版本使用pushshift.io文件而不是A...
共18个文件
py:10个
xz:2个
pipfile:1个
需积分: 50 1 下载量 52 浏览量
2021-05-12
21:59:14
上传
评论
收藏 145KB ZIP 举报
温馨提示
OpenWebText ( ,( )和( OpenAI未发布的WebText数据集(, ,)刮板的开放克隆,用于训练GPT-2。 当前结果是超过2300万个URL和1000万个HTML页面。 此实现从预下载的(每月)pushshift.io Reddit提交转储中挖掘和智能删除重复的+3个业力URL(比连续调用Web API快得多),下载原始HTML并提取文本。 为了节省时间,您可以在使用预过滤的URL列表,这会将140GB的pushshift数据减少到内容抓取实际需要的2GB URL。 还有一个用于标记的初始实用程序,我们正在寻求尽快添加BPE编码。 该代码库是有功能的,但是正在积极开发中,因此请随时发布问题或提出改进建议(欢迎提出请求)。 依存关系 如果使用pipenv( pip install --user pipenv ),则cd到项目根目录并运行 pipenv ins
资源推荐
资源详情
资源评论
收起资源包目录
openwebtext-master.zip (18个子文件)
openwebtext-master
.gitignore 1KB
requirements.txt 546B
extract_urls.py 3KB
scrapers.py 2KB
LICENSE 34KB
Pipfile.lock 21KB
url_utils.py 4KB
count_docs.py 1KB
download.py 8KB
utils.py 603B
README.md 5KB
fetch_urls.py 1KB
pushshift_dumps
RS_v2_2005-06.xz 17KB
RS_v2_2005-07.xz 91KB
Pipfile 273B
extract_text.py 3KB
deduplicate_urls.py 3KB
tokenize_text.py 4KB
共 18 条
- 1
资源评论
靚兔
- 粉丝: 38
- 资源: 4637
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- com.bishua666.luxxx1.apk
- Conan2示例工程以及mingw64编译工具链2
- exp4_2.c.sln
- [雷军]美妙的爱情......福的味道。.mp3
- 2023-04-06-项目笔记 - 第三百二十阶段 - 4.4.2.318全局变量的作用域-318 -2025.11.17
- 2023-04-06-项目笔记 - 第三百二十阶段 - 4.4.2.318全局变量的作用域-318 -2025.11.17
- java资源异步IO框架 Cindy
- java资源业务流程管理(BPM)和工作流系统 Activiti
- java资源高性能内存消息和事件驱动库 Chronicle
- 哋它亢技术应用2慕课自动化学习
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功