没有合适的资源?快使用搜索试试~ 我知道了~
wikipedia-parallel-titles:用于从维基百科跨语言文章标题中提取平行语料库的工具
共8个文件
pl:4个
sh:2个
md:1个
需积分: 10 1 下载量 22 浏览量
2021-06-22
17:57:41
上传
评论
收藏 6KB ZIP 举报
温馨提示
维基百科平行标题 本文档描述了如何使用这些工具根据维基百科中跨语言的文章标题构建平行语料库(针对特定语言对)。 下载必要的数据 维基百科会定期发布其内容的数据库转储。 要运行这些脚本,每个语言对需要两个文件:基本的每页数据,其中包括特定语言的文章 ID 及其标题(以-page.sql.gz结尾)和-page.sql.gz语言链接记录(文件以-langlinks.sql.gz结尾-langlinks.sql.gz )。 要找到这些文件,请转至然后在该对中的一种语言中找到维基百科的数据库转储(建议使用较小的一种,因为这样可以加快处理速度)。 数据库备份通过将与单词wiki配对来命名。 例如,如果你想建立一个阿拉伯语-英语语料库,你应该从arwiki dump 下载相关文件,因为阿拉伯语文章比英语文章少。 例子: wget http://dumps.wikimedia.org/arwiki
资源推荐
资源详情
资源评论
收起资源包目录
wikipedia-parallel-titles-master.zip (8个子文件)
wikipedia-parallel-titles-master
.gitignore 675B
scripts
postprocess-list.pl 526B
extract.pl 2KB
utf8-normalize.sh 712B
README.md 2KB
build-corpus.sh 639B
filters
filter-cyrillic.pl 190B
filter-perso-arabic.pl 190B
共 8 条
- 1
资源评论
得陇而望蜀者
- 粉丝: 30
- 资源: 4586
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 筷手引流工具.apk
- 论文(最终)_20240430235101.pdf
- 基于python编写的Keras深度学习框架开发,利用卷积神经网络CNN,快速识别图片并进行分类
- 最全空间计量实证方法(空间杜宾模型和检验以及结果解释文档).txt
- 5uonly.apk
- 蓝桥杯Python组的历年真题
- 2023-04-06-项目笔记 - 第一百十九阶段 - 4.4.2.117全局变量的作用域-117 -2024.04.30
- 2023-04-06-项目笔记 - 第一百十九阶段 - 4.4.2.117全局变量的作用域-117 -2024.04.30
- 前端开发技术实验报告:内含4四实验&实验报告
- Highlight Plus v20.0.1
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功