没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
WP2TXT 维基百科转储文件到文本转换器 重要提示:这是一个仍在进行中的项目,可能会很慢,不稳定甚至具有破坏性! 应谨慎使用。 关于 WP2TXT从Wikipedia转储文件(以XML编码/使用Bzip2压缩)中提取纯文本数据,剥离所有MediaWiki标记和其他元数据。 它最初旨在对寻求获取开源多语言语料库的简便方法的研究人员有用,但对于其他目的可能是方便的。 更新: 0.9.1版添加了新的num-threads选项,从而显着提高了性能。 另请注意,-- --category选项默认情况下--category启用状态,其输出格式与以前的版本略有不同。 在继续转换巨大的Wikipedia
资源推荐
资源详情
资源评论
收起资源包目录
wp2txt-master.zip (20个子文件)
wp2txt-master
.gitignore 175B
data
testdata_ja.bz2 257KB
testdata_en.bz2 2.81MB
output_samples
testdata_ja.txt 641KB
testdata_en.txt 5.3MB
bin
benchmark.rb 2KB
wp2txt 4KB
LICENSE 1KB
wp2txt.gemspec 1KB
spec
utils_spec.rb 8KB
spec_helper.rb 223B
README.md 5KB
lib
wp2txt.rb 11KB
wp2txt
utils.rb 13KB
article.rb 5KB
progressbar.rb 7KB
mw_api.rb 2KB
version.rb 38B
Gemfile 90B
Rakefile 198B
共 20 条
- 1
资源评论
白苏艾
- 粉丝: 32
- 资源: 4608
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功