没有合适的资源?快使用搜索试试~ 我知道了~
wikiparse:解析Wikipedia转储并将页面数据索引到Elasticsearch
共9个文件
clj:3个
md:2个
xml:1个
需积分: 9 0 下载量 90 浏览量
2021-05-20
12:55:16
上传
评论
收藏 93KB ZIP 举报
温馨提示
Wikiparse 将Wikipedia数据转储XML导入Elasticsearch。 用法 [注意]这是运行脚本的最跨平台的方式。 有关加载时间的2-4倍优化,请参见下面的“更快地运行它”部分。 下载页面文章XML转储,找到上的链接。 您需要pages-articles.xml.bz2。 不要解压缩BZ2文件。 在发布页面上,下载 在BZ2文件上运行jar: java -jar -Xmx3g -Xms3g wikiparse-0.2.1.jar --es http://localhost:9200 /var/lib/elasticsearch/enwiki-latest-pages-articles.xml.bz2 数据将被索引到名为en-wikipedia的索引(默认情况下)。 可以使用--index参数更改。 更快地运行 运行此代码的最快方法是在此存储库中使用run-fas
资源推荐
资源详情
资源评论
收起资源包目录
wikiparse-master.zip (9个子文件)
wikiparse-master
.gitignore 182B
README.md 2KB
project.clj 570B
test
wikiparse
core_test.clj 133B
test.xml 63B
wikisample.xml.bz2 86KB
src
wikiparse
core.clj 11KB
doc
intro.md 127B
run-fast.sh 180B
共 9 条
- 1
资源评论
MachineryLy
- 粉丝: 29
- 资源: 4611
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功