没有合适的资源?快使用搜索试试~ 我知道了~
MediaWiki-Streaming:一组用于处理带流的MediaWiki数据的实用程序
共31个文件
py:20个
json:3个
xml:2个
需积分: 9 0 下载量 84 浏览量
2021-05-21
18:40:07
上传
评论
收藏 59KB ZIP 举报
温馨提示
MediaWiki流 一组用于流处理MediaWiki数据的实用程序。 用法 mwstream (-h | --help) mwstream <utility> [-h|--help] 数据处理工具 diffs2persistence 使用带有diff信息的修订JSON Blob生成令牌持久性统计信息。 dump2json 将XML转储转换为修订版JSON Blob流 dump2diffs 直接从XML转储计算差异 fetch_missing_diffs 扫描差异文档以查找丢失的差异并填写。 json2diffs 计算“ diff”字段并将其添加到修订JSON blob流中 mend_diffs 修补以大块且无序计算的差异。 persistence2stats 将令牌持久性统计信息汇总到修订统计信息 wikihadoop2json 将经过Wikihadoop处理的X
资源推荐
资源详情
资源评论
收起资源包目录
MediaWiki-Streaming-master.zip (31个子文件)
MediaWiki-Streaming-master
MANIFEST.in 27B
README.rst 2KB
demonstrate_json_speed.py 990B
mwstream 71B
config
western.diffs.yaml 331B
LICENSE 1KB
setup.py 1KB
mwstreaming
utilities
persistence2stats.py 5KB
util.py 2KB
json2tsv.py 2KB
truncate_text.py 1KB
__init__.py 0B
diffs2persistence.py 9KB
validate.py 822B
dump2diffs.py 3KB
json2diffs.py 6KB
wikihadoop2json.py 1KB
fetch_missing_diffs.py 2KB
mend_diffs.py 4KB
tests
__init__.py 0B
test_mend_diffs.py 4KB
dump2json.py 2KB
normalize.py 1KB
__init__.py 22B
mwstream.py 2KB
docs
schemas
revision_document-0.0.2.json 5KB
revision_document-0.0.1.json 5KB
revision_document-0.0.3.json 5KB
test_data
wikihadoop_stub.xml 912B
mw_dump_stub.xml 640KB
.gitignore 564B
共 31 条
- 1
资源评论
长迦
- 粉丝: 34
- 资源: 4659
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功