没有合适的资源?快使用搜索试试~ 我知道了~
es-dedupe:用于从Elasticsearch删除重复文档的工具
共22个文件
py:12个
txt:2个
dockerfile:1个
需积分: 50 7 下载量 5 浏览量
2021-05-05
06:17:24
上传
评论
收藏 29KB ZIP 举报
温馨提示
ES重迭 用于删除按某些唯一字段(例如--field Uuid )分组的重复文档的工具。 删除过程包括两个阶段: 汇总查询查找具有相同field值且至少出现2次的文档。 此类文档的一份副本留在ES中,其他副本则通过批量API删除(通常,几乎全部-总是有一些问题)。 每次DELETE操作之后,我们都等待索引更新。 处理过的文档将登录到/tmp/es_dedupe.log 。 不幸的是,聚合查询不一定是精确的。 基于/tmp/es_dedupe.log日志文件,我们查询每个field值,并在其他分片上删除文档副本。 根据群集中节点和分片的数量,可能仍会存在聚集查询未返回的文档。 为了禁用第二步,请使用--no-check标志。 码头工人 从Docker运行: docker run -it -e ES=locahost -e INDEX=my-index -e FIELD=id deri
资源推荐
资源详情
资源评论
收起资源包目录
es-dedupe-master.zip (22个子文件)
es-dedupe-master
setup.py 1KB
.gitignore 59B
Dockerfile 787B
requirements.txt 40B
Makefile 911B
dedupe.py 29KB
LICENSE 11KB
docker-compose.yml 754B
scripts
lint 256B
README.md 5KB
tests
test_esdedupe_timestamp.py 2KB
test_esdedupe_parallel.py 2KB
test_esdedupe_noop.py 2KB
test_esdedupe_simple.py 2KB
Dockerfile.test 376B
esdedupe
__init__.py 208B
cli.py 8KB
utils.py 767B
__main__.py 108B
esdedupe.py 13KB
cmd.py 2KB
requirements-dev.txt 65B
共 22 条
- 1
资源评论
向朝卿
- 粉丝: 34
- 资源: 4443
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功