没有合适的资源?快使用搜索试试~ 我知道了~
es-dedupe:用于从Elasticsearch删除重复文档的工具

共22个文件
py:12个
txt:2个
dockerfile:1个

需积分: 48 421 浏览量
2021-05-05
06:17:24
上传
评论
收藏 29KB ZIP 举报
ES重迭 用于删除按某些唯一字段(例如--field Uuid )分组的重复文档的工具。 删除过程包括两个阶段: 汇总查询查找具有相同field值且至少出现2次的文档。 此类文档的一份副本留在ES中,其他副本则通过批量API删除(通常,几乎全部-总是有一些问题)。 每次DELETE操作之后,我们都等待索引更新。 处理过的文档将登录到/tmp/es_dedupe.log 。 不幸的是,聚合查询不一定是精确的。 基于/tmp/es_dedupe.log日志文件,我们查询每个field值,并在其他分片上删除文档副本。 根据群集中节点和分片的数量,可能仍会存在聚集查询未返回的文档。 为了禁用第二步,请使用--no-check标志。 码头工人 从Docker运行: docker run -it -e ES=locahost -e INDEX=my-index -e FIELD=id deri
资源推荐
资源详情
资源评论
























收起资源包目录



























共 22 条
- 1
资源评论

向朝卿
- 粉丝: 32
- 资源: 4442

上传资源 快速赚钱
我的内容管理 收起
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助

会员权益专享
安全验证
文档复制为VIP权益,开通VIP直接复制
