没有合适的资源?快使用搜索试试~ 我知道了~
simhash-cluster:simhash 近似重复检测的集群实现
共17个文件
py:11个
gitignore:1个
license:1个
需积分: 9 0 下载量 175 浏览量
2021-06-19
21:43:00
上传
评论
收藏 15KB ZIP 举报
温馨提示
Simhash 集群 这显然是未完成的工作,我们也无意完成它。 相反,我们选择通过使用支持 simhash 语料库的真实数据库。 Simhash 接受一个整数输入向量,并产生一个代表该向量的单个整数输出,因为相似的向量产生相似的散列——它们的结果散列预计仅相差几位。 考虑到这一点,simhash 通常与文本上的滚动散列函数结合使用以生成输入向量,从而产生与该文本块相对应的散列。 通过这种方式,您可以快速识别所有被视为接近重复的文档。 您甚至可以构建表来非常快速地执行这些查询。 可悲的是,它会消耗相当数量的 RAM,尤其是当您将数亿或数十亿个哈希插入已知哈希的语料库中时。 因此,分布式形式是必要的。 这就是分布式形式。 建筑学 有一个主节点,从节点向其注册,此时它们被分配了要服务的分片,并且对该分片的所有查询都将由该节点提供服务。 主站和从站通过 zerorpc 进行通信。 适配器 适
资源推荐
资源详情
资源评论
收起资源包目录
simhash-cluster-master.zip (17个子文件)
simhash-cluster-master
bin
simhash-slave 758B
simhash-master 863B
example-config.yaml 466B
test
testMaster.py 2KB
testRangeMap.py 2KB
LICENSE 1KB
smhcluster
master.py 7KB
slave.py 2KB
util.py 3KB
__init__.py 320B
adapters
http.py 4KB
__init__.py 1KB
zrpc.py 942B
bench
benchMaster.py 1KB
setup.py 1KB
.gitignore 43B
README.md 3KB
共 17 条
- 1
资源评论
李凜之
- 粉丝: 36
- 资源: 4602
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功