重复问题检测 通过数据分析(包括局部敏感哈希(LSH))进行知识提取。 该存储库包含一个Jupyter笔记本,该笔记本使用数据集的子集测试4种不同类型的知识提取。 测试的知识提取方法为: 使用余弦相似度的“一对VS全部” 使用Jaccard相似度的“一对多” 具有余弦相似度的SimHash和随机二元投影的LSH 具有Jashcard相似性的具有MinHash和随机置换函数的LSH
评论星级较低,若资源使用遇到问题可联系上传者,3个工作日内问题未解决可申请退款~