关于文本相似度计算-JaccardSimilarity 和哈希签
名函数
在目前这个信息过载的星球上,文本的相似度计算应用前景还是比较广泛
的,他可以让人们过滤掉很多相似的新闻,比如在搜索引擎上,相似度太高的页
面,只需要展示一个就行了,还有就是,考试的时候,可以用这个来防作弊,同样
的,论文的相似度检查也是一个检查论文是否抄袭的一个重要办法。
文本相似度计算的应用场景
过滤相似度很高的新闻,或者网页去重
考试防作弊系统
光第一项的应用就非常广泛。
文本相似度计算的基本方法
文本相似度计算的方法很多,主要来说有两种,一是余弦定律,二是
JaccardSimilarity 方法,余弦定律不在本文的讨论范围之内,我们主要说一下
JaccardSimilarity 方法。
JaccardSimilarity 说起来非常简单,容易实现,实际上就是两个集合的交
集除以两个集合的并集,所得的就是两个集合的相似度,直观的看就是下面这个
图。