05_Word_Similarity-_Distributional_Similarity_II

需积分: 10 201 浏览量 2019-08-13 10:55:19 上传评论收藏 771KB PDF 举报

在自然语言处理(NLP)领域，词义和词的相似性是理解语言的基础。在分布语义学（Distributional Semantics）的范畴中，词义相似性的研究尤其重要。分布语义学是通过词语在文本中出现的上下文分布来捕捉其含义的一种方法。这种方法认为，语义相似的词会在相似的上下文中出现。分布式相似性是分布语义学的一个核心概念，它通过分析词语周围的上下文环境来评估它们的相似度。分布式相似性的理论可以追溯到语言学家Zellig Harris在1968年的理论，他提出一个实体的含义以及这些实体之间的语法关系的含义与这些实体相对于其他实体的组合限制有关。按照这种观点，如果两个词有相似的句法上下文，则它们的意义也是相似的。例如，"duty"和"responsibility"这两个词在一些形容词如"additional"、"administrative"、"assumed"、"collective"、"congressional"和"constitutional"后，它们作为动词的宾语出现时，可以认为是语义上相似的。 Dan Jurafsky的工作进一步阐述了如何使用句法信息来定义一个词的上下文。例如，Dan Jurafsky使用了语法依赖关系来构建词的共现向量。Dekang Lin在1998年的研究“Automatic Retrieval and Clustering of Similar Words”中应用了这种方法，他关注了词语的依赖关系上下文，如主语、介词宾语等，并使用这些关系来定义词的共现向量。这种方法通过考察词的句法依赖关系来捕获它们的上下文，以此来判定词的相似性。 Hindle在1990年提出的基于谓词-论元结构的名词分类研究中，也使用了分布语义的方法。他通过分析句子中的名词与其论元之间的关系来推断名词的语义类属。例如，在句子"drink it"和"drink wine"中，"drink"作为动词使用时，"it"和"wine"都作为宾语，但"drink"和"wine"的语义相似性可能更高，因为"wine"是一个更典型的"drinkable"（可饮用的）实体。分布式相似性不仅限于使用句法信息，还可以结合统计方法来增强相似度的计算。例如，可以通过点互信息(Pointwise Mutual Information, PMI)来计算词和其上下文的共现频率。PMI是一种评估两个事件共同出现的频率是否比它们独立出现的频率更高的一种度量。通过比较词与其上下文的PMI值，可以更准确地评估它们的语义相似度。在量化词与词之间相似度的度量上，余弦相似度(Cosine Similarity)是一个常用的指标。余弦相似度通过测量两个非零向量在方向上的相似度来工作，其值介于-1和+1之间。两个向量的方向完全相反时，余弦值为-1；当两个向量的方向完全一致时，余弦值为+1；当两个向量正交时，余弦值为0。由于原始频率或PMI值是非负数，因此余弦值的范围在0到1之间。在文本分析中，余弦相似度用来评估两个文档或词向量的相似性。例如，通过余弦相似度计算可以得出"apricot"和"information"，"digital"和"information"，以及"apricot"和"digital"之间的相似度。假设经过计算，得到的结果是0.58，那么可以判断这三对词语中，任意一对的相似度相同，均表现为中等程度的相似。除了余弦相似度之外，还有其他的一些相似度度量方法，这些方法可能在某些情况下更加有效，例如基于同义词词典的方法。评估相似度时，通常需要考虑词的不同用途和上下文含义，因此对于不同的应用场景和目的，可能需要选择不同的相似度度量方法。通过这些方法，研究人员和工程师可以更好地理解和处理自然语言中的词语和概念，这对于各种自然语言处理任务，如文本分析、情感分析、机器翻译、问答系统等，都是至关重要的。

资源推荐

资源详情

资源评论