《同义词词林(扩展版)》说明
一、词表建设
《同义词词林》的第一版和第二版的词表完全一样,收词 53,859 条。其中有
很多的词已经很不常用,成为所谓的罕用词。
参照多部电子词典资源,并按照人民日报语料库中词语的出现频度,只保留
频度不低于 3(小规模语料的统计结果)部分词语,可剔除 14,706 个罕用词和非
常用词。经过这样的处理,《同义词词林》还剩下 39,099 个词条。为了满足自然
语言处理的需要,这样规模的词典显然是少了一些,可以说远远不够。
为了扩充《同义词词林》,本实验室利用很多词语相关资源,并投入了大量
的人力和物力,完成了一部具有汉语大词表的《同义词词林(扩展版)》。最终的
词表包含 77,343 条词语。
二、词分类
《同义词词林》按照树状的层次结构把所有收录的词条组织到一起,,把词
汇分成大、中、小三类,大类有 12 个,中类有 97 个,小类有 1,400 个。每个小
类里都有很多的词,这些词有根据词义的远近和相关性分成了若干个词群(段
落)。每个段落中的词语有进一步分成了若干个行,同一行的词语要么词义相同
(有的词义十分接近),要么词义有很强的相关性。例如,“大豆”、“毛豆”和 “黄
豆”在同一行;“西红柿”和“番茄”在同一行;“大家”、“大伙儿”、“大家伙儿”
在同一行。另外,“将官”、“校官”、“尉官”在同一行,“雇农”、“贫农”、“下中
农”、“中农”、“上中农”、“富农”在同一行, “外商”、“官商”、“坐商”、“私
商”也在同一行,这些词不同义,但很相关。为了将词义相关的行和同义的行区
分开,词典《同义词词林》在行的左端加上“* *”作为标记。
小类中的段落可以看作第四级的分类,段落中的行可以看作第五级的分类。
这样,词典《同义词词林》就具备了 5 层结构,见图 1。随着级别的递增,词义
刻画越来越细,到了第五层,每个分类里词语数量已经不大,很多只有一个词语,
已经不可再分,可以称为原子词群、原子类或原子节点。不同级别的分类结果可
以为自然语言处理提供不同的服务,例如第四层的分类和第五层的分类在信息检
索、文本分类、自动问答等研究领域得到应用。有研究证明,对词义进行有效扩
展,或者对关键词做同义词替换可以明显改善信息检索、文本分类和自动问答系