第
37
卷第
3
期
西南民族大学学报·自然科学版
Journal
of
Southwest
University
for
Nationalities.
Natural
Science
Edition
May. 2011
文章编号:
1003-2843(2011)03-0464-05
基于汉语相似性文献检测的特征提取算法研究
谈文蓉,刘莉
(西南民族大学计算机科学与技术学院,四川成都
610041)
摘
要:针对传统
SCAM
不重视语义分析的缺点提出了一种基于汉语文献的特征提取方法.利用科学文献的层次结
构,在理解层构建语义特征与和统计特征相结合的权重计算公式.实验结果表明:该算法能有效减少存储容量,在运算
规模较小的情况下,较大幅度提高汉语相似性文献检测的查准率与召回率.
关键词:向量空间模型;语义分析;相似度;汉语文献;特征提取
中图分类号:
TP39
I.
2;
H085
文献标志码
:A
doi:
1O
.3969/j
.i
ssn.1003-2483.20
1
1.
05.24
Salton
等人提出的向量空间模型
VSM
是目前应用最为广泛和有效的文本分类模型
[1]
传统
VSM
由于高维
的稀疏的向量,时空开销很大,所以在实际应用领域,常采用提取特征词语的方法来来进行维数约简.在众多优
秀的特征词提取方法中,
TF-IDF
是最经典的.然而,当该方法在应用到汉语相似性文献检测中时,其查准率和
召回率都较低.因为,虽然汉语相似性文献检测技术本质上是一种文本聚类技术,却存在两个方面的特殊性:
(1)
汉语没有类似英文空格之类的边界标志且同义词近义词数目庞大,常规的分词与消歧方法由于精度不高,不可
避免地降低了文献相似性检测的精准率;
(2)
科学文献不完全等同于普通文本,其本身具有较好的结构特征,题
名、标题、摘要以及关键词中包含着大量的语义信息,
TF-IDF
权重计算方法并没有考虑语义分析的因素.
基于上述原因,本文提出了一种基于汉语相似性文献检测的特征提取算法
(Feature
Extraction based on the
Detection
ofthe
Chinese Similar Documents,
FEDCSD).
在
FEDCSD
算法中,聚类后的关键词视作切词标志,语义
特征被量化为贡献因子,候选词语的权重既与统计特征有关也与语义特征有关.受空间与时问复杂度的限制,
FEDCSD
算法只抽取每篇汉语文献综合权重靠前的侯选特征词构成向量,最后用向量之间的距离来判定汉语文
献的相似度.
1
SCAM
特征词提取与
TDF-IDF
权重计算
基于向量空间模型的
SCAM
从待检的
k
篇汉语文献中抽取
m
个高频词作为特征词,文献被看作是相互独立
的特征词组
(FW1
,
FW
2,
...FWJ...
,
F
肌
η )
(i=1....
止
,
j=
l..
....m).
若对每个
FWJ
(j
=
1..
....m)
,
按照其在文献
i
中的重要程度赋予一定的权重
WEij
,
则待检汉语文献集就被抽象成为一个向量空间.每个文献对应向量空间中
的一点,采用向量之间的点积或夹角余弦来计算文献的相似度.
TDF-IDF
是最传统的特征词权重计算方法,权重
公式如下:
刊
xLOG(k/
均
+0.01))2
,
其中
F
W:
岛为第
j
个特征词在文献
i
中出现的次数
,
nj
为出现和
j
个特征词的文献数.
应该说,
SCAM
特征词提取与
TDF-IDF
权重计算,既考虑了特征词在汉语文献内部的分布情况,又考虑了特
征词在整个文献集中的分布情况,可以有效排除部分高频词及低区分度词,在普通英文文本聚类中有较好的表
收稿日期
20II-04-II
作者简介:谈文蓉
(1968-)
,女,教授,研究方向:计算机翻译.