收稿日期
! !"#$%"+%!*"
修回日期
! !"#$%"*%"* ''
基金项目
!
国家自然科学基金资助项目
#$#)*"#)& $"
北京市教委科研计划面上项目
#e[!"#(##!)!"#($ "
北京市属高等学校创新团队建设与教师职业发展计划项目
# QY-6!"#)"+#&$"
北京信息科技大学促进高校内涵发展专项项目
#+###$!)(")$
作者简介
!
郭正斌
##&&)%$%
男
%
山东潍坊人
%
硕士
%
主要研究方向为自然语言处理
#GL3RFA>GI:>##/#$)1234$"
张仰森
##&$!%$%
男
%
山西临猗人
%
教授
%
博士
#
后
$%
主要研究方向为自然语言处理
&
人工智能
"
蒋玉茹
##&*.%$%
女
%
辽宁沈阳人
%
讲师
%
博士研究生
%
主要研究方向为自然语言处理
1
一种面向文本分类的特征向量优化方法
!
郭正斌
%
张仰森
%
蒋玉茹
#
北京信息科技大学 智能信息处理研究所
%
北京
#""#&!$
摘
'
要
!
对文本进行建模的普遍方法是使用向量空间模型构建文本向量
%
并利用权值调整和维度调整对文本
向量进行优化
'
提出了一种面向文本分类的特征向量优化方法
'
首先利用剔除近义词方法优化文本向量中
的特征项
"
然后提出贡献率因子的概念
%
并利用其优化特征值
'
实验表明
%
相比朴素贝叶斯分类方法其效果提
高了
"1&$X'
因此
%
通过去除近义词和对提取出的特征词调整权重
%
可以达到优化特征向量
&
提高文本分类效
果的目的
'
关键词
!
机器学习
" [JF3LH"
特征向量
"
向量优化
"
文本分类
中图分类号
! 67)#'''
文献标志码
! 8'''
文章编号
! #""#%)$&+#!"#*$".%!!&&%"(
93:!#"1)&$& ;<1:==>1#""#%)$&+1!"#*1".1"#)
TAJHLBA@A2H3B3EH:4:RJH:3> 4AHF39 D3BHASH2KJ==:D:2JH:3>
,L3NFA>GI:>% NFJ>GMJ>G=A>% f:J>GMLBL
#=.4*-*)*1%'=.*1&&-01.*=.'%2+,*-%. ;2%#144-.0% @1-A-.0 =.'%2+,*-%. "#-1.#1<C1#$.%&%086.-7124-*8% @1-A-.0 #""#&!% :$-.,$
!"#$%&'$! QH:=JGA>ABJK4AHF39 HFJHL=:>G@A2H3B=EJ2A439AKH323>=HBL2HJ@A2H3BH3BAEBA=A>HHASH16FABAJBAHC34AHF39=
H33EH:4:RAHFAHASH@A2H3B! J9<L=HCA:GFH=3BJ9<L=H9:4A>=:3>=16F:=EJEABEB3E3=A9 J>3@AKDAJHLBA@A2H3B3EH:4:RJH:3> 4AHF39
D3BHASH2KJ==:D:2JH:3>1T:B=H:H3EH:4:RA9 HFADAJHLBA=:> HASH@A2H3BIPBA43@:>GHFA=P>3>P4=1UA23>9 :HEB3E3=A9 J>3@AK23>%
2AEH***23>HB:ILH3BDJ2H3BH33EH:4:RAHFADAJHLBA@JKLA1VA=LKH=F3C=HFJHHFAHASH2KJ==:D:2JH:3> J22LBJ2P3DHF:=C3Ba :=:>%
2BAJ=A9 IP"1&$X 234EJBA9 C:HF HFAZJ:@A]JPA=:J> 4AHF3916FABAD3BA% IPBA43@:>G=P>3>P4=J>9 J9<L=H:>GHFACA:GFH3D
HFADAJHLBAC3B9=% :H2J> J2F:A@AHFAG3JK3D3EH:4:R:>GHFAHASH@A2H3BJ>9 :4EB3@:>GHFAJ22LBJ2P3DHASH2KJ==:D:2JH:3>1
()* +,%-#! 4J2F:>AKAJB>:>G" [JF3LH" DAJHLBA@A2H3B" @A2H3B3EH:4:RJH:3>" HASH2KL=HAB:>G
''
文本分类作为数据挖掘的一项研究内容
%
要从文本中获取
有价值的信息来处理
%
其任务是把文本划分到与它最相似的一
类
'
文本分类
%
早期使用的是词匹配法
&
知识工程等方法
%
这些
方法存在用时长
&
效率低的缺点
'
但随着互联网海量文本的出
现
%
统计和机器学习方法开始适用于这一领域
%
并逐渐成为主
流
(#%!)
'
现在的分类方法
%
通用的策略是首先对已分类好的数
据进行训练
%
生成分类模型
"
然后使用模型对未分类文本进行
自动分类
'
目前
%
很多研究者采用向量空间模型对文本进行向量化表
示后
%
采用距离计算的方法实现文本的分类
%
还有一些研究者采
用条件概率的方法
#
如朴素贝叶斯方法
$
实现文本分类
'
本文
将向量空间模型与概率模型相结合
%
首先通过向量空间模型对
文本进行表示
%
采用
6T%QYT
计算特征词的权重
%
对权重进行归
一化处理转换成概率后
%
再采用朴素贝叶斯的概率分类模型
%
实
现文本的分类
'
在利用向量空间对文本表示过程中
%
可能会出
现向量高维稀疏的问题以及近义词干扰的问题
'
向量高维稀
疏
())
会导致文本分类模型训练得不充分
%
从而影响分类器的性
能
"
而近义词则会降低特征词的辨别力
%
进而也将影响文本分类
器的效果
'
本文拟从权值调整
&
降维两方面对向量空间进行优
化
%
利用贡献率因子 #和 " 调整权值和去除近义词
%
以实现向量
空间模型降维优化
%
提升文本分类器的分类效果
'
!"
相关的理论及其原理
!$!"
向量空间模型
向量空间模型
# @A2H3B=EJ2A439AK%^U[$
((%+)
是一种文本
表示模型
%
由
UJKH3>
等人于
!"
世纪
*"
年代提出
%
最初是为了
应用于信息 检索领域
%
后来被 广泛应用 于自然语 言处理领
域
($)
'
向量空间模型把文本映射成向量
%
特征词相当于维度
%
每个维度的权重可用数值的形式来表示
'
这样
%
一篇文档就可
以映射成一个向量
%
文档之间语义的相似性就可以用向量之间
的距离来度量
'
向量表现形式为
?
A
l#G
#A
%G
!A
%4%G
-A
$%
其中
?
A
代表第
A
篇文档
%
向量分量
G
-A
表示第
-
个特征词
#
维度
$ *
-
在文
档
?
A
中的权重
'
在中文信息处理方面
%
特征词通常是经过分词并且去除停
用词后的结果
'
权值计算目前普遍使用
6T%QYT
权重计算方
法
(*%.)
%
如式
##$
所示
'
HD:9D
-%A
lHD
-%A
p:9D
-
##$
其中
!HD
-%A
是特征词
*
-
在文档
?
A
中出现的频率
%:9D
-
是特征词
*
-
的
:9D#
逆文档频率
$' :9D
由总文档数目除以包含该特征词的
文档数目
%
再将结果取对数计算得到
(&)
'
第
)(
卷第
.
期
!"#*
年
.
月
'
计 算 机 应 用 研 究
8EEK:2JH:3> VA=AJB2F 3D\34ELHAB=
^3K_)( Z3_.
8LG1!"#*
评论0
最新资源