收稿日期
: 2012 - 04 - 20
修回日期
: 2012 - 05 - 27
第
30
卷 第
2
期
计 算 机 仿 真
2013
年
2
月
文章编号
: 1006 - 9348( 2013) 02 - 0299 - 04
基于
SVM
算法的文本分类技术研究
崔建明
1
,
刘建明
2
,
廖周宇
2
( 1.
桂林理工大学现代教育与技术中心
,
广西 桂林
541004;
2.
桂林理工大学信息科学与工程学院
,
广西 桂林
541004)
摘要
:
在优化分类技术的研究中
,
文本特征化后通常具有高维性和不平衡性的特点
,
导致传统的分类算法准确率不高的问
题
。
针对文本分类器的性能容易受到核函数和参数的影响的问题
,
为提高文本分类器的准确性
。
采用支持向量机
( SVM)
的理论在文本分类技术同时将根据优化的粒子群算法
( PSO)
引入
SVM
分类算法中进行优化文本分类器的参数
,
将分类器
的准确率作为
PSO
算法适应度函数通过粒子移动操作找出最佳参数并用
SVM
算法进行分类
。
在文本数据集上的仿真结果
表明
,
与传统的算法相比
,
经
PSO
算法优化后的
SVM
文本分类器的准确性更高
,PSO
算法是一种有效的优化方法
,
能广泛应
用于文本分类问题
。
关键词
:
支持向量机
;
文本分类
;
算法
中图分类号
: TP391. 9
文献标识码
: A
Research of Text Categorization Based on Support Vector Machine
CUI Jian - ming
1
,LIU Jian - ming
2
,LIAO Zhou - yu
2
( 1. Center of Modern Education and Technology,Guilin University of Technology;
2. School or College of Information science and engineering,Guilin University of Technology,
Guilin Guangxi 541004,China)
ABSTRACT: Text characterization usually has the characteristics of high dimensional and unbalanced,which causes
the probems that traditional classification algorithm accuracy is not high,the performance of text categorization is vul-
nerable to the influence of kernel function and parameters. In order to improve the accuracy of the text classifier,this
article used the support vector machine ( SVM) theory to study the text classification technology,and the theory of
particle swarm optimization ( PSO) algorithm,the classification algorithm was introduced to the SVM to optimize the
parameters of the text classifie,we used the accuracy of the classifier as fitness functions,used particles move opera-
tion to find the best parameters,and used the SVM algorithm to classify the texts. Compared with the traditional algo-
rithm,the new classifier has higher accuracy.
KEYWORDS: SVM; Text categorization; Algorithm
1
引言
网络技术的不断发展
,
互联网成了人们获取信息的重要
途径
,
但因特网上的信息以爆炸式的增长
,
而且网络信息是
没有次序的
,
因而人们很难准确而有效的获取需要的信息
。
面对如此庞大而且不断增长的信息
,
如何有效地组织并找到
用户需要的信息是当代信息科学技术领域的一大难题
,
因
此
,
如何使得信息文本分类是机器学习中一个课题
,
应用机
器学习实现按照文本内容自动分类技术是解决信息准确
、
快
速检索的主要方法之一
[1,2]
。
目前
,
应用于文本分类的技术和算法很多
,
例如有朴素
贝叶斯算法
、K
最近邻算法
、
神经网络
、
支持向量机
( Support
Vector Machine
即
SVM)
等
[3]
。
其中
,SVM
分类算法有很好
的泛化能力与学习能力
,SVM
分类算法是以结构风险最小化
为目标
,
所求得的解是全局最优解
,
该算法克服
“
维数灾难
”
问题
。
有比较深厚的理论基础
,
被广泛应用于文本自动分
类
、
人脸识别
、
基因表达
、
手写体的识别等领域
。
对于传统的
SVM
分类算法
,
易受数据集
,
分类器及训练
参数的影响
,
本文针对训练参数对
SVM
分类器准确率影响
,
可以利用基于优化理论的粒子群算法对核函数参数和分类
器参数进行优化
。
粒子群优化算法是一种基于群体的全局
—992—