数据库与信息管理
本栏目责任编辑
:
闻翔军
1
引言
随着互联网的大规模普及和企业信息化程度的
提高
,
文本信息的快速积累使公司
、
政府和科研机构
在信息处理和使用中面临前所未有的挑战
。
一方面
,
互联网和企业信息系统每天都不断产生大量文本数
据
,
这些文本资源中蕴含着许多有价值的信息
;
而另
一方面因为技术手段的落后
,
从大量数据资源中获取
需要的信息十分困难
。
人们迫切需要研究出方便有效
的工具去从大规模文本信息资源中提取符合需要的
简洁
、
精炼
、
可理解的知识
,
文本挖掘应运而生
。
文本
挖掘通常采用向量空间模型
(VSM)
[1]
来表示文本特征
,
即通过计算文本中词条出现的频度来构造文本
-
词条
矩阵
,
而文本中出现的词条数量众多
,
因此
,
文本特征
矩阵总是表现出成千上万甚至更大的维数
,
使得文本
挖掘处理工作计算非常复杂
,
解决这一问题的方法就
是先对文本特征矩阵进行降维
。
本文对几种不同的降
维方法及其在文本挖掘中的优缺点进行理论分析与
性能比较
。
2
降维技术
文本特征的研究对文本挖掘具有非常重要的意
义
,
因为文本特征是影响挖掘系统性能的最主要的因
素
。
目前对文本特征的研究主要集中在以下两个方
面
:
横向选择和纵向投影
[2]
。
(1)
横向选择
:
即文本特征选择
,
是指剔除噪声文
档以改进挖掘精度
,
或者在文档数量过多时仅选取一
部分样本以提高挖掘效率
。
在进行特征选择时
,
一般
都是利用某种评价函数独立地对每个原始特征项进
行评分
,
然后将它们按分值的高低排序
,
从中选取若
干个分值最高的特征项
。
目前比较成熟的特征选择方
法主要有
:
文档频数
、
信息增益
、
期望交叉熵
、
互信息
、
文本证据权
、
优势率
、
x
2
统计
(CHI)
等
。
(2)
纵向投影
:
即文本特征的抽取
,
是指按照挖掘
目标选取有用的特征
,
通过特征集的缩减
,
就可以得
到代表文档集合的有效的
、
精简的特征子集
,
在此基
础上可以开展各种文本挖掘工作
,
即获取什么类型的
特征
,
获取特征的过程也是形成原始特征集的过程
。
常用的特征抽取方法有
:
主成分分析
、
非负矩阵分解
、
潜在语义索引等
。
收稿日期
:
2007- 12- 12
作者简介
:
孙铁利
(
1956-
) ,
男
,
吉林长春人
,
教授
,
博士生导师
,
主要研究领域为智能用户接口
、
知识工程
、
智能
Agent
;
张妍
(
1981-
) ,
女
,
内蒙赤峰人
,
硕士研究生
,
主要研究领域为文本分类
;
李晓微
(
1982-
) ,
女
,
吉林松原人
,
硕士研究生
,
主要研究领域为信息过滤
。
文本挖掘中特征降维方法比较研究
孙铁利
,
张妍
,
李晓微
(
东北师范大学 计算机学院
,
吉林 长春
130117
)
摘要
:
研究了文本挖掘中的高维特征选取问题
,
对常见的降维主要方法
:
特征选择和特征抽取等算法进行
了理论分析与性能比较
,
评价了它们的优缺点和适用范围
。
关键词
:
文本挖掘
;
降维算法
;
特征选择
;
特征抽取
中图分类号
:
TP18
文献标志码
:
A
文章编号
:
1009- 3044(2008)02- 10201- 04
The Research on Dimension Reduction Methods of Text Mining
SUN Tie- li, ZHANG Yan, LI Xiao- wei
(College of Compute Science, Northeast Normal University, Changchun 130117,China)
Abstract: Feature: Selection is the key technology in the text mining field. Feature reduction method involves
feature selection and feature extraction. This paper studies the feature selection and feature extraction algorithms,
discusses some familiar algorithms. Their advantage and disadvantage are evaluated.
Key words: text mining; dimensionality reduction; feature selection; feature extraction.
201
评论1