没有合适的资源?快使用搜索试试~ 我知道了~
论文研究-不均衡数据集上文本分类方法研究.pdf
需积分: 0 1 下载量 8 浏览量
2019-09-12
22:03:04
上传
评论
收藏 473KB PDF 举报
温馨提示
试读
4页
文本分类中数据集的不均衡问题是一个在实际应用中普遍存在的问题。从特征选择优化和分类器性能提升两方面出发,提出了一种组合的不均衡数据集文本分类方法。在特征选择方面,综合考虑特征项与类别的正负相关特性及类别区分强度对传统CHI统计特征选择方法予以改进。在数据层上,采用数据重取样方法对不均衡训练语料的不平衡性过滤减少其对分类性能的影响。实验结果表明该方法对不均衡数据集上文本可达到较好分类效果。
资源推荐
资源详情
资源评论
C omputer Engineering and Applications 计算机工程与应用
2013,49(20)
1 引言
文本分类是指在给定的类别标记集合下形成文本分
类体系,然后对未知类别的文档进行自动处理,并根据文
档特征来判断其所属类别的过程。近年来,随着网络技术
的飞速发展,网上电子文档和网页信息的数量以指数级的
速度增长,文本分类技术在信息检索,信息过滤以及内容
管理等各项应用中变得越来越重要。然而在网络信息的
分类中,数据偏斜的情况普遍存在,数据集中各类别间样
本的数量可能存在数量级的差距,即类别分布呈现偏斜或
不均衡,这是导致分类效果不理想的一个重要因素。传统
的特征选择方法(如 DF,IG 等)由于考虑特征项对全局的
信息量容易受不均衡数据集的影响,进而无法产生很好的
分类效果。
针对上述问题,本文提出一种改进的 CHI 特征选择方
法,该方法首先考虑 CHI 特征选择方法中特征项与类别正
负相关性,然后加入每个类选择特征项的局部信息特征,
即将倒转类别特征考虑到特征选择方法中。根据两者乘
积选择出具有最强类别区分能力的特征项,用于最后文本
向量化。将训练语料库中的文本向量化后,由于各类别样
本数 量相差悬殊 ,样本 无法准确反 映整 个空间 的数 据分
布,分类器容易被大类淹没而忽略小类,从而导致在稀有
类别上的准确率很低
[1]
。所以,文中对文档向量化后数据
采用数据重取样的方法使各类训练样本数量达到相对均
衡,最后使用 KNN 方法对数据分类取得了较好分类效果。
2 CH I 统计特征选择方法的相关研究
文本特征降维主要分为特征抽取和特征选择两种途径。
目 前 常 用 的 特 征 选 择 方 法 主 要 有 文 当 频 DF(Document
Frequency),互信息 MI(Mutual Information),信息增益 IG
(Info rma tion Gain),期 望 交 叉 熵 ECE(Expected Cross
Entropy),C HI 统计等。在这些特征选择方法中,Yang 指
出 IG(信息增益)和 CHI 的效果最好
[2]
,而 IG 计算量相对其
不均衡数据集上文本分类方法研究
谢娜娜,房 斌,吴 磊
XIE Nana, FANG Bin, WU Lei
重庆大学 计算机学院,重庆 400030
C ollege of Computer Science, Chongqing Un iversity, Cho ngqing 400030, China
XIE Nana, FANG Bin, WU Lei . Study of text categorization on imbalan ced data. Computer Engineering and Applica-
tions, 201 3, 49(20):118-121.
Abstra ct:Class imbalance problems are often encountered in real application of automatic text classifications. From the view
of the optimistic feature selection methods and the improvement of classifiers, a new text classification method on imbalanced
data set is proposed. The positive and negative correlation between items and cate gorizations are combined with the strength of
class information in the aspect of the feature selection scheme. Then on the data layer, the imbalanced characters of the training
corpus are filtered by data resampling methods in order to reduce the effect on the classification. Experimental results show that
the new approach can achieve better performance.
Key words:feature selection; CHI statisti cal approach; text categorization; imbalanced data;resampling
摘 要:文本分类中数据集的不均衡问题是一个在实际应用中普遍存在的问题。从特征选择优化和分类器性能提升两方
面出发,提出了一种组合的不均衡数据集文本分类方法。在特征选择方面,综合考虑特征项与类别的正负相关特性及类
别区分强度对传统 CHI 统计特征选择方法予以改进。在数据层上,采用数据重取样方法对不均衡训练语料的不平衡性过
滤减少其对分类性能的影响。实验结果表明该方法对不均衡数据集上文本可达到较好分类效果。
关键词:特征选择;CHI 统计;文本分类;不均衡数据集;重取样
文献标志码:A 中图分类号:TP391.41 doi:10.3778/j.issn.1002-8331.1201-0299
基金项目:国家自然科学基金(No.61173129)。
作者简介:谢娜娜(1986—),女,硕士研究生,主要研究领域为机器学习、模式识别;房斌(1967—),男,教授,主要研究领域为模式识别、机
器学习、数字图像处理;吴磊(1987—),男,硕士研究生,主要研究领域为机器学习、模式识别。E-mail:xiena-na2006713@163.com
收稿日期:2012-03-14 修回日期:2 012-05-07 文章编号:1002-8331(2013)20-0118-04
CNKI 出版日期:2012-06-01 http ://www.cn ki.net/kcms/detail/11. 2127.TP.20120601.1457.01 5.html
118
资源评论
weixin_38743481
- 粉丝: 694
- 资源: 4万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功