【免费】论文研究-不均衡数据集上文本分类方法研究.pdf资源-CSDN文库

论文研究

需积分: 0 8 浏览量 2019-09-12 22:03:04 上传评论收藏 473KB PDF 举报

资源推荐

资源详情

资源评论

C omputer Engineering and Applications 计算机工程与应用

2013，49（20）

1 引言

文本分类是指在给定的类别标记集合下形成文本分

类体系，然后对未知类别的文档进行自动处理，并根据文

档特征来判断其所属类别的过程。近年来，随着网络技术

的飞速发展，网上电子文档和网页信息的数量以指数级的

速度增长，文本分类技术在信息检索，信息过滤以及内容

管理等各项应用中变得越来越重要。然而在网络信息的

分类中，数据偏斜的情况普遍存在，数据集中各类别间样

本的数量可能存在数量级的差距，即类别分布呈现偏斜或

不均衡，这是导致分类效果不理想的一个重要因素。传统

的特征选择方法（如 DF，IG 等）由于考虑特征项对全局的

信息量容易受不均衡数据集的影响，进而无法产生很好的

分类效果。

针对上述问题，本文提出一种改进的 CHI 特征选择方

法，该方法首先考虑 CHI 特征选择方法中特征项与类别正

负相关性，然后加入每个类选择特征项的局部信息特征，

即将倒转类别特征考虑到特征选择方法中。根据两者乘

积选择出具有最强类别区分能力的特征项，用于最后文本

向量化。将训练语料库中的文本向量化后，由于各类别样

本数量相差悬殊，样本无法准确反映整个空间的数据分

布，分类器容易被大类淹没而忽略小类，从而导致在稀有

类别上的准确率很低

[1]

。所以，文中对文档向量化后数据

采用数据重取样的方法使各类训练样本数量达到相对均

衡，最后使用 KNN 方法对数据分类取得了较好分类效果。

2 CH I 统计特征选择方法的相关研究

文本特征降维主要分为特征抽取和特征选择两种途径。

目前常用的特征选择方法主要有文当频 DF（Document

Frequency），互信息 MI（Mutual Information），信息增益 IG

（Info rma tion Gain），期望交叉熵 ECE（Expected Cross

Entropy），C HI 统计等。在这些特征选择方法中，Yang 指

出 IG（信息增益）和 CHI 的效果最好

[2]

，而 IG 计算量相对其

不均衡数据集上文本分类方法研究

谢娜娜，房斌，吴磊

XIE Nana, FANG Bin, WU Lei

重庆大学计算机学院，重庆 400030

C ollege of Computer Science, Chongqing Un iversity, Cho ngqing 400030, China

XIE Nana, FANG Bin, WU Lei . Study of text categorization on imbalan ced data. Computer Engineering and Applica-

tions, 201 3, 49（20）：118-121.

Abstra ct：Class imbalance problems are often encountered in real application of automatic text classifications. From the view

of the optimistic feature selection methods and the improvement of classifiers, a new text classification method on imbalanced

data set is proposed. The positive and negative correlation between items and cate gorizations are combined with the strength of

class information in the aspect of the feature selection scheme. Then on the data layer, the imbalanced characters of the training

corpus are filtered by data resampling methods in order to reduce the effect on the classification. Experimental results show that

the new approach can achieve better performance.

Key words：feature selection; CHI statisti cal approach; text categorization; imbalanced data;resampling

摘要：文本分类中数据集的不均衡问题是一个在实际应用中普遍存在的问题。从特征选择优化和分类器性能提升两方

面出发，提出了一种组合的不均衡数据集文本分类方法。在特征选择方面，综合考虑特征项与类别的正负相关特性及类

别区分强度对传统 CHI 统计特征选择方法予以改进。在数据层上，采用数据重取样方法对不均衡训练语料的不平衡性过

滤减少其对分类性能的影响。实验结果表明该方法对不均衡数据集上文本可达到较好分类效果。

关键词：特征选择；CHI 统计；文本分类；不均衡数据集；重取样

文献标志码：A 中图分类号：TP391.41 doi：10.3778/j.issn.1002-8331.1201-0299

基金项目：国家自然科学基金（No.61173129）。

作者简介：谢娜娜（1986—），女，硕士研究生，主要研究领域为机器学习、模式识别；房斌（1967—），男，教授，主要研究领域为模式识别、机

器学习、数字图像处理；吴磊（1987—），男，硕士研究生，主要研究领域为机器学习、模式识别。E-mail：xiena-na2006713@163.com

收稿日期：2012-03-14 修回日期：2 012-05-07 文章编号：1002-8331（2013）20-0118-04

CNKI 出版日期：2012-06-01 http ://www.cn ki.net/kcms/detail/11. 2127.TP.20120601.1457.01 5.html

118

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余3页未读，立即下载

评论收藏

内容反馈

weixin_38743481

粉丝: 694
资源: 4万+

论文研究-不均衡数据集上文本分类方法研究.pdf

不均衡数据集上文本分类的特征选择研究

论文研究-不平衡数据集上的文本分类特征选择新方法.pdf

论文研究-不均衡数据集文本分类中少数类样本生成方法研究.pdf

论文研究-基于BSMOTE和逆转欠抽样的不均衡数据分类算法.pdf

不平衡数据集上的文本分类特征选择新方法 (2011年)

论文研究-不平衡数据集的分类方法研究.pdf

论文研究-一种基于熵的文本相似性计算方法.pdf

论文研究-多关系数据挖掘方法研究.pdf

论文研究-基于差分演化的自适应集成学习算法在不均衡数据分类中的应用.pdf

中医临床不均衡数据疾病分类方法研究.pdf

论文研究-面向多类不均衡网络流量的特征选择方法.pdf

论文研究-齿轮故障不均衡分类问题的研究.pdf

论文研究-一种不确定数据集上频繁模式挖掘的近似算法.pdf

论文研究-资源均衡问题的Hopfield 解决方法.pdf

论文研究-不确定性下多目标博弈中弱Pareto-NS均衡的存在性.pdf

论文研究-生物医学文本分类方法比较研究.pdf

论文研究-基于粗糙集的文本分类研究 .pdf

论文研究-用户均衡网络中的敏感度分析方法.pdf

云计算下大数据均衡调度方法研究.pdf

分布式数据流数据倾斜均衡方法研究.pdf

论文研究-FMT系统中的有效均衡方法 .pdf

论文研究-自适应信道缩短方法实现信道均衡 .pdf

论文研究-DVB-C2数字接收机的信道均衡方法.pdf

论文研究-纳什均衡问题解的特征.pdf

论文研究-非均衡数据的支持向量机新方法.pdf

论文研究-文本自动分类系统文本预处理方法的研究.pdf

论文研究-动态自适应特征权重的多类文本分类算法研究.pdf

论文研究-结合聚类思想神经网络文本分类技术研究.pdf

最新资源