二、相关工作
文本分类最早可以追溯到 20 世纪 60 年代,在这之前主要是采用手工分类的
方法。进入 60 年代后,Maron 发表了具有里程碑作用的论文《Automatic Indexing:
An Experimental Inquiry》
[2]
,采用贝叶斯公式进行文本分类,大大推进了文本分
类工作。在该文中,Maron 还假设特征间是相互独立的,这就是后来被广泛采用
的“贝叶斯假设”。
在随后的二十多年,主要是采用知识工程(Knowledge Engineering, KE)的
方法进行文本分类,它通过在专家知识基础上手工建立一系列分类规则来构建分
类器。知识工程方法需要大量领域的专家和工程师参与,势必耗费很多人力物力,
当电子文档急剧增长时将无法满足需求。这种方法最典型的应用实例为由
Carnegie Group 开发的 CONSTRUE 系统
[3]
,该系统用来对路透社的新闻稿件自
动分类。
直到进入 20 世纪 90 年代,随着 Internet 的迅猛发展,为了能够更好地处理
大量的电子文档,并且伴随着人工智能、机器学习、模式识别、统计理论等学科
的发展,基于知识工程的文本分类方法渐渐退出了历史舞台,文本分类技术进入
了更深入的自动分类时代。由于基于机器学习的自动文本分类系统几乎可以达到
与人类专家相当的正确度,但是却不需要任何知识工程师或领域专家的干预,节
约了大量的人力,并且分类效率远远高于人类专家。
常用的文本分类算法主要包括三大类。一类是基于概率和信息理论的分类算
法,如朴素贝叶斯算法(Naive Bayes),最大熵算法(Maximum Entropy)等;另
一类是基于 TFIDF 权值计算方法的分类算法,这类算法包括 Rocchio 算法,TFIDF
算法,k 近邻算法(k Nearest Neighbors)等;第三类是基于知识学习的分类算法,
如决策树(Decision Tree), 人工神经网络(Artificial Neural Networks), 支持向
量机(Support Vector Machine), 逻辑回归模型(Logistic Regression)等算法。
三、数据分析
在进行数据分类之前,首先我们对数据进行了分析。此次垃圾短信分类共有
80 万条标注数据,其中垃圾数据 80000 条,其余为非垃圾数据。由此可见数据
中正负样本不均衡的问题非常严重。
考虑到上采样方法会导致过拟合,下采样会浪费过多的实验数据面对这样的
情况,我们的思路是改变错分数据的代价。对不同的数据赋予不同的权重,使得
不同类别的错分代价不同。我们对垃圾短信赋予更高的权重,使其在分类过程中
被错分的代价更大,根据经验,我们将权重比例设置为 9:1。
评论0
最新资源