基于关键词表达式模型的文本自动分类系统的研究与实现_关键词自动分类资源-CSDN文库

共1个文件

doc：1个

需积分: 50 33 浏览量 2009-01-14 22:44:10 上传评论收藏 23KB RAR 举报

资源推荐

资源详情

资源评论

收起资源包目录

package

基于关键词表达式模型的文本自动分类系统的研究与实现.rar （1个子文件）

基于关键词表达式模型的文本自动分类系统的研究与实现.doc 92KB

基于关键词表达式模型的文本自动分类系

统的研究与实现

Research and Implementation of Text Categorization

System Based on Keyword Expressions

常毅() 张鑫( 谭建龙(Tan jianlong) 白硕(Bai shuo)

（中国科学院计算技术研究所 Institute of Computing Technology , CAS 100080）

E-mail: changyi@ncic.ac.cn

中图法分类号 TP391

摘要：文本提出了一种新的基于关键词表达式模式的文本向量空间表示模型，在这个表示

模型基础上实现了一个的自动分类系统。相对于只使用文本中词语的频率的文本向量空间

模型，这种新的模型在可以计算的前提下，使用了词语之间的相对位置信息，从而可以解

决部分词语向量空间模型表示的不足。本文描述了使用这种模型的自动文本分类系统。包

括分类系统的结构，特征提取，文本相似度计算公式，并给出了评估方法和实验结果。

关键词：文本分类中文信息处理向量空间模型，关键词表示式，关键词匹配

Abstract：In recent years , information processing turns more and more important for us to get

useful information . Text Categorization, the automated assigning of natural language texts to

predefined categories based on their contents, is a task of increasing importance. This paper gives

a research to several key techniques about Text Categorization , including Vector Space Model ,

Feature Extraction , Machine Learning . It also describes a text categorization model based on

VSM, and gives the evaluations and results .

Key words：Text Categorization Chinese Information Processing Vector Space Model

1 引言

基于统计技术的文本分类系统能依据文本的语义将大量的文本自动分门别类，从而更

好地帮助人们把握文本信息。近年来，文本分类技术已经逐渐与搜索引擎、信息推送、信

息过滤等信息处理技术相结合，有效地提高了信息服务的质量。

本文主要探讨了新的文本表示模型和这种模型下的一个分类系统的实现，第一部分为

引言，第二部分描述了文本分类解决的问题并对其性能评估方法进行了介绍，第三部分探

讨了基于关键词表达式的文本表示模型，第四部分给出了我们实现的的文本分类系统，第

五部分是该系统的实验结果和计算复杂度分析，第六部分总结和对将来工作的设想。

2 问题描述

2.1 系统任务

简单地说，文本分类系统的任务是：在给定的分类体系下，根据文本的内容自动地确

定文本关联的类别。从数学角度来看，文本分类是一个映射的过程，它将未标明类别的文

本映射到已有的类别中，该映射可以是一一映射，也可以是一对多的映射，因为通常一篇

文本可以同多个类别相关联。用数学公式表示如下：

文本分类的映射规则是系统根据已经掌握的每类若干样本的数据信息，总结出分类的

规律性而建立的判别公式和判别规则。然后在遇到新文本时，根据总结出的判别规则，确

定文本相关的类别。

2.2 评估方法

我们使用评估文本分类系统的两个指标：准确率和查全率。准确率是所有判断的文本中与

人工分类结果吻合的文本所占的比率。其数学公式表示如下：

查全率是人工分类结果应有的文本中分类系统吻合的文本所占的比率，其数学公式表示如

下：。准确率和查全率反映了分类质量的两个不同

方面，两者综合考虑的评估指标， F1 测试值，其数学公式如下：

2.3 词语向量空间模型的文本表示

目前，在信息处理方向上，文本的表示主要采用向量空间模型 (VSM)。向量空间模型

的基本思想是以向量来表示文本：（W1,W2,W3……Wn），其中 Wi 为第 i 个特征项的

权重，那么选取什么作为特征项呢，一般可以选择字、词或词组，根据实验结果，普遍认

为选取词作为特征项要优于字和词组，因此，要将文本表示为向量空间中的一个向量，就

首先要将文本分词，由这些词作为向量的维数来表示文本。词频分为绝对词频和相对词频

绝对词频，即使用词在文本中出现的频率表示文本，相对词频为归一化的词频，其计算方

法主要运用 TF-IDF 公式，目前存在多种 TF-IDF 公式，一种比较普遍的 TF-IDF 公式：

其中，为词 t 在文本中的权重，而为词 t 在文本中的词

频，N 为训练文本的总数，为训练文本集中出现 t 的文本数，分母为归一化因子。

2.42.3 词语向量空间模型的训练方法和分类算法

训练方法和分类算法是分类系统的核心部分，目前存在多种基于向量空间模型的训练

算法和分类算法，例如，支持向量机算法、神经网络方法，最大平均熵方法，最近 K 邻居

方法和贝叶斯方法等等。

一般相似度定义公式为：

其中，，为不同的文本，M 为特征向量的维数，为向量的第 K 维。

《支持向量机的公式》

3 关键词表达式向量空间的文本表示模型

3.1 关键词表达式

关键词表达式是大多数搜索引擎使用的查询语言。我们这里定义的关键词表达式

（Keyword expression）为，

keyword expression := keyword [and keyword ]

*

例如 keyword expression=“大海” and “海鸥“ 表示如果文本中同时出现“大海” 和 “海鸥“，

则这个文档满足关键词表达式。

3.2 文本表示模型

定义 P 为可能关注的关键词集合为 P，|P|为关键词的个数。对于一般的分类系统|P|一

般为 10 万左右。P

i

为其中的一个关键词。关键词可以是一个有稳定的词语也可以是一个短

语。

内容反馈

iplus

粉丝: 0
资源: 4

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip