收 稿日期 : 2006-10-30; 修 回日期 : 2006-12-31 基 金项 目: 国 家自 然科学 基金 资助项 目( 10572048, 50677069)
作 者简介 : 周炎涛 ( 1963-) , 男, 湖南 汉 寿 人, 教 授, 博 士, 主 要 研 究 方 向 为 计 算 机 应 用、数 据 挖 掘、网 络 安 全 等 ( yantao_z@ hnu. cn) ; 唐 剑 波
( 1982-) , 男, 硕士研 究生 , 主 要研 究方向 为数据 挖掘 、网 络安全 ; 吴正国 ( 1943-) , 男, 教授 , 博 导, 主要 研究方 向为 数字信 号处 理、网络故 障诊 断.
基 于 向 量 空 间 模 型 的 多 主 题 Web 文 本 分 类 方 法
*
周炎涛
1, 2
, 唐剑波
1
, 吴正国
2
( 1. 湖 南大 学 计算 机与 通信学 院, 长沙 410082; 2. 海军 工程大 学 信息 与电 气学 院, 武 汉 430033)
摘 要: 对 给定 的网 页, 提取 其特 征向 量, 计算 网页 特征 向量 与分 类特征 向量 的 相 似度 , 使 用 K-means 聚类方 法
寻找 归属类 得到 动态 阈值 , 提出了 一种 基 于 动态 阈 值 的 向 量 空 间 模型 多 主 题 Web 文 本分 类 方 法 。该 方 法 通 过
网页 与每 个类 的相似 度和 动态 阈值 的比 较, 实现 了将 包 含多 个 主 题 的 网 页划 分 到 相 应 的 多 个 类中 。 实验 证 明 ,
这种 方法 具有 较好的 精确 度和 召回 率。
关键 词: 向 量空 间模 型; 文本 分类 ; 多主 题; 数据 挖掘
中图 分类 号: TP311. 13 文献 标志 码: A 文章 编号 : 1001-3695( 2008) 01-0142-03
Method of multi-topic Web text classification based on VSM
ZHOU Yan-tao
1,2
, TANG Jian-bo
1
, WU Zheng-guo
2
( 1. School of Computer & Communication, Hunan University, Changsha 410082, China; 2. College of Information & Electrical Engineering,
Naval Engineering University, Wuhan 430033, China)
Abstract: Withdrawing characteristic vectors for a given Web page, calculating the similarities of the page characteristic vec-
tors with classification characteristic vectors, getting dynamic thresholds through using K-means clustered methods and looking
for resultclassifications, this paper proposed a multi-topic Web text classification method of vector space model based on dy-
namic threshold. Through comparing the value of every classification similarity with dynamic threshold, classifyed the multi-
topic texts of aWeb page to several differenttextclassifications. The simulating experimentsverify the good accuracy and better
recalling withthis method.
Key words: VSM; text classification; multi-topic; data mining
0 引言
Web 文本分类是当前 文本挖 掘的研 究热点 之一。其分 类
方法较 多, 主要 有 贝 叶 斯 分 类 算 法
[ 1]
( naive Bayesian classi-
fier) 、最近邻 接参 照 分类 算法
[ 2,3]
( K-nearest neighbor) 和基 于
本体的文本分类算法
[ 4]
等。这些算法均将 Web 页面分到 某个
类中进行处理。实际上几乎每个网页均包含多个不同的主题,
如使用上述算法就要求将 页面分 到特定 的类中。例 如某个 网
页 A是关于教育乱收费的, 就 要求 将网 页 A 分到 教育 和法 制
法规两个类中; 网页 B 主要内容 是关于 农作物 的价格 报道, 就
要求将该网页分到农业和财经两个类中。对于此类问题, 普遍
采用的方法是首先设定一个固定阈值, 然后分别计算待测文档
与每个类之间的相似度。当待 测文档 与某个 类的相 似度大 于
设定的阈值时, 就将 待测文 档分到 这个类 中。 这种方 法中, 阈
值的大小对分类 的精 确 度和 召回 度 的影 响 较大, 如 果阈 值 过
大, 则有可能将原本属于某个类的文档排除在外, 召回率变小;
如果阈值太小, 则将 原 本不 属于 某 个类 的文 档 划分 到这 个 类
中, 精确度变小。因而设置一个恰当的阈值是同时保证较高精
确度和召回率的关键, 在 Web 文 本分类 研究 中具 有重 要的 实
际意义。为改变固定阈值分类方法的不足, 本文提出了基于动
态阈值的多主题 Web分类方法。首先提出了 该动态阈值 分类
方法的实现结构, 然后根据待分页面与所有类之间的相似度动
态地计算一个阈值。
1 基于向量空间模型的文档分类
1. 1 Web 文档的表示
目前文档的表示模型有很多, 其中最普遍使用的是向量空
间模型( VSM) 。在这种模型中, 每个文 档被表 示成特 征向量:
V( d) = ( t
1
, w
1
( d) ; t
2
, w
2
( d) ; …; t
n
, w
n
( d) ) 。其中: t
i
为特 征
词条; w
i
( d) 为特征词 条 i 在 文档中 的权 重。可以 将 d 中出 现
的所有词作为 t
i
, 但这样就 会使 得特 征向 量的 维数 特别 高, 包
含噪声, 特征不明显。而一个文档的内容主要是由动词、名词、
形容词等实词决定的, 虚词和一些在所有文档中均出现的高频
词对分类是没有任何意义的, 所以 必须进 行特征 提取, 降低 特
征空间的维数, 以达到降低 计算的 复杂度、提 高分类 准确率 的
目的。
1. 1. 1 特征提取
特征提取即对特征空间中的所有特征项进行特征评估, 利
用特征评估函数对每个特征项计算一个评估值, 然后将所有的
特征项按照评估值的大小排序, 选择适当数目的最佳特征项作
为样本的特征。常用 的 特征 函数 有 以下 几种 形 式: 词条 的 χ
2
统计、信息增益、期望 交叉熵、文本证据权、词条 与类别互信 息
等。这些方法均有较好的 准确 率, 本文 采用词 条的 χ
2
统计 方
法进行特征提取。
1. 1. 2 特征向量的计算
特征项在文档中的权重 w
i
( d) 的计 算对 Web 文 本分类 是
第 25 卷 第 1 期
2008 年 1 月
计 算 机 应 用 研 究
Application Research of Computers
Vol. 25 No. 1
Jan. 2008
评论0