没有合适的资源?快使用搜索试试~ 我知道了~
中文网页自动分类技术,学习了解中文网页的自动分类技术。
资源推荐
资源详情
资源评论
第十一章 中文网页自动分类技术
网页自动分类技术已经成为 Web 领域的一个研究热点。本章主要讨论如何应用有指导的
机器学习方法实现大规模中文网页的自动分类,以及如何应用中文网页自动分类方法实现搜
索引擎目录导航服务。
第一节 引言
为了能够有效地组织和分析海量的 Web 信息,人们希望能够按照其内容实现对网页的
自动分类。目前,网页自动分类技术在数字图书馆、主题搜索、个性化信息检索、搜索引擎
的目录导航服务、信息过滤、主动信息推送服务等领域得到了广泛地应用。
在信息检索领域,评价一个系统的性能,通常有效果和效率两个方面的考虑。与此对应,
评价一个分类器性能的优劣,通常也有两个基本的指标:分类质量(效果)和分类效率。对
于分类质量,考察的指标通常为查准率和查全率;对于分类效率,考察的指标通常为分类器
的训练效率和分类器的实际分类效率。分类质量和分类效率这两个指标,既相互独立,又相
互影响。在理想的情况下,人们追求分类器不但要具有较高的分类质量,而且还要具有较高
的分类效率。但是在实际的应用中,有时为了追求分类质量而不得不牺牲分类效率,有时为
了保证一定的分类效率而不得不在一定范围内牺牲分类质量。因此,在设计分类器时,需要
根据具体的应用环境来综合考虑这两个指标,重点解决主要矛盾。
本章首先系统地定量分析影响分类器性能的各种关键因素。根据实际的测试结果,并结
合搜索引擎这一特定的应用环境,来寻找一种中文网页分类器的最佳设计方案:在具有较高
分类质量的同时,还具有较高的分类效率。然后,根据这个方案实现了一个能够处理海量中
文网页信息的分类器。最后,应用该分类器实现了天网搜索引擎中的目录导航服务[冯是
聪,2003]。
第二节 文档自动分类算法的类型
在 Web 出现之前,人们已研究过许多普通文档分类的方法,形成了各种文档自动分类
(Automatic Text Categorization,ATC )技 术 [Yang and Liu,1999]。随着海量网页信息的涌现,
ATC 技术的处理对象从普通文档扩展到网页信息,自然地,ATC 技术成了实现网页自动分类
的基础。所谓文档自动分类就是用计算机程序来确定指定文档和预先定义类别之间的隶属关
系[Sebastiani,1999]。
目前,主要的文档自动分类算法可以分为三类:
1) 词匹配法。词匹配法又可以分为简单词匹配法和基于同义词的词匹配法两种。简
单词匹配法是最简单、最直观的文档分类算法,它根据文档和类名中共同出现的
词决定文档属于哪些类。很显然,这种算法的分类规则过于简单,分类效果也很
差。基于同义词的词匹配法是对简单词匹配法的改进,它先定义一张同义词表,
然后根据文档和类名以及类的描述中共同出现的词(含同义词)决定文档属于哪
些类。这种分类算法扩大了词的匹配范围,在性能上要优于简单词匹配法。不过,
这种算法的分类规则仍然很机械,而且同义词表的构成是静态的,对文档的上下
文不敏感,无法正确处理文档中其具体含义依赖于上下文的词,分类的准确度也
很低。
2) 基于知识工程的方法。基于知识工程的文档分类方法,需要知识工程师手工地编
制大量的推理规则,这些规则通常面向具体的领域,当处理不同领域的分类问题
时,需要不同领域的专家制定不同的推理规则,而分类质量严重依赖于推理规则
的质量。因此,在实际的分类系统中较少使用基于知识工程的学习法。
3) 统计学习法。统计学习法和词匹配法在分类机制上有着本质的不同。它的基本思
路是先搜集一些与待分类文档同处一个领域的文档作为训练集,并由专家进行人
工分类,保证分类的准确性,然后分析这些已经分好类的文档,从中挖掘关键词
和类之间的联系,最后再利用这些学到的知识对文档分类,而不是机械地按词进
行匹配。因此,这种方法通常忽略文档的语言学结构,而用关键词来表示文档,
通过有指导的机器学习来训练分类器,最后利用训练过的分类器来对待分类的文
档进行分类。这种基于统计的经验学习法由于具有较好的理论基础、简单的实现
机制、以及较好的文档分类质量等优点,目前实用的分类系统基本上都是采用这
种分类方法。
本章介绍的文档分类算法都属于统计学习法。根据分类结果的不同,基于统计学习法的
分类系统在整体上可以被分为两类:独立二元(Independent Binary)分类系统和 m 元(m-ary)
分类系统[黄菁萱 and 吴立德,1998]。所谓独立二元分类,就是给定一篇文档,分类系统对
每一个类都独立地判断这篇文档是否属于该类:要么属于,要么不属于,而不存在其它的结
果,并且在分类过程中,不同类别之间互不影响。所谓 m 元分类就是给定一篇文档,系统
计算这篇文档与所有预先定义的类的相似度,并按这篇文档和各个候选类的相似度排序,最
后输出候选类列表。文档分类算法如图 11-1 所示,在第四节我们介绍其中几个典型的分类
算法。
文档自动分类算法
词匹配法 知识工程法统计学习法
M-aryIndependency Binary
WORD
LLSFDTree NB NNet KNNNN
Rocchio
SVM
图 11-1 自动文档分类算法的分类
第三节 实现中文网页自动分类的一般过程
在应用基于案例的有指导的机器学习方法实现中文网页自动分类的过程中有一个基本
的假设:文档的内容与其中所包含的词有着必然的联系,同一类的文档之间总存在多个共同
的词,而不同类的文档所包含的词之间差异很大。因此,分类器的训练过程可以看作是在已
知文档类别的情况下,统计不同类别内的词的分布,即在预先定义的类别集合C(C={c
1
, …,
c
k
, …, c
m
})与词项集合T(T={t
1
, …, t
k
, …, t
n
})的幂集之间建立一种加权的映射关系,形成
一种向量表示;相应的,分类器的分类过程,可以看作在已知一篇文档内所包含词项分布(用
一个向量表示)的情况下,和在训练中形成的每个类别的向量表示进行对比,来确定该文档
与类别的隶属关系。
根据对文档分类过程实质的分析,下面给出中文网页自动分类的一般过程。同普通英文
文档相比,中文网页信息具有特性:⑴ 中文网页的内容使用中文书写,不像英文单词之间
存在自然的形态间隔,中文需要分词处理。而且分词的效果能够显著地影响分类效果;⑵ 网
页使用超文本设计。它包含大量的 HTML 标签和超链接。我们有可能利用这些信息来改进分
类的质量。比如包含在标题<title>标签内的内容通常要比出现在网页正文<body>标签内的
内容要重要的多。在 Web 上相邻的网页通常具有相关或相同的主题,因此网页之间的超链信
息也可以给我们一些启发;⑶ 网页通常包含大量的“噪音”。同普通文本相比,网页的设计
比较随意,通常包含各类广告,设计人员的注释以及版权申明等无关信息。有时同一个网页
甚至会包含多个不同的主题。在进行分类之前,需要自动清除这些“噪音”,否则这些“噪
音”会降低分类质量。因此,需要对中文网页进行预处理后,才能应用相应的文档自动分类
算法实现分类。
结合中文网页的特性,图 11-2 给出了中文网页自动分类的一般过程。其中:预处理过
程主要包括中文分词以及网页内“噪音”的清除等处理;基于二元分类算法的分类器,可以
把分类结果直接作为待分类网页的类别结果,而基于 M 元分类算法的分类器,还需要对该
分类结果进行进一步的筛选后,才能作为待分类网页的类别结果。
训练集
预处理
分类算法
参数调整
测试
特征选取
分类结果
截尾算法
Binary 分类
M-ary 分类
图 11-2 中文网页自动分类的一般过程
待分类中
文网页
向量表示
预处理
训练集实
例
预处理
特征选
取算法
分类算法
校验集
测试
每个类的阈值
训练
结果类别表
阈值
策略
候选类列表
特征项向
量表示
训练过程
分类过程
图 11-3 中文网页分类器的工作原理图
根据图 11-2 所示的中文网页分类的一般过程,我们设计了本章研究所使用的分类器,
其工作原理如图 11-3 所示。从总体上,分类器的整个工作周期可以分成训练过程和分类过
程。在训练过程中,训练集实例经过中文分词和特征选取处理后被表示成向量形式。该特征
向量集用来描述类别模式,在分类过程中使用。校验集是训练集的一部分,通过应用相应的
阈值策略来预先确定每个类别的截尾阈值。在分类过程中,一个待分类的中文网页经过中文
分词并表示成向量后,应用分类算法同训练过程得到的类别模式逐一比较,得到候选类别列
表,然后同训练过程中得到的每个类别的阈值相比较,保留大于阈值的类别,并作为该网页
的分类结果。
从图 11-3 可以看出,构建一个分类器的关键因素包括:预处理、训练集、特征选取算
法、分类算法和截尾算法等。预处理部分的 HTML 网页净化方法已在第七章中介绍,如下将
逐一定量地分析后 4 个因素对分类器性能的影响。
第四节 影响分类器性能的关键因素分析
一、 实验设置
为了定量地分析影响分类器性能的关键因素,我们首先实现了一个最基本的中文网页分
类器。该分类器的具体设计方案如下:
1) 预处理。在预处理阶段,除了进行中文分词处理外,没有进行其它任何预处理;
2) 特征选取。在这里,直接把中文分词得到的所有关键词作为特征项,并由这些特征
项构成特征向量,因此没有特征选取处理过程。
3) 分类算法。我们选用 kNN(k-Nearest Neighbor)分类算法来实现基本的分类器。
在实验中我们取 k = 20,即仅保留相似度最大的 20 个实例网页。为确定待分类网
页的类别,首先需要把具有相同类别的实例与待分类网页之间的相似度相加作为待
分类网页的类别相似度,最后把相似度最高的类别作为该网页的结果类别,所以这
里每个待分类网页仅取一个结果类别。
4) 截尾算法。因为上面的分类算法为每个待分类网页仅取一个结果类别,所以这里无
需对分类结果应用截尾算法。
5) 分类质量的评价指标。在信息检索领域,通常采用查准率和查全率,人们通常借鉴
这些标准来评价分类系统的优劣。
查准率表示在所有被检索出的文档结果集中,真正符合检索意图的文档所占的比率,它
体现了系统检索结果的准确程度。查全率表示被检索出的文档集结果中真正符合检索意图的
文档数在所有符合检索意图的文档集中所占的比率,它体现了系统检索所有相关文档的完备
性。查准率和查全率这两个标准是互补的,单纯提高查准率就会导致查全率的降低,反之亦
然。因此,尽管一个好的检索系统应该同时具有较高的查准率和较高的查全率,但是实际的
检索系统往往需要在两者之间做出一些折中,而避免其中一个指标过低。
为方便起见,人们还定义了一个F
1
值[Yang and Liu,1999],用以反映查准率和查全率的
综合效果,其定义如公式(11-1)所示。根据计算方式的不同,F
1
值可以分为宏观F
1
值
(Macro-F
1
)和微观F
1
值(Micro-F
1
)。宏观F
1
值的计算方式:首先需要根据公式(11-1)分
别计算每个类别的F
1
,然后再根据公式(11-2)来计算它们的平均值,即为宏观F
1
值。此外,
宏观F
1
值还有一种计算方式:首先计算p和r的平均值,然后代入公式(11-1)来求宏观F
1
值,
这个过程可以用公式(11-3)来表示,本文将采用这种方式来计算分类器的宏观F
1
值。微观
F
1
值的计算方式:首先需要在整个测试网页集合内分别统计p和r的值,然后根据公式(11-1)
计算微观F
1
值。
剩余20页未读,继续阅读
资源评论
manybirds
- 粉丝: 0
- 资源: 2
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 纯css3发光霓虹灯文字闪烁特效代码.zip
- 用VBS制作自己的进度条
- 电脑说话VBS什么电脑都能用
- 利用HTML+CSS+JS的国漫分享网站(响应式)
- 练习springboot1 项目 模拟高并发秒杀,实现基本的登录、查看商品列表、秒杀、下单等功能,简单实现了系统缓存、降级和限流
- 一个社区论坛项目,技术栈:spring boot + thymeleaf+Redis 实现的功能:发帖,关注,点赞,私信,系统通知,日活统计.zip
- 会员管理系统.zip-会员管理系统.zip
- 解压软件 ZArchiver.apk
- 《系统分析和设计》课程作业-面向中国各大城市的医院预约挂号系统.zip
- SM4学习备份,有用的
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功