文本分类与聚类
第 1/92 页
这一部分将讲述
文本分类及聚类的概念
文本特征的提取方法
贝叶斯分类,KNN分类及决策树分类
K均值及层次聚类的方法
第 2/92 页
文本分类概述
第 3/92 页
概述
文本分类包括普通文本分类和网页文本
分类
中文网页分类技术已经成为中文信息处
理领域的一项基础性工作
网页分类可以为搜索引擎用户提供目录
导航服务,进而提高系统查准率
网页分类可以为个性化搜索引擎奠定基
础
第 4/92 页
分类的概念
给定:
一个实例的描述,
x
∈
X
, X是实例空间
一个固定的文本分类体系:
C=
{
c
1
,
c
2
,…
c
n
}
由于类别是事先定义好的,因此分类是有指
导的(或者说是有监督的)
确定:
实例
x
的类别
c
(
x
)∈
C, c
(
x
) 是一个分类函
数,定义域是
X
,值域是
C
第 5/92 页