birch 算法文本聚类应用举例
【篇一:birch 算法文本聚类应用举例】
文中的概念和定义部分摘自于百度百科和一些论文中,把我觉得写
的不错的解释放上来供参考。
一、文本聚类定义
文本聚类主要是依据著名的聚类假设:同类的文档相 度较大,而不
同类的文档相 度较小。作为一种无监督的机器学习方法,聚类由于
不需要训练过程,以及不需要预先对文档手工标注类别,因此具有
一定的灵活性和较高的自动化处理能力,已经成为对文本信息进行
有效地组织、摘要和导航的重要手段。
二、算法分类
1、划分法(基于划分的聚类算法)
给定一个有 n 个元组或者纪录的数据集,分裂法将构造 k 个分组,
每一个分组就代表一个聚类,k n。而且这 k 个分组满足下列条件:
(1)每一个分组至少包含一个数据纪录;(2)每一个数据纪录属
于且仅属于一个分组(注意:这个要求在某些模糊聚类算法中可以
放宽);对于给定的 k,算法首先给出一个初始的分组方法,以后通
过反复迭代的方法改变分组,使得每一次改进之后的分组方案都较
前一次好,而所谓好的标准就是:同一分组中的记录越近越好,而
不同分组中的记录越远越好。
使用这个基本思想的算法有:k-means 算法、k-medoids 算法、
clarans 算法。
k-means 算法是一种典型的基于划分的聚类算法,该聚类算法的基
本思想是在聚类开始时根据用户预设的类簇数目 k 随机地在所有文
本集当中选择 k 个对象,将这些对象作为 k 个初始类簇的平均 或者
中心,对于文本集中剩余的每个对象,根据对象到每一个类簇中心
的欧几里得距离,划分到最近的类簇中;全部分配完之后,重新计
算每个类簇的平均 或者中心,再计算每篇文本距离这些新的类簇平
均 或中心的距离,将文本重新归入目前最近的类簇中;不断重复这
个过程,直到所有的样本都不能再重新分配为止。
k-means 算法优点:(1)对待处理文本的输入顺序不太敏感(2)
对凸型聚类有较好结果(3)可在任意范围内进行聚类。
缺点:(1)对初始聚类中心的选取比较敏感,往往得不到全局最优
解,得到的多是次优解(2)关于算法需要预先设定的 k ,限定了聚