5聚类之层次聚类基于划分的聚类(k (3).pdf
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
层次聚类算法 层次聚类(Hierarchical Clustering)是一种基于划分的聚类方法,它的主要思想是计算样本之间的距离,然后根据距离将样本合并到同一个类中。层次聚类算法可以分为两种类型:凝聚的层次聚类算法(Agglomerative Hierarchical Clustering)和分裂的层次聚类算法(Divisive Hierarchical Clustering)。 在凝聚的层次聚类算法中,每个样本最初被视为一个类,然后根据 linkage 寻找同类,最后形成一个“类”。其中类与类的距离的计算方法有:最短距离法、最长距离法、中间距离法、类平均法等。 而在分裂的层次聚类算法中,所有样本最初被视为一个类,然后根据 linkage 排除异己,最后形成多个“类”。 层次聚类算法的优点是可以发现类的层次关系,且不需要预先确定聚类数。然而,其计算复杂度太高,奇异值也可以产生很大的影响。 在 R 语言中,可以使用 hclust 函数来进行层次聚类,例如:hclust(d, method = "complete", members = NULL),其中 d 是距离矩阵,method 表示类的合并方法,members 是 NULL 或 d 长度的矢量。 此外,还有其他一些层次聚类算法,如 BIRCH、ROCK 和 Chameleon 等。BIRCH 算法主要用于大规模数据集,数据类型为 numerical。ROCK 算法主要用于 categorical 数据类型。Chameleon 算法使用 kNN 算法构建一个图形,然后对其进行优化。 层次聚类算法的应用场景非常广泛,如 customer segmentation、gene expression analysis 和 text clustering 等。 层次聚类算法是一种非常有用的聚类方法,它可以发现类的层次关系,且不需要预先确定聚类数。但是,其计算复杂度太高,需要选择合适的 linkage 方法和距离计算方法,以获得良好的聚类结果。
剩余21页未读,继续阅读
- 粉丝: 6372
- 资源: 1万+
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助