本资源包含聚类算法及示例资源-CSDN文库

共11个文件

py：5个

xml：4个

iml：1个

需积分: 3 79 浏览量 2022-10-23 13:58:22 上传评论收藏 7KB ZIP 举报

在数据挖掘领域，聚类是一种无监督学习方法，用于发现数据集中的自然群体或类别，无需预先知道具体的分类信息。本资源重点介绍了三种常见的聚类算法：K-means、DBSCAN（Density-Based Spatial Clustering of Applications with Noise）以及层次聚类，并提供了相应的示例。 1. K-means算法： K-means是最流行且易于理解的聚类算法之一。其基本思想是通过迭代将数据分配到预设的K个聚类中心所代表的类群中。算法流程主要包括选择初始的聚类中心、计算每个数据点与聚类中心的距离并进行分配、重新计算聚类中心、重复这个过程直到满足停止条件（如聚类中心不再变化或达到最大迭代次数）。K-means的优点在于效率高，适用于大数据集，但缺点是对初始中心点敏感，可能陷入局部最优，且对非凸形状的聚类效果不佳。 2. DBSCAN算法： DBSCAN是一种基于密度的聚类算法，能够发现任意形状的聚类，并且不依赖于预先设定的聚类数量。它通过定义两个参数：ε（邻域半径）和minPts（邻域内点的最小数量）来识别核心对象。如果一个点的邻域内有至少minPts个点（包括自身），则该点为核心点；然后连接所有核心点，形成连续的区域，即为一个聚类。DBSCAN的优点是可以处理噪声点和发现不规则形状的聚类，但缺点是参数选择较为困难，对数据分布的密度变化敏感。 3. 层次聚类：层次聚类分为凝聚型（Agglomerative）和分裂型（Divisive）两种。凝聚型是从每个数据点开始，逐步合并最近的点或聚类，直至所有点都在一个聚类中，形成一棵“聚类树”（Dendrogram）。分裂型则是从整个数据集开始，不断分割成子集，直到满足终止条件。层次聚类可以提供关于聚类结构的直观可视化，并且不需要预先设定聚类数量。然而，计算复杂度较高，对于大规模数据集不适用。这些算法各有优缺点，适用于不同的数据类型和应用场景。在实际应用中，需要根据问题的具体需求和数据特性来选择合适的聚类方法。示例文件应该包含了每种算法的代码实现和具体应用，帮助读者更好地理解和掌握这些聚类技术。通过分析和实践这些示例，你将能更深入地了解如何利用聚类算法解决实际问题。

资源详情

资源评论

资源推荐

收起资源包目录

聚类.zip （11个子文件）

聚类

main.py 544B

层次.py 349B

DBSCAN.py 3KB

.idea

misc.xml 194B

聚类.iml 330B

modules.xml 271B

workspace.xml 9KB

.gitignore 50B

inspectionProfiles

profiles_settings.xml 174B

层次聚类.py 877B

K -means.py 733B

import numpy as np from sklearn.cluster import DBSCAN from sklearn import metrics from sklearn.datasets._samples_generator import make_blobs from sklearn.preprocessing import StandardScaler import matplotlib.pyplot as plt import seaborn as sns # 可视化库 # 生成聚类中心点 centers = [[1, 1], [-1, -1], [1, -1]] # 生成样本数据集 X, labels_true = make_blobs(n_samples=750, centers=centers, cluster_std=0.4, random_state=0) # 画布设置 fig = plt.figure(figsize=(12, 5)) fig.subplots_adjust(left=0.02, right=0.98, bottom=0.05, top=0.9) ax = fig.add_subplot(1, 2, 1) row, _ = np.shape(X) # 画子图，未聚类点 for i in range(row): ax.plot(X[i, 0], X[i, 1], '#4EACC5', marker='.') # StandardScaler 标准化处理。且是针对每一个特征维度来做的，而不是针对样本。 X = StandardScaler().fit_transform(X) # 调用密度聚类 DBSCAN db = DBSCAN(eps=0.3, min_samples=10).fit(X) # print(db.labels_) # db.labels_为所有样本的聚类索引，没有聚类索引为-1 # print(db.core_sample_indices_) # 所有核心样本的索引 core_samples_mask = np.zeros_like(db.labels_, dtype=bool) # 设置一个样本个数长度的全false向量 core_samples_mask[db.core_sample_indices_] = True # 将核心样本部分设置为true labels = db.labels_ n_clusters_ = len(set(labels)) - (1 if -1 in labels else 0) # 获取聚类个数。（聚类结果中-1表示没有聚类为离散点） # 模型评估 print('估计的聚类个数为: %d' % n_clusters_) print("同质性: %0.3f" % metrics.homogeneity_score(labels_true, labels)) # 每个群集只包含单个类的成员。 print("完整性: %0.3f" % metrics.completeness_score(labels_true, labels)) # 给定类的所有成员都分配给同一个群集。 print("V-measure: %0.3f" % metrics.v_measure_score(labels_true, labels)) # 同质性和完整性的调和平均 print("调整兰德指数: %0.3f" % metrics.adjusted_rand_score(labels_true, labels)) print("调整互信息: %0.3f" % metrics.adjusted_mutual_info_score(labels_true, labels)) print("轮廓系数: %0.3f" % metrics.silhouette_score(X, labels)) sns.set(font='SimHei', style='ticks') unique_labels = set(labels) colors = [plt.cm.Spectral(each) for each in np.linspace(0, 1, len(unique_labels))] ax = fig.add_subplot(1, 2, 2) for k, col in zip(unique_labels, colors): if k == -1: # 聚类结果为-1的样本为离散点 # 使用黑色绘制离散点 col = [0, 0, 0, 1] class_member_mask = (labels == k) # 将所有属于该聚类的样本位置置为true xy = X[class_member_mask & core_samples_mask] # 将所有属于该类的核心样本取出，使用大图标绘制 ax.plot(xy[:, 0], xy[:, 1], 'o', markerfacecolor=tuple(col), markeredgecolor='k', markersize=14) xy = X[class_member_mask & ~core_samples_mask] # 将所有属于该类的非核心样本取出，使用小图标绘制 ax.plot(xy[:, 0], xy[:, 1], 'o', markerfacecolor=tuple(col), markeredgecolor='k', markersize=6) plt.title('Estimated number of clusters: %d' % n_clusters_) sns.despine() plt.show()