机器学习（聚类十一）——不同聚类算法在不同数据分布情况下的聚类效果

版权申诉

53 浏览量 2020-12-21 11:28:07 上传评论收藏 432KB PDF 举报

资源推荐

资源详情

资源评论

机器学习（聚类十一）机器学习（聚类十一）——不同聚类算法在不同数据分布情况下的聚类效果不同聚类算法在不同数据分布情况下的聚类效果

至此聚类相关的内容告一段落，前面十篇博客介绍了常见的几种聚类算法，也加入了一些代码实现。这篇博客来一个汇总的实例，分别创建圆形数据、月牙形数据、聚团

数据以及随机数据，并测试不同数据在各种不同聚类算法中的聚类效果以及消耗时间。

import time

import warnings

import numpy as np

import matplotlib as mpl

import matplotlib.pyplot as plt

from sklearn import cluster

from sklearn import datasets as ds

from sklearn.neighbors import kneighbors_graph

from sklearn.preprocessing import StandardScaler

## 设置属性防止中文乱码

mpl.rcParams['font.sans-serif'] = [u'SimHei'] mpl.rcParams['axes.unicode_minus'] = False

warnings.filterwarnings(action='ignore', category=UserWarning)

## 产生模拟数据

n_samples = 1500

np.random.seed(0)

#产生圆形的

noisy_circles = ds.make_circles(n_samples=n_samples, factor=.5, noise=.05)

#产生月牙形

noisy_moons = ds.make_moons(n_samples=n_samples, noise=.05)

#高斯分布

blobs = ds.make_blobs(n_samples=n_samples, n_features=2, cluster_std=0.5, centers=3, random_state=0)

no_structure = np.random.rand(n_samples, 2), None

datasets = [noisy_circles, noisy_moons, blobs, no_structure] clusters = [2,2,3,2]

clustering_names = [

'KMeans', 'MiniBatchKMeans', 'AC-ward', 'AC-average',

'Birch', 'DBSCAN','SpectralClustering']

## 开始画图

plt.figure(figsize=(len(clustering_names) * 2 + 3, 9.5), facecolor='w')

plt.subplots_adjust(left=.02, right=.98, bottom=.001, top=.96, wspace=.05,hspace=.01)

colors = np.array([x for x in 'bgrcmykbgrcmykbgrcmykbgrcmyk'])

colors = np.hstack([colors] * 20)

plot_num = 1

for i_dataset,(dataset, n_cluster) in enumerate(zip(datasets, clusters)):

X,y = dataset

X = StandardScaler().fit_transform(X)

connectivity = kneighbors_graph(X, n_neighbors=10, include_self=False)

connectivity = 0.5 * (connectivity + connectivity.T)

km = cluster.KMeans(n_clusters=n_cluster)

mbkm = cluster.MiniBatchKMeans(n_clusters=n_cluster)

ward = cluster.AgglomerativeClustering(n_clusters=n_cluster,connectivity=connectivity, linkage='ward')

average = cluster.AgglomerativeClustering(n_clusters=n_cluster,connectivity=connectivity, linkage='average')

birch = cluster.Birch(n_clusters=n_cluster)

dbscan = cluster.DBSCAN(eps=.2)

spectral = cluster.SpectralClustering(n_clusters=n_cluster, eigen_solver='arpack', affinity="nearest_neighbors")

clustering_algorithms = [km, mbkm, ward, average, birch, dbscan, spectral]

for name, algorithm in zip(clustering_names, clustering_algorithms):

t0 = time.time()

algorithm.fit(X)

t1 = time.time()

# 如果模型中存在"labels__"这个属性的话，那么获取这个预测的类别值

if hasattr(algorithm, 'labels_'):

y_pred = algorithm.labels_.astype(np.int)

else:

y_pred = algorithm.predict(X)

# 画子图

plt.subplot(4, len(clustering_algorithms), plot_num)

if i_dataset == 0:

plt.title(name, size=18)

plt.scatter(X[:, 0], X[:, 1], color=colors[y_pred].tolist(), s=10)

# 如果模型有中心点属性，那么画出中心点

if hasattr(algorithm, 'cluster_centers_'):

centers = algorithm.cluster_centers_

center_colors = colors[:len(centers)] plt.scatter(centers[:, 0], centers[:, 1], s=100, c=center_colors)

plt.xlim(-2, 2)

plt.ylim(-2, 2)

plt.xticks(())

plt.yticks(())

plt.text(.99, .01, ('%2fs' % (t1 - t0)).lstrip('0'),

transform=plt.gca().transAxes, size=15,

horizontalalignment='right')

plot_num += 1

plt.show()

最后看一下运行效果

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余1页未读，立即下载

评论收藏

内容反馈

版权申诉

weixin_38623000

粉丝: 5
资源: 925

机器学习（聚类十一）——不同聚类算法在不同数据分布情况下的聚类效果

机器学习 聚类算法

机器学习-聚类

机器学习聚类算法实现.doc

机器学习聚类算法包括训练数据

比较轨迹聚类方法：比较轨迹数据集上的不同聚类方法和相似性度量

机器学习（聚类七）——层次聚类的优化算法

k均值、合并聚类和DBSCAN聚类算法对鸢尾花数据集聚类代码.zip

DBSCAN聚类.rar_DBSCAN_python算法_密度峰值聚类_密度聚类python_峰值聚类算法

机器学习实战项目——无监督聚类&PCA tSNE降维.zip

Standford机器学习 聚类算法（clustering）和非监督学习

爬虫+机器学习聚类分析

机器学习算法原理-聚类算法_V3.pdf

java实现聚类算法，Kmeans

论文研究-基于样本空间分布密度的初始聚类中心优化K-均值算法.pdf

python机器学习 聚类算法Kmeans代码实现 包含所用数据集和代码

人工智能_机器学习_聚类算法_FCM模糊聚类_Python算法实现

【宅着宅着就学习惯了】机器学习课程——聚类算法实战.rar

聚类机器学习算法使用数据集

聚类算法常用数据集（二维人工数据集+UCI真实数据集）

2022年全国医院数据（更新至2022年，42000家医院信息）

世界国家主要城市经纬度（免费）

IEEE39节点数据、包括负荷、节点电压、发电机、线路等

药品说明书数据库医药数据查询excel

Python数据分析与可视化大作业 + 源代码 + 数据 + 详细文档

Python实现读取txt文件中的数据并绘制出图形操作示例

数据中台建设方案.docx

最新全国公立医院详细数据信息.xlsx

1949-2019年中国各省市历年GDP数据汇总表.xlsx

数据分析-附件1.xlsx

最新资源

机器学习聚类算法

Standford机器学习聚类算法（clustering）和非监督学习

python机器学习聚类算法Kmeans代码实现包含所用数据集和代码