算法改进基于python实现K-Means聚类算法及其改进(K-mean++)源码+详细代码注释.zip

共6个文件

py：3个

md：1个

mat：1个

版权申诉

kmean算法

K-Means聚类算法

算法改进

python源码

5星 · 超过95%的资源 149 浏览量 2023-03-10 14:10:15 上传评论 3 收藏 10KB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

基于python实现K-Means聚类算法及其改进(kmean++)源码.zip （6个子文件）

项目说明.md 32B

data

data.mat 5KB

k-means++.py 3KB

k-means.py 3KB

initial.py 2KB

.gitignore 1KB

#!/usr/bin/python # -*-coding:utf-8-*- import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns from scipy.io import loadmat np.random.seed(1) """ 函数功能：随机初始化中心点 X: 数据集 k: 初始聚类中心个数 """ def init_centroids(X, k): np.random.seed(1) #m为数据集样本个数 n为属性个数 m, n = X.shape #创建（k，n）的零数组 centroids = np.zeros((k, n)) #从0到m之间随机选取k个整数值，作为索引 idx = np.random.randint(0, m, k) #将k个索引对应的数据点作为k个初始聚类中心 for i in range(k): centroids[i, :] = X[idx[i], :] return centroids """ 函数功能：寻找每个样本距离最近的中心点 X: 数据集 centroids: 初始聚类中心个数 """ def find_closest_centroids(X, centroids): m = X.shape[0] k = centroids.shape[0] #初始每个样本的对应类别的索引值 idx = np.zeros(m) #误差平方和SSE sse = 0 #遍历整个数据集 for i in range(m): #初始最小距离设定一个很大的值 min_dist = 1000000 #对于每个初始中心点 for j in range(k): #计算样本与中心点的距离 dist = np.sum((X[i, :] - centroids[j, :]) ** 2) #如果距离小于当前最小距离 if dist < min_dist: #最小距离更新为该距离 min_dist = dist #更新该样本的类别索引值为该中心点 idx[i] = j #计算SSE值 sse += min_dist return idx,sse """ 函数功能：更新中心点 X: 数据集 idx：样本对应类别的索引值 k：中心点个数 """ def compute_centroids(X, idx, k): m, n = X.shape #初始聚类中心（k，n）的零数组 centroids = np.zeros((k, n)) #对于每个中心点 for i in range(k): #对于当前中心点类别 indices = np.where(idx == i) #更新其中心点为所有属于该类别的样本点的质心 centroids[i, :] = (np.sum(X[indices, :], axis=1) / len(indices[0])).ravel() #返回更新后的中心点 return centroids """ 函数功能：运行k-means聚类算法 X: 数据集 initial_centroids：初始聚类中心 max_iters：最大迭代次数 """ def run_k_means(X, initial_centroids, max_iters): global sse m, n = X.shape k = initial_centroids.shape[0] idx = np.zeros(m) #随机的初始聚类中心 centroids = initial_centroids for i in range(max_iters): #为每个样本寻找距离最近的中心点 idx,sse = find_closest_centroids(X, centroids) #更新中心点 centroids = compute_centroids(X, idx, k) return idx, centroids,sse #加载数据集 data = loadmat('data/data.mat') X = data['X'] data2 = pd.DataFrame(data.get('X'), columns=['X1', 'X2']) sns.lmplot('X1', 'X2', data=data2, fit_reg=False) #plt.show() initial_centroids = init_centroids(X,3) # print('incenter:',initial_centroids) idx, centroids,sse = run_k_means(X, initial_centroids, 4) # print(centroids) print('误差平方和SSE=',sse) data2['C'] = idx #print(data2) sns.lmplot('X1', 'X2', hue='C', data=data2, fit_reg=False,legend=False) plt.title('K-Means') plt.scatter(x=centroids[:,0],y=centroids[:,1],c='r',marker='x') plt.legend(loc=1) plt.show()

评论收藏

内容反馈

版权申诉

m0_68473103

2023-08-06

感谢大佬分享的资源给了我灵感，果断支持！感谢分享~

Make程序设计
上传者
2023-11-01

不客气，感谢您的认可，互相学习，多沟通
臭人鹏

2023-06-09

代码实现的功能非常完善，是学习聚类算法的好资料。

Make程序设计
上传者
2023-11-01

不客气，感谢您的认可，互相学习，多沟通
扈涧盛

2023-06-09

这份代码很好地展示了如何从理论中转化为实践。

Make程序设计
上传者
2023-11-01

undefined
狼You

2023-06-09

注释清晰，代码简洁，非常易于理解。

Make程序设计
上传者
2023-11-01

嗯嗯，加油
小崔个人精进录

2023-06-09

这份代码的质量很高，非常值得一读。