实验三 基于 k-means 算法的心力衰竭临床数据聚类
一、实验目的
1. 掌握 k-means 聚类的原理
2. 掌握 sklearn 机器学习库中 k-means 的使用
3. 使用 k-means 模型预测
通过灵活运用 k-means 模型,对针对患者的心力衰竭临床数据进行聚
类分析。
二、实验原理
k-means 聚类的基本概念:
k-means 聚类是一种无监督的聚类算法,对于给定数据集,计算
样本与聚类中心之间的 距离大小将样本划分为 k 个簇,让簇内的数
据点距离小,而让簇间数据点的距离尽量大。 k-means 聚类算法的计
算过程如下:随机选取 k 个中心点;遍历所有数据,将每个数据划分
到最近的中心点中;选取新的聚类中心;重复上述两个步骤,直到这
k 个中心点不再变化(或变化不大),或执行了足够多的迭代次数而停
止。
基本原理如下:
初始化:首先,选择要将数据集分成 k 个簇,然后随机选择 k 个
数据点作为初始簇中心。
分配:将每个数据点分配到距离其最近的簇中心,每个数据点只
能属于一个簇。
更新:根据分配的数据点更新簇中心点,这是通过计算属于每个
簇的数据点的平均值来实现的。
重复:重复步骤 2 和 3,直到簇中心点不再发生变化,或者达到
预定的迭代次数。
输出:得到 k 个簇和每个簇的中心点。
三、实验数据收集
数据集来源:
https://archive.ics.uci.edu/dataset/519/heart+failure+cli
nical+records
四、实验环境
Jupyter Notebook:
3.11.4 | packaged by Anaconda, Inc. | (main, Jul 5 2023, 13:38
:37) [MSC v.1916 64 bit (AMD64)]