『ML』利用K-Means聚类算法对未标注数据分组——《机器学习实战》学习笔记（Ch10）_knnrandom

30 浏览量 2020-12-21 18:22:13 上传评论收藏 225KB PDF 举报

资源详情

资源评论

『『ML』利用』利用K-Means聚类算法对未标注数据分组聚类算法对未标注数据分组——《机器学习实战》学习笔记《机器学习实战》学习笔记

（（Ch10））

本节用Python实现K-Means算法，对未标注的数据进行聚类。主要参考《机器学习实战》—— Peter Harrington著。

导航导航K-Means简介代码实现（一）数据集读入（二）距离计算（三）构建随机质心（四）数据聚类（五）完整代码改进：采用二分法（一）简介（二）代码最后

K-Means简介简介

这里参考了大三专业课老师的PPT，现在回过头来看，老师当初讲得特别透彻，可惜没好好听，老师dbq (*>﹏<*)。

k-means算法，也被称为k-平均或k-均值算法，是一种使用最广泛的聚类算法。根据个体到每个类中心的距离进行划分，而类中心用类中所有个体的均值来度量。

思路及步骤：

随机或按某种策略从n个对象中选择k个对象作为初始的类中心（Centriod，Mean Point）；

计算每个对象与这k个类中心的距离；

将每个对象划分/分配到与其距离最近的类中心所在的类中；并重新计算每个类的类中心。

回到第2步，直到和前一次划分/分配结果无差异，停止。

代码实现代码实现

（一）数据集读入（一）数据集读入

先查看一下 testSet.txt 数据集的格式，每一行有两个数据，用空格间隔开。

我们首先要将每一行用空格 split , 用 map 函数进行数值类型转化（转为 float 型），再保存到一个名为 dataMat 的列表中。代码如下所示：

# 读入数据，保存到列表

def loadDataSet(fileName):

dataMat = [] with open(fileName, "r", encoding='utf-8') as fn:

for line in fn.readlines():

curLine = line.strip().split(' ')

fltLine = list(map(float, curLine)) # 数值类型转化，map()会根据提供的函数对指定序列做映射

dataMat.append(fltLine)

return dataMat

注：map ( ) 函数在 Python 2.x 返回列表，在 Python 3.x 返回迭代器，因此代码中用list()进行转换。效果如下：

（二）距离计算（二）距离计算

采用欧式距离进行计算，也可以使用其他计算方法。

# 计算距离

def distCal(vecA, vecB):

return np.sqrt(np.sum(np.power(vecA - vecB, 2)))

# vecA, vecB都为数组的形式，类似于[1 2] # power(x1, x2)数组的元素分别求n次方。x2可以是数字，也可以是数组，但是x1和x2的列数要相同。

（三）构建随机质心（三）构建随机质心

这一步用来随机生成质心。

质心的表示与原数据相同，原数据保存的格式类似为[[1, 4], [-3, 3], [4, -1], ...] ，因此首先获取到每一行的数据有几个，用 shape [1] 来获取，得到 n 为2。

接下来生成 k * n 的矩阵，用来保存 k 个质心。

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余3页未读，立即下载

评论收藏

内容反馈

『ML』利用K-Means聚类算法对未标注数据分组——《机器学习实战》学习笔记（Ch10）

评论0

最新资源

『ML』利用K-Means聚类算法对未标注数据分组——《机器学习实战》学习笔记（Ch10）

评论0

最新资源

相关推荐

基于k-means聚类算法实现三维数据分类含Matlab源码

机器学习课程作业-基于matlab实现K-means聚类算法并应用于压缩图像(matlab完整源码).zip

基于流形距离的K-means聚类算法（matlab实现）

K-MEANS聚类算法的实现

实验 Spark ML Bisecting k-means聚类算法使用

基于K-means聚类算法的图像分割及其MATLAB实现

python内置K-means聚类算法对鸢尾花数据的聚类情况

K-Means聚类算法java实现.pdf

详解Java实现的k-means聚类算法

K-means聚类算法K-means聚类算法

论文研究-基于k-means聚类算法的研究 .pdf

K-means聚类算法.ppt

K-means聚类算法.pptx

基于 K-means 聚类算法的图像区域分割.zip

毕业设计：基于噪声数据集处理的K-means聚类算法实现.zip

实验五 K-Means聚类算法.ipynb

Python用K-means聚类算法进行客户分群的实现

算法改进基于python实现K-Means聚类算法及其改进(K-mean++)源码+详细代码注释.zip

基于K-means聚类算法的住院费用数据挖掘.pdf

自适应布谷鸟搜索的并行K-means聚类算法

2022年全国医院数据（更新至2022年，42000家医院信息）

IEEE39节点数据、包括负荷、节点电压、发电机、线路等

药品说明书数据库医药数据查询excel

世界国家主要城市经纬度（免费）

Python实现读取txt文件中的数据并绘制出图形操作示例

Python数据分析与可视化大作业 + 源代码 + 数据 + 详细文档

数据中台建设方案.docx

最新全国公立医院详细数据信息.xlsx

1949-2019年中国各省市历年GDP数据汇总表.xlsx