机器学习领域,聚类算法,kmeans自动计算gap,自动确定k值
机器学习领域涉及多种算法,其中聚类算法是一个重要分支,常见的聚类算法有kmeans,虽然原理简单,简单易用,但通常需要事先确定K值,k值选取与具体数据和业务场景紧密相关,一旦k值选取不合理会导致模型效果出现明显问题,一般k值确定通过在不同k值下多次聚类对比选取出最优k值,但对于计算量有巨大挑战,尤其是当数据量非常大的时候每次聚类花费的时间也很长,另一种常见方式是基于专家经验事前设置k值,但这种方式受限于人工知识,有可能人工知识给算法引入误导,本资源通过算法层面不依赖于人工经验,可以结合具体数据样本实际情况,计算聚类gap评价指标,通过指标变化曲率定位到最优k值,直接输出最优k值,解决了kmeans算法k值选取难的问题,实验验证该方式选区的k值能够表征业务场景实际意义,符合物理世界聚类描述,极大提高了聚类效果,减少了选取k值的人工成本和时间成本 语言:python 算法:kmaens 平台:windows 涉及的库:scipy,sklearn 适用人群:机器学习,数据挖掘,数据分析相关的聚类问题和实践