任 8.2 聚类评估
任务概述
聚类评估是用来对自变量相同类数据集比较同一种聚类算法一组参数、不同
参数组合或者多种聚类算法之间的分析性能,能够检验聚类模型的可靠性;最终
根据一些评价的指标(如轮廓系数等指标)或者图表展示,获得质量最佳的聚类
模型。本节案例选用聚类算法 KMeans 节点做聚类分析,结合聚类评估节点做模
型评估。
KMeans 是一种聚类算法,其中 K 表示类别数,Means 表示均值,是一种通过
均值对数据点进行聚类的算法。KMeans 算法通过预先设定的 K 值及每个类别的
初始质心对相似的数据点进行划分,并通过划分后的均值迭代优化获得最优的聚
类结果。该算法对空间需求及时间需求均是适度的,算法收敛速度很快。KMeans
聚类算法适用于对球形簇分布的数据聚类分析,其可应用于客户细分、市场细分
等分析场景。
该节点用来评价一个聚类任务中的模型表现。只适用于所有的聚类类评估任
务。通过模型训练学习和一些评价指标,该节点自动计算得到出较可靠的聚类模
型。
数据格式:
(1)聚类模型:俗话说:“物以类聚,人以群分”,所谓的聚类,就是将
样本划分为由类似的对象组成的多个类的过程。聚类之后,我们可以更加准确地
在每个类中单独使用统计模型进行估计,分析或者预测;也可以研究不同类之间
的差异。
(2)聚类数据集:用于聚类的数据集。
Commented [许 1]: 标题不合适,建议 8.2.1 合并到任务
概述里面