随着数据规模的快速增长,群集非常大的数据集不可避免地会耗时。 为了提高聚类的效率,通常使用抽样来缩小数据集的大小。 但是,在应用采样后,如何将未标记的对象分配到适当的群集中是一个非常困难的问题。 本文基于给定聚类中属性值的频率和不同聚类中属性值的分布,提出了一种新颖的相似性度量,将每个未标记的对象分配到相应的适当聚类中,以对分类数据进行聚类。 提出了分类数据的标注算法,并分析了其对应的时间复杂度。 实际数据集上的实验表明了该算法的有效性。
评论星级较低,若资源使用遇到问题可联系上传者,3个工作日内问题未解决可申请退款~