MdcGen 允许高度灵活的参数化,实现具有不同形状并由不同底层分布生成的集群。 该工具可以基于多元分布创建集群,也可以创建集群,其中分布直接确定集群内距离(即对象到集群质心的距离)。 此外,MDCGen 实现了经典功能,例如集群分离的定制、重叠控制、异常值和噪声特征的添加、相关变量、旋转和数据集质量评估等。
为了允许广泛的生成多样性和灵活性,某些配置可能会创建无意义或无用的数据集。 因此,一些处理参数的经验是可取的(参数在文档中被广泛解释)。 为了验证数据集,Silhouette 评估提供了性能指标来评估生成的数据是否遵循清晰的类簇结构。
Denis Ojdanic修订并改进了MDCGen v1,从而开发了当前的MDCGen v2。