"聚类分析中的数据类型" 聚类分析是数据挖掘和机器学习领域中的一个重要技术,用于将相似的数据样本分组成不同的簇,从而发现隐藏在数据背后的模式和规律。本文档将详细介绍聚类分析中的数据类型、符号说明、相似性度量、聚类算法等关键概念。 符号说明 * 数据样本 X 由 d 个属性值组成:X = (x1, x2, …, xd),其中 xi 表示样本中的各属性,d 是样本或样本空间的维数(或属性个数)。 * 数据样本集记为 X = {X1, X2, …, Xn),第 i 个样本记为 Xi = {xi1, …, xid},许多情况下聚类的样本本集看成是一个 n×d(n 个样本 ×d 个属性)的数据矩阵。 * 簇 Ci:数据样本集 X 分成 k 个簇,每个簇是相应数据样本的集合,相似样本在同一簇中,相异样本在不同簇中。 * 簇 Ci (i=1,2,…,k) 中样本的数量 ni。簇记为 Ci = {Xj1i, Xj2i, …, Xnii},Ci (i = 1,…,k) 是 X 的子集,如下所示:C1∪C2∪…∪Ck = X 且 Ci∪Cj = ф, i≠j。 相似性度量 * 相异度矩阵(dissimilarity matrix)用来存储 n 个样本两两之间的相似性,表现形式是一个 n×n 维的矩阵:d(Xi, Xj) 是样本 Xi 和样本 Xj 间相异性的量化表示。 * 最明显的相似性度量是样本之间的距离。距离度量标准 d(Xi, Xj) 表示第 i 个样本与第 j 个样本间的距离。 * 在聚类分析中,最常用的距离定义如下: + 欧几里德距离:d(Xi, Xj) = (∑(xi - xj)^2)^(1/2) + 明考斯基距离度量:Lk(Xi, Xj) = (∑|xi - xj|^k)^(1/k) + L1 范数(曼哈坦距离或城区距离):d(Xi, Xj) = ∑|xi - xj| + L2 范数(欧几里德距离):d(Xi, Xj) = (∑(xi - xj)^2)^(1/2) + L3 范数:d(Xi, Xj) = (∑|xi - xj|^3)^(1/3) 聚类分析中的数据类型 * 区间标度变量(Interval-valued variables) * 二元变量(Binary Variables) * 标称型、序数型、比例标度型变量 聚类算法即是先定义一个合适的度量,然后计算任意两个样本之间的距离。当两个样本之间的欧几里德距离小于某个阈值 d0 时,这两个样本就属于同一类。距离阈值 d0 影响簇的数量和大小,d0 越小,每个簇就越小,簇的数目就越多。如果 d0 太大,则所有样本将会被分为同一簇;如果 d0 太小,每个样本又会单成一类。 聚类分析是一个非常重要的数据挖掘技术,广泛应用于机器学习、数据挖掘、 Pattern Recognition 等领域。掌握聚类分析的原理和方法是数据科学家和机器学习工程师的必备技能。
- 粉丝: 19
- 资源: 66万+
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助