17.5.3(K-Means、PCA、异常检测)1
K-Means聚类算法是机器学习领域中的一个基础方法,尤其在非监督学习中被广泛使用。它的目标是将数据集分成多个类别,使得同一类别的样本间距离尽可能小,而不同类别间的样本距离尽可能大。K-Means的核心步骤包括: 1. 初始化:确定聚类数量K,并随机选择K个样本作为初始聚类中心。 2. 分配样本:将每个样本分配到最近的聚类中心所在的类别。 3. 更新聚类中心:计算每个类别内所有样本的均值,作为新的聚类中心。 4. 迭代:重复第二步和第三步,直到聚类中心不再改变或达到预设的最大迭代次数。 K-Means算法的性能受到聚类中心初始化的影响,有时候需要多次运行以找到最优解。其成本函数通常是所有样本到其所属聚类中心的欧氏距离平方和,算法的目标是最小化这个成本函数。 降维是机器学习中的另一个重要任务,可以减少数据的复杂性,提高计算效率,同时也便于数据可视化。主成分分析(PCA)是一种常用的线性降维方法。PCA的基本流程如下: 1. 归一化:将数据标准化,使得各特征的均值为0,方差为1。 2. 计算协方差矩阵Σ:反映了特征之间的关联程度。 3. 使用奇异值分解(SVD)求解协方差矩阵:Σ = UΣV^T,其中U是特征向量,Σ是奇异值,V是右奇异向量。 4. 选择前k个最大奇异值对应的特征向量,构成新特征向量矩阵U_reduce。 5. 应用投影:X的新表示为U_reduce^TX,这将是k维的降维结果。 PCA通过保留主要的特征成分来降低维度,同时尽量保持原始数据的方差,从而实现数据压缩和简化。 异常检测(Anomaly Detection)是识别数据集中不寻常或异常的实例的过程。在异常检测中,通常假设数据遵循某种分布,例如高斯分布。利用所有特征的高斯概率密度函数,计算样本的联合概率p(x),若该概率低于设定的阈值,则认为该样本为异常。 评估异常检测性能的指标有查准率(Precision)和查全率(Recall)。查准率是指预测为异常的样本中真正异常的比例,查全率是实际异常样本中被正确检测出来的比例。F1分数是查准率和查全率的调和平均,提供了综合评估。 异常检测与监督学习的主要区别在于,异常检测通常不需要标记数据,而是基于数据的统计特性来识别异常,而监督学习则依赖于已知的类别标签来训练模型。 在进行异常检测之前,可能需要对特征数据进行预处理,如转换成正态分布,因为许多异常检测方法假设数据遵循正态分布,这有助于提高检测效果。
- 粉丝: 24
- 资源: 337
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
评论0