斯坦福ML公开课笔记121

preview
需积分: 0 0 下载量 167 浏览量 更新于2022-08-03 收藏 522KB PDF 举报
【斯坦福ML公开课笔记121】主要涵盖了无监督学习中的K均值聚类(K-means)算法和混合高斯分布模型(Mixture of Gaussians, MoG),以及求解MoG模型的EM(Expectation-Maximization)算法。在讲解这些内容前,提到了Jensen不等式作为背景知识。 **K-Means算法**是无监督学习中最常见的聚类方法,用于在未标记的数据中发现内在结构。它的基本流程如下: 1. 选择k个初始聚类中心(𝜇1, 𝜇2, ..., 𝜇𝑘)。 2. 对每个数据点,将其分配到最近的聚类中心所属的类别。 3. 更新聚类中心为该类别内所有数据点的平均值。 4. 重复步骤2和3,直至聚类中心的移动小于预设阈值或达到迭代次数上限。 K-Means的目标函数是使数据点到其所在类别中心的距离平方和最小化,即J(label, μ) = ∑ ||𝑥(𝑖) − 𝜇𝑙𝑎𝑏𝑒𝑙(𝑖)||2。这个过程可以视为目标函数的梯度下降,每次迭代都试图减小目标函数值。 **K的选择**是一个关键问题,K-Means可能收敛至局部最优而非全局最优,可以通过多次随机初始化寻找较好的结果。若聚类结束时有中心未得到任何样本,通常需要删除或重初始化。 **混合高斯分布**(MoG)是处理非凸形状和有相关性的聚类问题的有效工具,属于软聚类方法,数据点被分配给每个高斯分布的概率。MoG可以近似任意复杂的概率分布,因此应用广泛。 在MoG模型中,数据点的归属被视为隐含变量z,服从多项式分布。模型包含两个假设:z服从多项式分布,且数据点x由高斯分布生成。MoG通过计算后验概率来确定数据点的类别,能够处理不同大小和相互关联的类别。 结合Jensen不等式,EM算法用于估计MoG模型参数,通过迭代地期望(E)和最大化(M)步骤来逼近最大似然估计。EM算法在处理含有隐变量的概率模型时非常有用,能处理不完整数据或观测噪声的情况。 本笔记探讨了无监督学习中的两种重要算法,K-Means和MoG,它们在数据分析、市场划分、新闻聚合、图像理解和离群点检测等领域有广泛应用。理解并掌握这些算法有助于挖掘数据潜在的价值。