SupportVectorMachine
支持向量机
报
报
告
告
人
人
:
:
日
日
期
期
:
:
2009
2009
年
年
4
4
月
月
24
24
日
日
内容
• SVM的理论基础
• 线性判别函数和判别面
• 最优分类面
• 支持向量机
• LIBSVM简介
SVM的理论基础
• 传统的统计模式识别方法只有在样本趋向无穷大时
,其性能才有理论的保证。统计学习理论(STL)研
究有限样本情况下的机器学习问题。SVM的理论基
础就是统计学习理论。
• 传统的统计模式识别方法在进行机器学习时,强调
经验风险最小化。而单纯的经验风险最小化会产生“
过学习问题”,其推广能力较差。
• 推广能力是指: 将学习机器(即预测函数,或称学习
函数、学习模型)对未来输出进行正确预测的能力。
• 只有样本却无法计算期望风险,因此,传统的学习方法用样本定义经验
风险Remp作为对期望风险的估计,并设计学习算法使之最小化。即所
谓的经验风险最小化(EmpiricalRiskMinimization,ERM)归纳原则。
• 经验风险是用损失函数来计算的。对于模式识别问题的损失函数来说,
经验风险就是训练样本错误率;对于函数逼近问题的损失函数来说,就
是平方训练误差;而对于概率密度估计问题的损失函数来说,ERM准则
就等价于最大似然法。
• 事实上,用ERM准则代替期望风险最小化并没有经过充分的理论论证,
只是直观上合理的想当然做法。也就是说,经验风险最小不一定意味着
期望风险最小。其实,只有样本数目趋近于无穷大时,经验风险才有可
能趋近于期望风险。但是很多问题中样本数目离无穷大很远,那么在有
限样本下ERM准则就不一定能使真实风险较小。
• ERM准则不成功的一个例子就是神经网络的过学习问题(某些情况下,
训练误差过小反而导致推广能力下降,或者说是训练误差过小导致了预
测错误率的增加,即真实风险的增加)。
• VC维在有限的训练样本情况下,当样本数n固定时,此时学习机器的VC维越
高学习机器的复杂性越高。VC维反映了函数集的学习能力,VC维越大则学习
机器越复杂(容量越大)。
• 所谓的结构风险最小化就是在保证分类精度(经验风险)的同时,降低学习机器
的VC维,可以使学习机器在整个样本集上的期望风险得到控制。
• 推广的界:经验风险和实际风险之间的关系,注意引入原因?因为训练误差再小
也就是在这个训练集合上,实际的推广能力不好就会引起过拟合问题。所以说要
引入置信范围也就是经验误差和实际期望误差之间的关系。
• 期望误差:R(ω)≤Remp(ω)+Φ(n/h),注意Remp(ω)是经验误差也就是训练误
差(线性中使得所有的都训练正确),Φ(n/h)是置信范围,它是和样本数和VC
维有关的。上式中置信范围Φ 随n/h增加,单调下降。即当n/h较小时,置信范围
Φ较大,经验风险近似实际风险就存在较大的误差,因此,采用经验风险最小
化准则,取得的最优解可能具有较差的推广性;如果样本数较多,n/h较大,则
置信范围就会很小,采用经验风险最小化准则,求得的最优解就接近实际的最优
解。
• 可知:影响期望风险上界的因子有两个方面:首先是训练集的规模n,其次是
VC维h。可见,在保证分类精度(经验风险)的同时,降低学习机器的VC维
,可以使学习机器在整个样本集上的期望风险得到控制,这就是结构风险最小化
(StructureRiskMinimization,简称SRM)的由来。