2. 基本原理
考虑一个二分类问题,假定训练数据集为
需要注意的是,标签 。当 时,称 为正例;当 时,称
为负例。
假定数据时线性可分的,学习的目标是找到分离超平面 ,这个超平面由法向量 和距离原点的位移项
确定。可以正确划分数据集的超平面可能有数个,而SVM的目标就是要找到一个唯一的“最佳”划分超平面。为了
描述划分超平面的好坏,我们首先引入间隔的概念。
2.1 函数间隔与几何间隔
在超平面 确定的情况下, 能够相对的表示点 距离超平面的远近。而 的符号与类标
记 的符号是否一致能够表示分类是否正确。所以,我们可以用 来表示分类的正确性及确信度,由此可
以引出函数间隔(Functional margin)的概念。
定义超平面 关于样本点 的函数间隔为:
同时,定义超平面 关于训练数据集 的函数间隔为超平面 关于 中所有样本点 的函数间隔的最小
值,即
但是,函数间隔的定义存在问题。我们注意到,只要成比例的改变 和 ,例如,将它们改为 和 ,超平面并没
有改变,但函数间隔却称为原来的2倍,这显然不是我们想要的。一个可行的方法是,我们可以对法向量 增加约
束,使得间隔是固定的,这就引出了几何间隔(Geometric margin)的概念。
假定对于一个点 ,令其垂直投影到超平面上的对应点为 , 是垂直于超平面的一个向量, 为样本 到超平面的
距离,如下图所示:
评论0