另类解读SVM:从损失函数说起
0. 参考资料
本笔记主要参考台大李宏毅老师2016年秋季机器学习课程中对SVM的讲解:
以及李航老师的《统计学习方法》、周志华老师的《机器学习》中的相关内容。
1. 损失函数
考虑简单的二分类问题,数据样本为 ,数据样本的标签 。我们可以构
造一个预测函数 和判别函数 ,使得当 时, ; 时, 。那么我们可以
很方便的定义如下的loss函数:
即当 时, 的值为0,反之, 值为1。式(1.1)的意义是 得到的错误结果的次数。这是我们理
想情况下的loss函数。然而这个loss很难进行微分,因为它是不连续的,于是我们需要寻求其他近似的loss函数来
代替它。
将式(1.1)改写为:
我们可以用 来描述分类的正确性(即函数间隔):当 时,有 ,并且 越大,分类的
置信度越高;当 时,有 ,并且 越小,,分类的置信度越高。总结起来就是, 越
大,分类结果越好,同时对应的loss值越低。
我们来看几个常见的loss函数:
Square Loss
根据我们之前的讨论,其表达式是:
我们可以这样来理解这个loss:当 时,要求 接近1,loss是比较小的;当 时, 接近-1,
loss是比较小的。
Sigmoid + Square Loss
其表达式为:
较小的loss值要求当 时, 要接近于1;当 , 要接近于0(利用
得到)。
Sigmoid + Cross Entropy
评论0