SVM入门（通俗易懂的SVM教程）资源-CSDN文库

5星 · 超过95%的资源需积分: 12 132 浏览量 2010-11-05 13:39:23 上传评论 2 收藏 399KB DOC 举报

# SVM入门（通俗易懂的SVM教程）在这个数字化时代，机器学习成为了数据分析和计算机科学中的热门领域。机器学习模型的种类繁多，而支持向量机（Support Vector Machine，简称SVM）是其中一种非常强大且应用广泛的算法。本文旨在深入浅出地介绍SVM的基本原理，使读者即便没有深厚的模式识别基础，也能够对这一机器学习模型有一个初步的理解和认识。 ## SVM的起源与发展 SVM是由Cortes和Vapnik于1995年提出的监督学习模型。它的核心是解决分类问题，尤其是在样本数量有限且样本特征维度很高的情况下。SVM之所以受到青睐，是因为它基于统计学习理论，尤其是VC维理论和结构风险最小化原则，这为处理复杂的数据模式提供了一个坚实的理论基础。 ## SVM的核心概念解析 ### VC维的定义及其重要性 VC维是度量函数类复杂度的一个概念。其核心思想是，对于给定的样本集合，函数类能打散所有可能的标签组合的最高维数称为其VC维。简言之，VC维越高，函数类复杂度越大，过拟合的风险也就越大。SVM正是利用这一点，通过选择合适的参数使得模型保持在简单与复杂的平衡之间，进而有效地避免过拟合。 ### 结构风险最小化结构风险最小化是SVM优化的目标，它综合考虑了经验风险与置信风险。经验风险指的是模型在训练数据上的误差，而置信风险则考虑了模型对未知数据的不确定性。SVM试图寻找一个模型，使得两者的和最小。这样一来，SVM不仅在训练数据上有良好的表现，而且能够较好地泛化到新的数据上。 ### 核函数的作用与意义由于SVM擅长处理高维数据，核函数在SVM中扮演了至关重要的角色。核函数能够将原始样本数据映射到高维空间，这样原本线性不可分的数据在新的空间中就可能变得线性可分。核函数的一个重要特性是它能够将数据之间的复杂关系转化为简单的内积运算，这使得SVM在处理非线性问题时变得更加高效。 ## SVM在实际中的应用 SVM的强项在于它能够很好地解决小样本、非线性和高维数据的分类问题。例如，在文本分类、生物信息学、手写识别等领域，SVM都显示出了卓越的性能。尤其对于那些样本数量不多但特征维度很高的数据集，SVM通过其结构风险最小化原则，能够找到合适的决策边界，从而准确地对新的样本进行分类。 ## SVM的原理与方法 ### SVM的基本原理 SVM通过寻找一个最优的决策边界，将不同类别的数据分开。这个最优决策边界是通过最大间隔方法来确定的。它找到一个超平面，这个超平面能够使得离它最近的两类样本之间的间隔最大。这样不仅可以保证分类的准确性，同时还能保证模型的泛化能力。 ### SVM的优化问题为了找到这个最优的决策边界，SVM转化为一个二次规划问题。这个优化问题的目标是最大化两类样本的间隔，同时对那些违反间隔约束的样本点引入惩罚项，使得模型在优化间隔的同时，也能够提高容错性。 ## 结语通过以上介绍，我们可以发现SVM是一种既注重理论又贴近实际应用的机器学习模型。其核心优势在于能够有效处理高维数据、非线性问题以及小样本情况。通过深入理解VC维、核函数和结构风险最小化原则，我们能够更好地掌握SVM的工作机制和使用方法。对于想要进一步探索SVM或是进入机器学习领域的朋友们，希望这篇通俗易懂的SVM入门教程能够成为你们宝贵的起点。

资源推荐

资源详情

资源评论

SVM 入门（一）SVM 的八股简介

支持向量机(Support Vector Machine)是 Cortes 和 Vapnik 于 1995 年首先提出的，它

在解决小样本、非线性及高维模式识别中表现出许多特有的优势，并能够推广应用到函数

拟合等其他机器学习问题中[10]。

　　支持向量机方法是建立在统计学习理论的 VC 维理论和结构风险最小原理基础上的，

根据有限的样本信息在模型的复杂性（即对特定训练样本的学习精度，Accuracy）和学习

能力（即无错误地识别任意样本的能力）之间寻求最佳折衷，以期获得最好的推广能力

[14]（或称泛化能力）。

以上是经常被有关 SVM 的学术文献引用的介绍，有点八股，我来逐一分解并解释一

下。

Vapnik 是统计机器学习的大牛，这想必都不用说，他出版的《Statistical Learning

Theory》是一本完整阐述统计机器学习思想的名著。在该书中详细的论证了统计机器学习

之所以区别于传统机器学习的本质，就在于统计机器学习能够精确的给出学习效果，能够

解答需要的样本数等等一系列问题。与统计机器学习的精密思维相比，传统的机器学习基

本上属于摸着石头过河，用传统的机器学习方法构造分类系统完全成了一种技巧，一个人

做的结果可能很好，另一个人差不多的方法做出来却很差，缺乏指导和原则。

　　所谓 VC 维是对函数类的一种度量，可以简单的理解为问题的复杂程度，VC 维越高，

一个问题就越复杂。正是因为 SVM 关注的是 VC 维，后面我们可以看到，SVM 解决问题

的时候，和样本的维数是无关的（甚至样本是上万维的都可以，这使得 SVM 很适合用来

解决文本分类的问题，当然，有这样的能力也因为引入了核函数）。

　　结构风险最小听上去文绉绉，其实说的也无非是下面这回事。

　　机器学习本质上就是一种对问题真实模型的逼近（我们选择一个我们认为比较好的近

似模型，这个近似模型就叫做一个假设），但毫无疑问，真实模型一定是不知道的（如果

知道了，我们干吗还要机器学习？直接用真实模型解决问题不就可以了？对吧，哈哈）既

然真实模型不知道，那么我们选择的假设与问题真实解之间究竟有多大差距，我们就没法

得知。比如说我们认为宇宙诞生于 150 亿年前的一场大爆炸，这个假设能够描述很多我们

观察到的现象，但它与真实的宇宙模型之间还相差多少？谁也说不清，因为我们压根就不

知道真实的宇宙模型到底是什么。

这个与问题真实解之间的误差，就叫做风险（更严格的说，误差的累积叫做风险）。

我们选择了一个假设之后（更直观点说，我们得到了一个分类器以后），真实误差无从得

知，但我们可以用某些可以掌握的量来逼近它。最直观的想法就是使用分类器在样本数据

上的分类的结果与真实结果（因为样本是已经标注过的数据，是准确的数据）之间的差值

来表示。这个差值叫做经验风险 Remp(w)。以前的机器学习方法都把经验风险最小化作为

努力的目标，但后来发现很多分类函数能够在样本集上轻易达到 100%的正确率，在真实

分类时却一塌糊涂（即所谓的推广能力差，或泛化能力差）。此时的情况便是选择了一个

足够复杂的分类函数（它的 VC 维很高），能够精确的记住每一个样本，但对样本之外的

数据一律分类错误。回头看看经验风险最小化原则我们就会发现，此原则适用的大前提是

经验风险要确实能够逼近真实风险才行（行话叫一致），但实际上能逼近么？答案是不能，

因为样本数相对于现实世界要分类的文本数来说简直九牛一毛，经验风险最小化原则只在

这占很小比例的样本上做到没有误差，当然不能保证在更大比例的真实文本上也没有误差。

　　统计学习因此而引入了泛化误差界的概念，就是指真实风险应该由两部分内容刻画，

一是经验风险，代表了分类器在给定样本上的误差；二是置信风险，代表了我们在多大程

度上可以信任分类器在未知文本上分类的结果。很显然，第二部分是没有办法精确计算的，

因此只能给出一个估计的区间，也使得整个误差只能计算上界，而无法计算准确的值（所

以叫做泛化误差界，而不叫泛化误差）。

　　置信风险与两个量有关，一是样本数量，显然给定的样本数量越大，我们的学习结果

越有可能正确，此时置信风险越小；二是分类函数的 VC 维，显然 VC 维越大，推广能力

越差，置信风险会变大。

泛化误差界的公式为：

　　R(w)≤Remp(w)+Ф(n/h)

　　公式中 R(w)就是真实风险，Remp(w)就是经验风险，Ф(n/h)就是置信风险。统计学习

的目标从经验风险最小化变为了寻求经验风险与置信风险的和最小，即结构风险最小。

　　SVM 正是这样一种努力最小化结构风险的算法。

　　SVM 其他的特点就比较容易理解了。

　　小样本，并不是说样本的绝对数量少（实际上，对任何算法来说，更多的样本几乎总

是能带来更好的效果），而是说与问题的复杂度比起来，SVM 算法要求的样本数是相对比

较少的。

　　非线性，是指 SVM 擅长应付样本数据线性不可分的情况，主要通过松弛变量（也有

人叫惩罚变量）和核函数技术来实现，这一部分是 SVM 的精髓，以后会详细讨论。多说

一句，关于文本分类这个问题究竟是不是线性可分的，尚没有定论，因此不能简单的认为

它是线性可分的而作简化处理，在水落石出之前，只好先当它是线性不可分的（反正线性

可分也不过是线性不可分的一种特例而已，我们向来不怕方法过于通用）。

　　高维模式识别是指样本维数很高，例如文本的向量表示，如果没有经过另一系列文章

（《文本分类入门》）中提到过的降维处理，出现几万维的情况很正常，其他算法基本就

没有能力应付了，SVM 却可以，主要是因为 SVM 产生的分类器很简洁，用到的样本信息

很少（仅仅用到那些称之为“支持向量”的样本，此为后话），使得即使样本维数很高，也

不会给存储和计算带来大麻烦（相对照而言，kNN 算法在分类时就要用到所有样本，样本

数巨大，每个样本维数再一高，这日子就没法过了……）。

下一节开始正式讨论 SVM。别嫌我说得太详细哦。

SVM 入门（二）线性分类器 Part 1

线性分类器(一定意义上,也可以叫做感知机) 是最简单也很有效的分类器形式.在一个线

性分类器中,可以看到 SVM 形成的思路,并接触很多 SVM 的核心概念.

量都是说列向量，因此以行向量形式来表示时，就加上转置）。二，这个形式并不局限于

二维的情况，在 n 维空间中仍然可以使用这个表达式，只是式中的 w 成为了 n 维向量（在

二维的这个例子中，w 是二维向量，注意这里的 w 严格的说也应该是转置的形式，为了表

示起来方便简洁，以下均不区别列向量和它的转置，聪明的读者一看便知）；三，g(x)不

是中间那条直线的表达式，中间那条直线的表达式是 g(x)=0，即 wx+b=0，我们也把这个

函数叫做分类面。

　　实际上很容易看出来，中间那条分界线并不是唯一的，我们把它稍微旋转一下，只要

不把两类数据分错，仍然可以达到上面说的效果，稍微平移一下，也可以。此时就牵涉到

一个问题，对同一个问题存在多个分类函数的时候，哪一个函数更好呢？显然必须要先找

一个指标来量化“好”的程度，通常使用的都是叫做“分类间隔”的指标。下一节我们就仔细说

说分类间隔，也补一补相关的数学知识。

SVM 入门（三）线性分类器 Part 2

上回说到对于文本分类这样的不适定问题（有一个以上解的问题称为不适定问题），

需要有一个指标来衡量解决方案（即我们通过训练建立的分类模型）的好坏，而分类间隔

是一个比较好的指标。

　　在进行文本分类的时候，我们可以让计算机这样来看待我们提供给它的训练样本，每

一个样本由一个向量（就是那些文本特征所组成的向量）和一个标记（标示出这个样本属

于哪个类别）组成。如下：

　　Di=(xi,yi)

　　xi 就是文本向量（维数很高），yi 就是分类标记。

　　在二元的线性分类中，这个表示分类的标记只有两个值，1 和-1（用来表示属于还是

不属于这个类）。有了这种表示法，我们就可以定义一个样本点到某个超平面的间隔：

　　δi=yi(wxi+b)

剩余32页未读，继续阅读

评论收藏

内容反馈

cy19861230

2011-10-24

写得真的很通俗，入门很容易。
alansif

2012-12-18

简洁易懂，非常好哦

garnert

粉丝: 0
资源: 2

SVM入门（通俗易懂的SVM教程）

SVM入门教程

最易理解的SVM入门教程

SVM入门，很通俗的SVM中文入门资料

svm的介绍，通俗易懂

svm入门 简单易懂，非常好学

SVM(支持向量机)入门 (深入浅出讲解原理)

SVM训练过程与步骤

一个非常不错的SVM入门教程

svm实现代码

林智仁的SVM使用方法讲义

SVM入门级别教程，适合初学者

SVM 入门经典教程

通俗易懂的ISE入门使用教程

狂神说——CSS3最新教程快速入门通俗易懂

172集通俗易懂的C语言从入门到项目实战教程

Matlab的SVM入门整理文档-SVM入门.rar

SVM入门.pdf

SVM入门 都说入门了啊

SVM原理详解，通俗易懂

SVM使用方法总结

SVM数学理论深入浅出的总结

单片机C语言入门指导（非常通俗易懂！-教程与笔记习题

通俗易懂的Netty从入门到源码剖析教程

SVM通俗入门

SVM入门资料(英文)

svm入门基础（特别详细的入门介绍资料）

最新资源

svm入门简单易懂，非常好学

SVM入门都说入门了啊