支持向量机通俗导论（理解SVM的三层境界）_SVM确定偏置项�b资源-CSDN文库

需积分: 13 29 浏览量 2016-11-07 16:52:53 上传评论收藏 1.37MB PDF 举报

### 支持向量机(SVM)的三层境界解析 #### 第一层：了解SVM **1.1 什么是SVM** 支持向量机（Support Vector Machine, SVM）是一种广泛应用于分类与回归分析的机器学习算法。其核心思想在于找到一个最佳的决策边界——称为超平面，能够最大化不同类别的数据之间的间隔，从而实现有效的分类。 **1.2 线性分类** - **1.2.1 分类标准**：在SVM中，通常采用线性分类的标准来进行分类。对于二分类问题，目标是找到一个最优的线性决策边界，使得两个类别的数据尽可能地分开。 - **1.2.2 1或–1分类标准的起源：Logistic回归**：在许多情况下，我们会将数据标记为+1或-1，这种标记方式起源于Logistic回归模型。这样的标记方式有助于简化数学上的表达，并且在SVM中特别有用。 - **1.2.3 形式化表示**：假设有一个二维空间中的数据集，其中包含两个类别的数据点。我们可以通过一个线性方程来定义一个决策边界，例如：\(w^T x + b = 0\)，其中\(w\)是权重向量，\(x\)是输入向量，\(b\)是偏置项。 **1.3 线性分类的一个例子** 假设我们有两个类别的数据点，分别标记为+1和-1，分布在二维坐标系中。我们的目标是找到一条直线，使得两个类别的数据点尽可能远离这条直线，同时尽可能地将它们正确分类。 **1.4 函数间隔与几何间隔** - **1.4.1 函数间隔**：函数间隔是指一个数据点到决策边界的距离，计算公式为\(\frac{|w^T x + b|}{||w||}\)。这个距离是根据权重向量\(w\)和偏置项\(b\)来计算的。 - **1.4.2 点到超平面的距离定义：几何间隔**：几何间隔是指数据点到决策边界的垂直距离。它是函数间隔除以权重向量的范数得到的，即\(\frac{|w^T x + b|}{||w||}\)。几何间隔更加直观地反映了数据点与决策边界之间的实际距离。 **1.5 最大间隔分类器** 为了找到最优的决策边界，SVM的目标是最大化几何间隔。这相当于寻找一个超平面，使得它到最近的数据点（支持向量）的距离最大。这样做的好处是可以提高分类器的泛化能力。 **1.6 支持向量** 支持向量是指那些正好位于最大几何间隔边界上的数据点。这些点对确定最优超平面至关重要，因为只有这些点的位置会直接影响最终决策边界的确定。换句话说，SVM模型只依赖于支持向量，而不是整个训练数据集。 #### 第二层：深入SVM **2.1 从线性可分到线性不可分** - **2.1.1 从原始问题到对偶问题**：当数据线性不可分时，可以通过引入拉格朗日乘子，将原始问题转化为对偶问题。这样做的好处是可以更容易地处理非线性数据。 - **2.1.2 序列最小最优化算法**：序列最小最优化算法（Sequential Minimal Optimization, SMO）是一种高效的解决对偶问题的方法，尤其适用于大型数据集。SMO算法通过一系列简单的小规模二次规划问题来逐步求解整个优化问题。 - **2.1.3 线性不可分的情况**：对于线性不可分的问题，可以通过引入核函数来解决。核函数可以将低维空间中的非线性问题转换到高维空间中的线性问题。 **2.2 核函数** - **2.2.1 特征空间的隐式映射：核函数**：核函数的作用是将输入数据从原始空间映射到更高维度的空间，使得原本非线性可分的数据在高维空间中变得线性可分。 - **2.2.2 如何处理非线性数据**：通过选择合适的核函数，我们可以有效地处理非线性数据。常见的核函数有线性核、多项式核、高斯核等。 - **2.2.3 几个核函数**： - 线性核：\(K(x, y) = x^T y\) - 多项式核：\(K(x, y) = (x^T y + c)^d\) - 高斯核（径向基函数核）：\(K(x, y) = \exp(-\gamma ||x-y||^2)\) - **2.2.4 核函数的本质**：核函数本质上是一种映射方法，通过特定的数学运算实现了从低维到高维空间的转换，从而解决了非线性问题。 **2.3 使用松弛变量处理离群点的方法** 在实际应用中，可能会遇到一些难以正确分类的离群点。为了解决这个问题，可以在SVM模型中引入松弛变量，允许某些数据点轻微地违反分类规则，从而提高了模型的鲁棒性和泛化能力。 #### 第三层：证明SVM **3.1 线性学习器** - **3.1.1 感知机**：感知机是最早的线性分类器之一，它通过简单的梯度下降方法来调整权重，以实现对数据的分类。 **3.2 非线性学习器** - **3.2.1 Mercer定理**：Mercer定理提供了一种判断一个函数是否可以作为核函数的条件。只有满足Mercer条件的函数才能作为有效的核函数。 **3.3 损失函数** - **3.4 最小二乘法** - **3.4.1 什么是最小二乘法**：最小二乘法是一种常用的估计参数的方法，其目标是最小化预测值与实际值之间的平方误差之和。 - **3.4.2 最小二乘法的解法**：最小二乘法可以通过求解一组线性方程来找到最优解。 **3.5 SMO算法** - **3.5.1 SMO算法的解法**：SMO算法的核心思想是将复杂的优化问题分解成一系列简单的小规模二次规划问题，并通过迭代求解这些小问题来逐渐逼近全局最优解。 - **3.5.2 SMO算法的步骤**：主要包括初始化、选择优化变量、更新权重等步骤。 - **3.5.3 SMO算法的实现**：在实际应用中，SMO算法通常需要借助一些数值优化库来实现。 **3.6 支持向量机的应用** - **3.6.1 文本分类**：SVM在文本分类中表现出了优异的性能，尤其是在处理高维稀疏数据时。通过特征提取和合适的核函数选择，SVM可以有效地进行文本分类任务。 #### 结论支持向量机是一种强大的机器学习方法，它不仅适用于线性可分的数据，还可以通过核技巧处理非线性问题。通过深入了解SVM的理论基础及其背后的数学原理，可以帮助我们更好地应用这一技术解决实际问题。无论是从理论层面还是实践层面来看，SVM都是值得深入研究的重要主题。

资源推荐

资源详情

资源评论

支持向量机通俗导论

——理解 SVM 的三层境界

作者：July · pluskid

致谢：白石 · JerryLead

出处：结构之法算法之道 blog

http://blog.csdn.net/v_july_v/article/details/7624837

前言

第一章了解 SVM 1

1.1 什么是 SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2 线性分类 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2.1 分类标准 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2.2 1 或 –1 分类标准的起源：Logistic 回归 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.2.3 形式化表示 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.3 线性分类的一个例子 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.4 函数间隔与几何间隔 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.4.1 函数间隔 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.4.2 点到超平面的距离定义：几何间隔 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.5 最大间隔分类器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.6 支持向量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

第二章深入 SVM 8

2.1 从线性可分到线性不可分 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.1.1 从原始问题到对偶问题 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.1.2 序列最小最优化算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.1.3 线性不可分的情况 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.2 核函数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.2.1 特征空间的隐式映射：核函数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.2.2 如何处理非线性数据 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.2.3 几个核函数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.2.4 核函数的本质 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2.3 使用松弛变量处理离群点的方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

第三章证明 SVM 20

3.1 线性学习器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

3.1.1 感知机 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

3.2 非线性学习器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

3.2.1 Mercer 定理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

3.3 损失函数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

3.4 最小二乘法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3.4.1 什么是最小二乘法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3.4.2 最小二乘法的解法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

第 1 层了解 SVM

1.1 什么是 SVM

要明白什么是支持向量机 Support Vector Machines, SVM ，便得从分类说起。

分类作为数据挖掘领域中一项非常重要的任务，它的目的是学会一个分类函数或分类模型（或者叫做分类

器），该模型能把数据库中的数据项映射到给定类别中的某一个，从而可以用于预测未知类别。

本文将要介绍的支持向量机算法便是一种分类方法。

支持向量机

所谓支持向量机，顾名思义，分为两个部分了解：一，什么是支持向量（简单来说，就

是支持或支撑平面上把两类类别划分开来的超平面的向量点，下文将具体解释）；二，这里的

“机（machine，机器）”便是一个算法。在机器学习领域，常把一些算法看做是一个机器，如

分类机（当然，也叫做分类器），而支持向量机本身便是一种监督式学习的方法（至于具体什

么是监督学习与非监督学习，请参见此系列Machine Learning & Data Mining 第一篇），它

广泛的应用于统计分类以及回归分析中。

而支持向量机是 90 年代中期发展起来的基于统计学习理论的一种机器学习方法，通过寻求结构化风险最小

来提高学习机泛化能力，实现经验风险和置信范围的最小化，从而达到在统计样本量较少的情况下，亦能获得良

好统计规律的目的。

对于不想深究支持向量机原理的同学（比如就只想看看支持向量机是干嘛的），那么，了解到这里便足够了，

不需上层。而对于那些喜欢深入研究一个东西的同学，甚至究其本质的，咱们则还有很长的一段路要走，万里长

征，咱们开始迈第一步吧（相信你能走完）。

1.2 线性分类

OK，在讲 SVM 之前，咱们必须先弄清楚一个概念：线性分类器（也可以叫做感知机，这里的机表示的还

是一种算法，本文第三部分“证明 SVM”中会详细阐述）。

1.2.1 分类标准

这里我们考虑的是一个两类的分类问题，数据点用 x 来表示，这是一个 n 维向量，w

上标中的“T”代表

转置，而类别用 y 来表示，可以取 1 或者 –1 ，分别代表两个不同的类。一个线性分类器就是要在 n 维的数据

空间中找到一个超平面，其方程可以表示为：

x + b = 0 (1.2.1)

上面给出了线性分类的定义描述，但或许读者没有想过：为何用 y 取 1 或者 –1 来表示两个不同的类别呢？其实，

这个 1 或 –1 的分类标准起源于 Logistic 回归，为了完整和过渡的自然性，咱们就再来看看这个 Logistic 回归。

剩余34页未读，继续阅读

评论收藏

内容反馈

zenggzh

粉丝: 0
资源: 7

支持向量机通俗导论（理解SVM的三层境界）

支持向量机通俗导论 理解SVM的三层境界

理解svm的三层境界

支持向量机通俗导论（理解SVM的三层境界）Latex版PDF

支持向量机通俗导论（理解SVM的三层境界）PDF

svm的介绍，通俗易懂

支持向量机通俗导论(SVM三层境界)-2018最新LaTex版

从零构建支持向量机(SVM) & 支持向量机通俗导论

支持向量机通俗导论 -- 理解SVM的三层境界

支持向量机通俗导论（理解SVM的三层境界）-附件资源

支持向量机通俗导论

支持向量机通俗导论（理解SVM的三层境界）Latex版.zip_machine learning_svm精髓_支持向量机

支持向量机

支持向量机通俗导论（理解SVM的三层境界）Latex版

支持向量机通俗导论（理解SVM的三层境界）Latex版.zip_SVM_python_支持向量机

数据挖掘与分析算法 支持向量机通俗导论（理解SVM的三层境界）共51页.pdf

支持向量机通俗导论（理解SVM的三层境界）LaTeX最新版_2015.1.9.pdf

支持向量机通俗导论（理解SVM的三层境界）LaTeX最新版_2015.1.91

支持向量机svm的介绍

SVM算法-Python实现

最新资源

支持向量机通俗导论理解SVM的三层境界

数据挖掘与分析算法支持向量机通俗导论（理解SVM的三层境界）共51页.pdf