花书的相关文件仅供自己学习资源-CSDN文库

共1个文件

pdf：1个

需积分: 4 195 浏览量 2022-11-21 09:22:52 上传评论收藏 671KB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

DeepLearning（花书）.zip （1个子文件）

DeepLearning（花书）

5 机器学习基础.pdf 697KB

机器学习基础

朱明超

Email: deityrayleigh@gmail.com

Github: github.com/MingchaoZhu/DeepLearning

1 学习算法

机器学习算法描述⼀种能够从数据中学习的算法。学习指对于某类任务 T，为其定义性能度量 P，⼀个计算机程序被认为可以从经验 E 中学习是指：

通过经验 E 改进后，它在任务 T 上的性能度量 P 有所提高。

任务 T：机器学习任务定义为机器学习系统应该如何处理样本（Example）。例如，识别⼿写体数字识别的任务为：通过将输⼊的图⽚处理后，输出

该图⽚对应的数字（分类）。样本是量化的特征（Feature）的集合，⽤向量 x ∈ R

表⽰，其中向量的每个元素 x

是⼀个特征。例如⼀张图⽚的特

征就是这张图⽚⾥的像素点的值。

性能度量 P：为了评估机器学习的优劣，需要对算法的输出结果进⾏定量的衡量分析，这就需要合适的性能度量指标。

指标说明

True Positive TP 将正样本预测为正例数⽬

True Negative TN 将负样本预测为负例数⽬

False Positive FP 将负样本预测为正例数⽬

False Negative FN 将正样本预测为负例数⽬

• 针对分类任务 (详细描述见第⼗⼀章)：

– 准确率 (Accuracy)：acc =

TP+TN

TP+TN+FP+FN

。

– 错误率 (Error-rate)：err = 1 − acc

– 精度 (Precision)：P =

TP+FP

– 召回率 (Recall)：R =

TP+FN

– F

值：F

2PR

P+R

• 针对回归任务：距离误差

经验 E：根据经验 E 的不同，机器学习算法可以分为：⽆监督 (Unsupervised) 算法和监督 (Supervised) 算法。

• 监督学习算法 (Supervised Learning)：训练集的数据中包含样本特征和标签值，常见的分类和回归算法都是有监督的学习算法。

• ⽆监督学习算法 (Unsupervised Learning)：训练集的数据中只包含样本特征，算法需要从中学习出特征中隐藏的结构化特征，聚类、密度

估计等都是⽆监督的学习算法。

1.1 举例：线性回归

线性回归（Linear Regression）的⽬标：获得⼀个函数 f ，满⾜ f (x) = ˆy，其中 x ∈ R

, ˆy ∈ R，使得 ˆy 接近于真实的标签 y。

我们定义线性回归的输出为：

f(x) = w

⊤

x (1)

其中 w ∈ R

是我们需要学习的参数 (Parameter)。

在线性回归中，对任务 T 的定义：通过输出 ˆy = w

⊤

x，从 x 预测 y。

性能度量 P 的定义：假设测试集的特征和标签分别⽤ X

(test)

和 y

(test)

表⽰。可以采⽤的性能度量⽅式是均⽅误差（Mean Squared Error），如果

(test)

表⽰模型在测试集上的预测值，那么均⽅误差公式为：

MSE

test



(

(test)

− y

(test)

)

(test)

− y

(test)

(2)

为了构建⼀个机器学习算法，需要设计⼀个算法，通过观察训练集 (X

(train)

, y

(train)

) 获得经验，改进权重 w 以减少 MSE

test

。⼀种直观的⽅式是

深度学习：机器学习基础朱明超

最小化训练集上的均方误差，即 MSE

train

。最⼩化 MSE

train

，我们可以简单地求解其导数为 0 的情况：

∇

MSE

train

= 0

=⇒ ∇

(train)

− y

(train)

= 0

=⇒ ∇

|| X

(train)

w −y

(train)

= 0

=⇒ w = (X

(train)⊤

(train)

)

−1

(train)⊤

(train)

(3)

⽅程的解：w = (X

(train)⊤

(train)

)

−1

(train)⊤

(train)

被称为正规⽅程。

函数 f (x) = ax + b 称为仿射函数，其中，当 b = 0 时，变为 f(x) = ax，称为线性函数，即线性函数是仿射函数的⼀个特例。

[1]: import numpy as np

import math

import matplotlib.pyplot as plt

[2]: X = np.hstack((np.array([[-0.5,-0.45,-0.35,-0.35,-0.1,0,0.2,0.25,0.3,0.5]]).reshape(-1, 1), np.ones((10,1))*1))

y = np.array([-0.2,0.1,-1.25,-1.2,0,0.5,-0.1,0.2,0.5,1.2]).reshape(-1,1)

# 用公式求权重

w = np.linalg.inv(X.T.dot(X)).dot(X.T).dot(y)

hat_y = X.dot(w)

print("Weight:{}".format{list(w)})

x = np.linspace(-1, 1, 50)

hat_y = x * w[0] + w[1]

plt.figure(figsize=(4,4))

plt.xlim(-1.0, 1.0)

plt.xticks(np.linspace(-1.0, 1.0, 5))

plt.ylim(-3, 3)

plt.plot(x, hat_y, color='red')

plt.scatter(X[:,0], y[:,0], color='black')

plt.xlabel('$x_1$')

plt.ylabel('$y$')

plt.title('$Linear Regression$')

plt.show()

Weight:[array([1.49333333]), array([0.04966667])]

2 容量、过拟合、欠拟合

2.1 泛化问题

机器学习的主要挑战在于在未见过的数据输入上表现良好，这个能⼒称为泛化能⼒ (Generalization)。我们量化⼀下模型在训练集和测试集上的

表现，将其分别称为训练误差 (Training Error) 和测试误差 (Test Error)，后者也经常称为泛化误差 (Generalization Error)。可以说，理想

的模型就是在最小化训练误差的同时，最小化泛化误差，具有良好泛化能⼒的算法才是符合需求的。

在实际的应⽤过程中，会采样两个数据集，减⼩训练误差得到参数后，再在测试集中验证。这个过程中，就会发⽣测试误差的期望⼤于训练误差的

期望的情况。以下是决定机器学习算法效果是否好的因素：

• 降低训练误差。

深度学习：机器学习基础朱明超

• 缩⼩训练误差与测试误差之间的差距。

这俩个因素分别对应了机器学习的两个⼤挑战：⽋拟合 (Underfitting) 和过拟合 (Overfitting)。欠拟合指的是模型在训练集上的误差较大，这

通常是由于训练不充分或者模型不合适导致；

过拟合

指的是

模型在训练集和测试集上的误差差距过大

，通常由于模型过分拟合了训练集中的随机噪

⾳，导致泛化能⼒较差。采⽤正则化，可以降低泛化误差，我们会在第七章进⼀步的介绍。

2.2 容量

通过调节机器学习模型的容量，可以控制模型是否偏于过拟合还是⽋拟合，容量 (Capacity) 是描述了整个模型拟合各种函数的能力。如果容量不

⾜，模型将不能够很好地表⽰数据，表现为⽋拟合；如果容量太⼤，那么模型就很容易过分拟合数据，因为其记住了不适合于测试集的训练集特性，

表现为过拟合。容量的控制可以通过多种⽅法控制，包括：

• 控制模型的假设空间。

• 添加正则项对模型进⾏偏好排除。

当机器学习算法的容量适合于所执行任务的复杂度和所提供训练数据的数量时，算法效果通常会最佳。统计学习⽅法理论提供了量化模型的容量的

不同⽅法，其中最为出名的是 Vapnik-Chervonenkis 维度 (Vapnik-Chervonenkis dimension)。统计学习理论中最重要的结论阐述了训练误差和泛

化误差之间差异的上界随着模型容量增长而增长，但随着训练样本增多而下降。

通常，当模型容量上升时，训练误差会下降，直到其渐近最⼩可能误差（假设误差度量有最⼩值），⽽泛化误差会是⼀个关于模型容量的 U 形曲线

函数。

图 1. 容量和误差之间的典型关系

3 超参数与验证集

超参数：⽤来控制学习算法的参数⽽⾮学习算法本⾝学出来的参数。例如，进⾏曲线的回归拟合时，曲线的次数就是⼀个超参数；在构建模型对⼀

些参数的分布假设也是超参数。

验证集 (Validation Set)：通常在需要选取超参数时，将训练集再划分为训练和验证集两部分，使⽤新的训练集训练模型，验证集用来进行测试和

调整超参。通常，80% 的训练数据⽤于训练学习参数，20% ⽤于验证。

k 折交叉验证：将数据集均分为不相交的 k 份，每次选取其中的⼀份作为测试集，其他的为训练集，训练误差为 k 次的平均误差。

[3]: def KFoldCV(D, A, k):

"""

k-fold 交叉验证

参数说明：

D：给定数据集

A：学习函数

k：折数

"""

np.random.shuffle(D)

dataset

= np.split(D, k)

acc_rate = 0

for i in range(k):

train_set = dataset.copy()

test_set = train_set.pop(i)

train_set = np.vstack(train_set)

A.train(train_set[:,:-1], train_set[:,-1]) # 每次的训练集

labels = A.fit(test_set[:,:-1]) # 每次的测试集

acc_rate += np.mean(labels==test_set[:,-1]) # 计算平均误差

深度学习：机器学习基础朱明超

return acc_rate/k

4 偏差和方差

4.1 偏差

估计的偏差 (Bias) 被定义为：

bias(

) = E(

) − θ (4)

其中期望作⽤在所有数据上，θ 是⽤于定义数据⽣成分布的真实值。偏差反映的是模型在样本上的输出与真实值之间的误差，即模型本⾝的精准度，

或者说算法本身的拟合能力。

• 如果 bias(

) = 0，那么估计量

被称为是⽆偏 (Unbiased)。

• 如果 lim

m→∞

bias(

) = 0，那么估计量

被称为是渐进⽆偏 (Asymptotically Unbiased)。

4.2 方差

估计的⽅差 (Variance) 被定义为：

Var (

θ) (5)

⽅差反映的是模型每⼀次输出结果与模型输出期望之间的误差，即模型的稳定性。

标准差被记为

SE(ˆµ

) =







Var





i=1

(i)



√

(6)

其中，σ

是样本 {x

(i)

} 的真实⽅差，标准差通常被标记为 σ。

4.3 误差与偏差和方差的关系

一个复杂的模型并不总是能在测试集上表现出更好的性能，那么误差源于哪？

以回归为例，对测试样本 x，令 y

为 x 在数据集上的标记，y 为 x 的真实标记。由于噪声的存在，有可能 y

= y，f (x; D) 为在训练集 D 上学

得函数 f 对 x 的预测输出。因此，算法的期望预测可以表⽰为:

f(x) = E

[f(x; D)] (7)

不同训练集学得的函数 f 的预测输出的⽅差 (Variance) 为:

var(x) = E

[(f(x; D) −

f(x))

] (8)

期望输出与真实标记之间的差距称为偏差 (Bias) 为：

bias

(x) = (

f(x) −y )

(9)

噪声 (真实标记与数据集中的实际标记间的偏差) 为:

= E

[(y

− y)

] (10)

假定噪声期望为零，即 E

− y] = 0。算法的期望泛化误差为：

E(f; D) = E

[(f(x; D) − y

)

]

= E

[(f(x; D) −

f(x) +

f(x) −y

)

]

= E

[(f(x; D) −

f(x))

] + E

[(

f(x) −y

)

] + E

[2(f(x; D) −

f(x))(

f(x) −y

)]

= E

[(f(x; D) −

f(x))

] + E

[(

f(x) −y

)

]

= E

[(f(x; D) −

f(x))

] + E

[(

f(x) −y + y − y

)

]

= E

[(f(x; D) −

f(x))

] + E

[(

f(x) −y )

] + E

[(y − y

)

] + E

[2(

f(x) −y )(y − y

)]

= E

[(f(x; D) −

f(x))

] + (

f(x) −y )

+ E

[(y − y

)

]

(11)

式中，第⼀个加红公式等于 0，因为 (f(x; D) −

f(x)) 与 (

f(x) − y

) 相互独⽴，所以 E

[2(f(x; D) −

f(x))(

f(x) − y

)] = 2E

[(f(x; D) −

f(x))]E

[

f(x) −y

)]。根据期望预测公式

f(x) = E

[f(x; D)] 有 E

[(f(x; D) −

f(x))] = 0。同理第⼆个加红公式等于 0，因为噪声期望为 0。于是：

E(f; D) = bias

(x) + var(x) + ε

(12)

也就是说，泛化误差可分解为偏差、⽅差与噪声之和。噪声⽆法⼈为控制，所以通常我们认为:

E(f; D) = bias

(x) + var(x) (13)

深度学习：机器学习基础朱明超

我们需要在模型复杂度之间权衡，使偏差和⽅差得以均衡 (trade-off)，这样模型的整体误差才会最⼩。

图 2. 当容量增⼤ (x 轴) 时，偏差 (红线) 随之减⼩，⽽⽅差 (蓝线) 随之增⼤，使得泛化误差 (⿊线) 产⽣了另⼀种 U 形。

5 最大似然估计

最⼤似然估计 (Maximum Likelihood Estimation，MLE) 是⼀种最为常见的估计准则，其思想是在已知分布产生的一些样本⽽未知分布具体参数

的情况下根据样本值推断最有可能产生样本的参数值。将数据的真实分布记为 P

data

(x) ，为了使⽤ MLE，需要先假设样本服从某⼀簇有参数确定

的分布 P

model

(x; θ)，现在的⽬标就是使⽤估计的 P

model

来拟合真实的 P

data

(条件一：“模型已定，参数未知”)。

对于⼀组由 m 个样本组成的数据集 X = {x

(1)

, ··· , x

(m)

}，假设数据独⽴且由未知的真实数据分布 P

data

(x) ⽣成 (条件二：独立同分布采样的数

据)，可以通过最⼤似然估计：

= arg max

model

(X; θ)

= arg max



i=1

model

(i)

; θ)

(14)

获得真实分布的参数。

通常为了计算⽅便，会对 MLE 加上 log，将乘积转化为求和然后将求和变为期望：θ

= arg max

i=1

log P

model

(i)

; θ)。

使⽤训练数据经验分布

data

花书的相关文件仅供自己学习

文件流显示，仅供学习参考

前端部署所要文件夹摆放与相关配置文件，仅供学习所用|nginx.zip

c#类序列化文件，仅供学习

labview文件输入的练习，仅供学习

OpcEnum.exe文件，opc配置、dcom配置，仅供学习使用

零点起飞学Oracle随书数据库文件

Chrome获取书签插件工程文件（提取）

WinForm图书借阅管理系统 1.0.rar

JAVA_图书馆管理系统

斯坦福自己的个人笔记和深度学习花书

source insight 4093 安装所需文件，仅供学习

struts学习文档 ，完全自己总结 仅供 个人参考学习

WiFi破解 仅供学习WiFi名称需要自己改

python相关补充依赖包，仅供学习交流使用！

浙江工业大学操作系统大型实验-Unix文件管理系统～带注释+源代码+文档说明+任务书

.net mvc 商城学习资料

JavaWeb图书馆管理系统Struts

网上商城，自己的设计，简单仅供初学者学习参看

单机及局域网 找茬游戏 自己开发的 仅供学习

时序图的相关说明整理，仅供学习交流

CCSv5.5 注册 破解 许可文件，实测可用（仅供学习交流用）

php动态网站开发实例教程-任务5.2学生管理系统

2018年西门子杯全国大学生工业自动化挑战赛工程应用型赛项高校组工程设计文件.pdf

WinForm图书借阅系统 1.0.rar

基于Java SpringBoot + mysql的在线图书展示商城+源代码+文档说明

程序员面试刷题的书哪个好-firefly_study:仅供学习

最新资源

struts学习文档，完全自己总结仅供个人参考学习

WiFi破解仅供学习WiFi名称需要自己改

单机及局域网找茬游戏自己开发的仅供学习

CCSv5.5 注册破解许可文件，实测可用（仅供学习交流用）