《机器学习-周志华》学习笔记资源-CSDN文库

机器学习

学习笔记

需积分: 5 103 浏览量 2023-10-17 11:39:32 上传评论 1 收藏 791KB PDF 举报

资源推荐

资源详情

资源评论

几个概念几个概念

机器学习

数据集

Data set

示例instance

样本sample

样本空间

(属性空间)

sample space

属性attribute

特征feature

属性值

attribute value

特征向量

Feature vector

标记lable标记空间

样例

Example

学习learning

训练training

监督学习

Supervised

learning

分类

classification

回归

regression

二分类

binary-class

多分类

multi-class

正类

positive class

反类

negative class

无监督学习

Unsupervised

learning

聚类

clustering

评估方法留出法

交叉验证法

自助法

数目比例合适：训练集：测试集 = 2~4 : 1

类别比例一致：训练集内类别比例 = 测试集内类别比例

多次平均取值：保持比例、多次随机产生训练、测试集对，先计算再平均

随机产生类别比例一致的k个子集，k-1个合作训练集，1个作测试集，循

环k次，计算平均值

重复p次，计算平均值

在随机反复（选中的样本还可被选取）选取样本的过程中，未选中的概率

0.368

m个样本自助法选取m个组成训练集，未被选过的组成测试集

最终模型

调参和评估完成后，所有数据做为训练集，重新训练模型

性能度量

错误率

精度

查准率

查全率

（泛化阈值）

ROC和AUC

（错误敏感）

代价曲线

查准率precision查准率precision查准率precision

P = TP / (TP + FP)

查准率precision

P = TP / (TP + FP)

查全率recall查全率recall查全率recall

R = TP / (TP + FN)

查全率recall

R = TP / (TP + FN)

P-R曲线P-R曲线P-R曲线

根据学习器的预测结果对样例进行排序，逐

个把样本作为正例进行预测，以查准率为纵

轴、查全率为横轴作图。平衡点”(BEP)就是

“查准率＝查全率”时的取值，

P-R曲线

根据学习器的预测结果对样例进行排序，逐

个把样本作为正例进行预测，以查准率为纵

轴、查全率为横轴作图。平衡点”(BEP)就是

“查准率＝查全率”时的取值，

度量F

度量

= (1 + β

) * P * R / (β

* P + R)

当β=1时为标准的F1度量，查全率和查准率

同等程度影响，β＞1时查全率有更大影响，

β< 1时查准率有更大影响。

度量

= (1 + β

) * P * R / (β

* P + R)

当β=1时为标准的F1度量，查全率和查准率

同等程度影响，β＞1时查全率有更大影响，

β< 1时查准率有更大影响。

ROC曲线ROC曲线ROC曲线

根据学习器预测结果对样例进行排序，分类

阈值先设为大于所有预测值，然后依次设为

每个样例的预测值，以“真正例率”(TPR)为纵

轴，“假正例率”(FPR)为横轴，作图

TPR = TP / (TP + FN)

FPR = FP / (TN + FP)

ROC曲线

根据学习器预测结果对样例进行排序，分类

阈值先设为大于所有预测值，然后依次设为

每个样例的预测值，以“真正例率”(TPR)为纵

轴，“假正例率”(FPR)为横轴，作图

TPR = TP / (TP + FN)

FPR = FP / (TN + FP)

AUCAUCAUC

ROC曲线下的面积

AUC

ROC曲线下的面积

AUC

ROC曲线下的面积

假设

hypothesis

真相(规律)

ground-truth

泛化

generalization

预测

prediction

假设空间

hypothesis

space

版本空间

version space

学习器(模型)

learner

（二分类）混淆矩阵confusion matrix（二分类）混淆矩阵confusion matrix（二分类）混淆矩阵confusion matrix（二分类）混淆矩阵confusion matrix

（二分类）代价矩阵cost matrix（二分类）代价矩阵cost matrix（二分类）代价矩阵cost matrix（二分类）代价矩阵cost matrix

代价曲线代价曲线代价曲线

横轴是取值为[0, 1] 的正例概率代价

P(+)cost = p * cost

/ (p * cost

+ (1 – p) * cost

)

其中p是样例为正例的概率；纵轴是取值为[0, 1]的归一化代价

cost

norm

= (FNR * p * cost

+ FPR * (1 – p) * cost

) / (p * cost

+ (1 – p) * cost

)

其中FNR=1-TPR是假反例率，FPR是假正例率。

ROC曲线上每一点对应了代价平面上的一条线段，设ROC曲线上点的坐标

为(TPR, FPR)，则可相应计算出FNR，然后在代价平面上绘制一条从(0, FPR)

到(1, FNR) 的线段，线段下的面积即表示了该条件下的期望总体代价。

代价曲线

横轴是取值为[0, 1] 的正例概率代价

P(+)cost = p * cost

/ (p * cost

+ (1 – p) * cost

)

其中p是样例为正例的概率；纵轴是取值为[0, 1]的归一化代价

cost

norm

= (FNR * p * cost

+ FPR * (1 – p) * cost

) / (p * cost

+ (1 – p) * cost

)

其中FNR=1-TPR是假反例率，FPR是假正例率。

ROC曲线上每一点对应了代价平面上的一条线段，设ROC曲线上点的坐标

为(TPR, FPR)，则可相应计算出FNR，然后在代价平面上绘制一条从(0, FPR)

到(1, FNR) 的线段，线段下的面积即表示了该条件下的期望总体代价。

代价曲线

横轴是取值为[0, 1] 的正例概率代价

P(+)cost = p * cost

/ (p * cost

+ (1 – p) * cost

)

其中p是样例为正例的概率；纵轴是取值为[0, 1]的归一化代价

cost

norm

= (FNR * p * cost

+ FPR * (1 – p) * cost

) / (p * cost

+ (1 – p) * cost

)

其中FNR=1-TPR是假反例率，FPR是假正例率。

ROC曲线上每一点对应了代价平面上的一条线段，设ROC曲线上点的坐标

为(TPR, FPR)，则可相应计算出FNR，然后在代价平面上绘制一条从(0, FPR)

到(1, FNR) 的线段，线段下的面积即表示了该条件下的期望总体代价。

性能检验

假设检验

（单个学习器）

比较检验

（多个学习器）

二项检验二项检验二项检验

原理：

在包含m个样本的测试集上，泛化错

误率为e 的学习器被测得测试错误率为ē的

概率

P(ē; e) = m!/((ēm)!(m-ēm)!)e

ēm

(1-e)

ēm

服从二项分布。

结论：

(1) P(ē; e)在e=ē时最大。

(2) 在α的显著度下，假设“e=ē”不能被拒

绝，即能以1-α的置信度认为，学习器的泛

化错误率不大于ē；否则该假设可被拒绝。

二项检验

原理：

在包含m个样本的测试集上，泛化错

误率为e 的学习器被测得测试错误率为ē的

概率

P(ē; e) = m!/((ēm)!(m-ēm)!)e

ēm

(1-e)

ēm

服从二项分布。

结论：

(1) P(ē; e)在e=ē时最大。

(2) 在α的显著度下，假设“e=ē”不能被拒

绝，即能以1-α的置信度认为，学习器的泛

化错误率不大于ē；否则该假设可被拒绝。

二项检验

原理：

在包含m个样本的测试集上，泛化错

误率为e 的学习器被测得测试错误率为ē的

概率

P(ē; e) = m!/((ēm)!(m-ēm)!)e

ēm

(1-e)

ēm

服从二项分布。

结论：

(1) P(ē; e)在e=ē时最大。

(2) 在α的显著度下，假设“e=ē”不能被拒

绝，即能以1-α的置信度认为，学习器的泛

化错误率不大于ē；否则该假设可被拒绝。

5x2交叉验证（一个数据集两个算法）5x2交叉验证（一个数据集两个算法）5x2交叉验证（一个数据集两个算法）

对学习器A和B，5次2折交叉验证法得到的测试错误率分别为e

Apk

Bpk

= e

Apk

–e

Bpk

其中, p=1,2,3,4,5 k=1,2

= (Δ

+ Δ

) / 2

μ = μ

, σ

= (Δ

- μ

)

+ (Δ

- μ

)

服从自由度为5的t分布

5x2交叉验证（一个数据集两个算法）

对学习器A和B，5次2折交叉验证法得到的测试错误率分别为e

Apk

Bpk

= e

Apk

–e

Bpk

其中, p=1,2,3,4,5 k=1,2

= (Δ

+ Δ

) / 2

μ = μ

, σ

= (Δ

- μ

)

+ (Δ

- μ

)

服从自由度为5的t分布

5x2交叉验证（一个数据集两个算法）

对学习器A和B，5次2折交叉验证法得到的测试错误率分别为e

Apk

Bpk

= e

Apk

–e

Bpk

其中, p=1,2,3,4,5 k=1,2

= (Δ

+ Δ

) / 2

μ = μ

, σ

= (Δ

- μ

)

+ (Δ

- μ

)

服从自由度为5的t分布

5x2交叉验证（一个数据集两个算法）

对学习器A和B，5次2折交叉验证法得到的测试错误率分别为e

Apk

Bpk

= e

Apk

–e

Bpk

其中, p=1,2,3,4,5 k=1,2

= (Δ

+ Δ

) / 2

μ = μ

, σ

= (Δ

- μ

)

+ (Δ

- μ

)

服从自由度为5的t分布

t 检验t 检验t 检验

原理：

假定我们得到了 k 个测试错误率，

,ē

,…,ē

，平均测试错误率µ和方差σ

为

k个测试错误率可看作泛化错误率e

的独立

采样，则变量

服从自由度为k-1的t分布。

结论：

对假设“μ=e

”和显著度α，我们可计算

出当测试错误率均值为e

时，在1-α概率内

能观测到最大错误率(临界值)。即泛化错误

率是e

的置信度为1-α。

t 检验

原理：

假定我们得到了 k 个测试错误率，

,ē

,…,ē

，平均测试错误率µ和方差σ

为

k个测试错误率可看作泛化错误率e

的独立

采样，则变量

服从自由度为k-1的t分布。

结论：

对假设“μ=e

”和显著度α，我们可计算

出当测试错误率均值为e

时，在1-α概率内

能观测到最大错误率(临界值)。即泛化错误

率是e

的置信度为1-α。

t 检验

原理：

假定我们得到了 k 个测试错误率，

,ē

,…,ē

，平均测试错误率µ和方差σ

为

k个测试错误率可看作泛化错误率e

的独立

采样，则变量

服从自由度为k-1的t分布。

结论：

对假设“μ=e

”和显著度α，我们可计算

出当测试错误率均值为e

时，在1-α概率内

能观测到最大错误率(临界值)。即泛化错误

率是e

的置信度为1-α。

t 检验

原理：

假定我们得到了 k 个测试错误率，

,ē

,…,ē

，平均测试错误率µ和方差σ

为

k个测试错误率可看作泛化错误率e

的独立

采样，则变量

服从自由度为k-1的t分布。

结论：

对假设“μ=e

”和显著度α，我们可计算

出当测试错误率均值为e

时，在1-α概率内

能观测到最大错误率(临界值)。即泛化错误

率是e

的置信度为1-α。

McNemar检验（一个数据集两个算法）McNemar检验（一个数据集两个算法）McNemar检验（一个数据集两个算法）

原理：

对二分类问题，假设两学习器A和B性能相同，则变量 |e

-e

| 服从正

态分布，且均值为1，方差为e

-e

，因此变量

服从自由度为1的卡方分布χ2。

结论：

标准正态分布变量的平方，给定显著度α，当以上变量值小于临界值

时，不能拒绝假设，即认为两学习器的性能没有显著差别，否则拒绝假设，

即认为两者性能有显著差别，且平均错误率较小的那个学习器性能较优。自

由度为1的卡方检验的临界值当α=0.05时为3.8415，α=0.1时为2.7055。

McNemar检验（一个数据集两个算法）

原理：

对二分类问题，假设两学习器A和B性能相同，则变量 |e

-e

| 服从正

态分布，且均值为1，方差为e

-e

，因此变量

服从自由度为1的卡方分布χ2。

结论：

标准正态分布变量的平方，给定显著度α，当以上变量值小于临界值

时，不能拒绝假设，即认为两学习器的性能没有显著差别，否则拒绝假设，

即认为两者性能有显著差别，且平均错误率较小的那个学习器性能较优。自

由度为1的卡方检验的临界值当α=0.05时为3.8415，α=0.1时为2.7055。

McNemar检验（一个数据集两个算法）

原理：

对二分类问题，假设两学习器A和B性能相同，则变量 |e

-e

| 服从正

态分布，且均值为1，方差为e

-e

，因此变量

服从自由度为1的卡方分布χ2。

结论：

标准正态分布变量的平方，给定显著度α，当以上变量值小于临界值

时，不能拒绝假设，即认为两学习器的性能没有显著差别，否则拒绝假设，

即认为两者性能有显著差别，且平均错误率较小的那个学习器性能较优。自

由度为1的卡方检验的临界值当α=0.05时为3.8415，α=0.1时为2.7055。

McNemar检验（一个数据集两个算法）

原理：

对二分类问题，假设两学习器A和B性能相同，则变量 |e

-e

| 服从正

态分布，且均值为1，方差为e

-e

，因此变量

服从自由度为1的卡方分布χ2。

结论：

标准正态分布变量的平方，给定显著度α，当以上变量值小于临界值

时，不能拒绝假设，即认为两学习器的性能没有显著差别，否则拒绝假设，

即认为两者性能有显著差别，且平均错误率较小的那个学习器性能较优。自

由度为1的卡方检验的临界值当α=0.05时为3.8415，α=0.1时为2.7055。

McNemar检验（一个数据集两个算法）

原理：

对二分类问题，假设两学习器A和B性能相同，则变量 |e

-e

| 服从正

态分布，且均值为1，方差为e

-e

，因此变量

服从自由度为1的卡方分布χ2。

结论：

标准正态分布变量的平方，给定显著度α，当以上变量值小于临界值

时，不能拒绝假设，即认为两学习器的性能没有显著差别，否则拒绝假设，

即认为两者性能有显著差别，且平均错误率较小的那个学习器性能较优。自

由度为1的卡方检验的临界值当α=0.05时为3.8415，α=0.1时为2.7055。

两学习器分类差别列联表两学习器分类差别列联表两学习器分类差别列联表两学习器分类差别列联表两学习器分类差别列联表

算法比较序值表算法比较序值表算法比较序值表算法比较序值表算法比较序值表

Friedman 检验与Nemenyi 后续检验（多个数据集多个算法）Friedman 检验与Nemenyi 后续检验（多个数据集多个算法）Friedman 检验与Nemenyi 后续检验（多个数据集多个算法）

原理：

在N个数据集上比较k个算法性能，令r

表示第i个算法的平均序值，若不

考虑平分序值的情况，则r

服从正态分布，其均值和方差分别为(k+1)/2和

(k2+1)/12，变量

在k和N都较大时，服从自由度为k-1的卡方分布。变量

服从自由度为k-1和(k-1)(N-1)的F分布。

结论：

对假设”所有算法的性能相同“给定显著度α，当以上F分布变量值小于临

界值时，不能拒绝假设，否则拒绝假设，这时需进行”后续检验”来进一步区

分各算法。常用的有Nemenyi 后续检验，Nemenyi 检验计算出平均序值差

别的临界值域

其中，查表得到常用α的q

值，若两个算法的平均序值之差超出了临界

值域CD, 则以相应的置信度拒绝“两个算法性能相同“这一假设。

根据“算法比较序值表”，以纵轴显示各个算法，横轴显示平均序值，

Friedman 检验图。对每个算法，用一个圆点显示其平均序值，以圆点为中

心的横线段表示临界值域的大小。然后就可从图中观察，若两个算法的横线

段有交叠，则说明这两个算法没有显著差别，否则即说明有显著差别。

Friedman 检验与Nemenyi 后续检验（多个数据集多个算法）

原理：

在N个数据集上比较k个算法性能，令r

表示第i个算法的平均序值，若不

考虑平分序值的情况，则r

服从正态分布，其均值和方差分别为(k+1)/2和

(k2+1)/12，变量

在k和N都较大时，服从自由度为k-1的卡方分布。变量

服从自由度为k-1和(k-1)(N-1)的F分布。

结论：

对假设”所有算法的性能相同“给定显著度α，当以上F分布变量值小于临

界值时，不能拒绝假设，否则拒绝假设，这时需进行”后续检验”来进一步区

分各算法。常用的有Nemenyi 后续检验，Nemenyi 检验计算出平均序值差

别的临界值域

其中，查表得到常用α的q

值，若两个算法的平均序值之差超出了临界

值域CD, 则以相应的置信度拒绝“两个算法性能相同“这一假设。

根据“算法比较序值表”，以纵轴显示各个算法，横轴显示平均序值，

Friedman 检验图。对每个算法，用一个圆点显示其平均序值，以圆点为中

心的横线段表示临界值域的大小。然后就可从图中观察，若两个算法的横线

段有交叠，则说明这两个算法没有显著差别，否则即说明有显著差别。

Friedman 检验与Nemenyi 后续检验（多个数据集多个算法）

原理：

在N个数据集上比较k个算法性能，令r

表示第i个算法的平均序值，若不

考虑平分序值的情况，则r

服从正态分布，其均值和方差分别为(k+1)/2和

(k2+1)/12，变量

在k和N都较大时，服从自由度为k-1的卡方分布。变量

服从自由度为k-1和(k-1)(N-1)的F分布。

结论：

对假设”所有算法的性能相同“给定显著度α，当以上F分布变量值小于临

界值时，不能拒绝假设，否则拒绝假设，这时需进行”后续检验”来进一步区

分各算法。常用的有Nemenyi 后续检验，Nemenyi 检验计算出平均序值差

别的临界值域

其中，查表得到常用α的q

值，若两个算法的平均序值之差超出了临界

值域CD, 则以相应的置信度拒绝“两个算法性能相同“这一假设。

根据“算法比较序值表”，以纵轴显示各个算法，横轴显示平均序值，

Friedman 检验图。对每个算法，用一个圆点显示其平均序值，以圆点为中

心的横线段表示临界值域的大小。然后就可从图中观察，若两个算法的横线

段有交叠，则说明这两个算法没有显著差别，否则即说明有显著差别。

Friedman 检验与Nemenyi 后续检验（多个数据集多个算法）

原理：

在N个数据集上比较k个算法性能，令r

表示第i个算法的平均序值，若不

考虑平分序值的情况，则r

服从正态分布，其均值和方差分别为(k+1)/2和

(k2+1)/12，变量

在k和N都较大时，服从自由度为k-1的卡方分布。变量

服从自由度为k-1和(k-1)(N-1)的F分布。

结论：

对假设”所有算法的性能相同“给定显著度α，当以上F分布变量值小于临

界值时，不能拒绝假设，否则拒绝假设，这时需进行”后续检验”来进一步区

分各算法。常用的有Nemenyi 后续检验，Nemenyi 检验计算出平均序值差

别的临界值域

其中，查表得到常用α的q

值，若两个算法的平均序值之差超出了临界

值域CD, 则以相应的置信度拒绝“两个算法性能相同“这一假设。

根据“算法比较序值表”，以纵轴显示各个算法，横轴显示平均序值，

Friedman 检验图。对每个算法，用一个圆点显示其平均序值，以圆点为中

心的横线段表示临界值域的大小。然后就可从图中观察，若两个算法的横线

段有交叠，则说明这两个算法没有显著差别，否则即说明有显著差别。

Friedman 检验与Nemenyi 后续检验（多个数据集多个算法）

原理：

在N个数据集上比较k个算法性能，令r

表示第i个算法的平均序值，若不

考虑平分序值的情况，则r

服从正态分布，其均值和方差分别为(k+1)/2和

(k2+1)/12，变量

在k和N都较大时，服从自由度为k-1的卡方分布。变量

服从自由度为k-1和(k-1)(N-1)的F分布。

结论：

对假设”所有算法的性能相同“给定显著度α，当以上F分布变量值小于临

界值时，不能拒绝假设，否则拒绝假设，这时需进行”后续检验”来进一步区

分各算法。常用的有Nemenyi 后续检验，Nemenyi 检验计算出平均序值差

别的临界值域

其中，查表得到常用α的q

值，若两个算法的平均序值之差超出了临界

值域CD, 则以相应的置信度拒绝“两个算法性能相同“这一假设。

根据“算法比较序值表”，以纵轴显示各个算法，横轴显示平均序值，

Friedman 检验图。对每个算法，用一个圆点显示其平均序值，以圆点为中

心的横线段表示临界值域的大小。然后就可从图中观察，若两个算法的横线

段有交叠，则说明这两个算法没有显著差别，否则即说明有显著差别。

Friedman 检验图Friedman 检验图Friedman 检验图Friedman 检验图Friedman 检验图

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余1页未读，立即下载

评论收藏

内容反馈

自称为懒人的勤快人

粉丝: 4
资源: 20

《机器学习-周志华》学习笔记

《机器学习(周志华)》学习笔记

周志华《机器学习》学习笔记（大全）

Machine_Learning周志华《机器学习》阅读笔记

《机器学习(周志华)》学习笔记.pdf

周志华《Machine Learning》学习笔记(1)--绪论.md

5.机器学习—神经网络.md

《机器学习》（周志华）章节笔记和课后题

机器学习学习笔记.pdf

机器学习简答题笔记.docx

周志华机器学习视频学习笔记（西瓜书）

周志华《Machine Learning》学习笔记(4)--线性模型.md

机器学习的挑战(周志华)借鉴.ppt

周志华《机器学习》课后习题的编程答案及数据集，纯python实现未使用框架，阅读起来更容易理解算法.zip

机器学习笔记.pdf

machine learning机器学习学习笔记

斯坦福大学机器学习视频

《机器学习》西瓜书手推笔记第9版（可打印）.rar

机器学习笔记 huangwx.rar

机器学习周志华 推导演算1

周志华《机器学习》课后习题个人解答

机器学习周志华课后习题编程题，Python实现

本系列是我学习机器学习过程中的一些总结 主要参考了李航《统计学习方法》、周志华《机器学习》及一些技术博客

Datawhale打卡周志华机器学习第四章

机器学习PPT

电子科技大学研一《机器学习》考试重点笔记.pdf

Datawhale第二次打卡

Logistic回归笔记及代码

周志华-机器学习-西瓜书-1-9章习题解析.docx

最新资源

机器学习周志华推导演算1

本系列是我学习机器学习过程中的一些总结主要参考了李航《统计学习方法》、周志华《机器学习》及一些技术博客