---
title: 机器学习-CH2-模型评估与选择
date: 2020-11-07 22:15:45
categories:
- 计算机科学
tags:
- 机器学习
mp3:
cover: img/machinelearning.jpg
---
## 一、经验误差与过拟合
1. 错误率:E=a/m
2. 误差:样本真实输出与预测输出之间的差异
a.训练误差 b.测试误差 c.泛化误差
3. 注:努力使经验误差最小化;
4. 过拟合: 将训练样本的特点当作所有样本的一般性质。
5. 欠拟合:队训练样本的一般性质尚未学好。
## 二、评估方法
1. 评估方向:泛化性能、时间开销、存储开销、可解释性等。
2. 留出法:直接将数据集划分为两个互斥集合;两个集合尽可能保持数分布的一致性;随即划分、重复实验取均值;训练/测试=2:1 ~ 4:1
3. 交叉验证法:将数据划分为K个大小相似的互斥子集,每次使用k-1个子集作为训练集,余下的作为测试集,最终得到k个结果的均值,k常取:10;
4. 自助法:假设给定的数据集包含d个样本。该数据集有放回地抽样m次,产生m个样本的训练集。这样原数据样本中的某些样本很可能在该样本集中出现多次。没有进入该训练集的样本最终形成检验集(测试集);
5. 注:数据较小使用自助法,数据量足够使用留出法和交叉验证法;
## 三、性能度量
1. 性能度量是衡量模型泛化能力的评价标准;
2. 回归:均方误差
![在这里插入图片描述](https://