没有合适的资源?快使用搜索试试~ 我知道了~
机器学习基础知识点总计,面试知识点,机器学习面经
资源详情
资源评论
资源推荐
机器学习⾯试总结
计算学习理论
1. 可能近似正确(Probably Approximately Correct,PAC)学习理论.该学习算法能够在多
项式时间内从合理数量的训 练数据中学习到一个近似正确的假设
2. 没有免费午餐定理,不存在某种算法对所有问题(有限的搜索空间内)都有效,不能脱离具
体问题来谈论算法的优劣,任何算法都有局限性.必须要“具体问 题具体分析。
3. 奥卡姆剃刀,简单的模型泛化能力更好.如果有两个性能相近 的模型,我们应该选择更简
单的模型
4. 丑小鸭定理,为世界上不存在相似性的客观标准,一切相似性的标准都是主观的。
过拟合与欠拟合
过拟合
根据大数定理可知,当训练集大小 |𝒟| 趋向于无穷大时,经验风险就趋向于期望风险。然而通常
情况下,我们无法获取无限的训练样本,并且训练样本往往是真实数据的一个很小的子集或者包
含一定的噪声数据,不能很好地反映全部数据的真实分布。经验风险最小化原则很容易导致模型
在训练集上错误率很低,但是在未知数据上错误率很高.这就是所谓的过拟合(Overfitting)
原因
过拟合问题往往是由于训练数据少和噪声以及模型能力强等原因造成的。本质上:算法从训练集
的统计噪声中获取了信息并表达在模型结构的参数中。
解决方法
数据上:加数据,数据增强,扩大样本集,获得更多有效特征,减少噪声影响。
模型上:降低模型复杂度。使用小模型,减少网络层数,神经元个数等 ,Dropout
训练上:Early stopping
正则化:L1和L2正则化,标准化(BN)
集成学习:集成多个模型,降低单一模型过拟合风险
为 了 解 决 过 拟 合 问 题 , 一 般 在 经 验 风 险 最 小 化 的 基 础 上 再 引 入 参 数 的 正 则 化
(Regularization)来限制模型能力,使其不要过度地最小化经验风险。或者使用提前停止训练
方法。针对梯度下降的优化算法,除了加正则化项之外,还可以通过提前停止来防止过拟合。如
果在验证集上的错误率不再下降,就停止迭代.这种策略叫提前停止。
正则化项用来减少参数空间,避免过拟合。ℓ1 范数的引入通常会使得参数有一定稀疏性,因此
在很多算法中也经常使用.从贝叶斯学习的角度来讲正则化是引入了参数的先验分布,使其不完
全依赖训练数据。
欠拟合
欠拟合(Underfitting),即模型不能很好地拟合训练数据,在训练集,测试集上的错误率都比
较高.欠拟合一般是由于模型能力不足造成的。
原因
欠拟合往往因为特征不足或者现有特征与样本标签的相关性不强。
解决方法
添加新特征。
增加模型复杂度。
减少正则化系数。
偏差与方差
偏差(Bias)是指一个模型在不同训练集(同一数据集的不同次采样)上的平均性能和真实结果的
偏离程度,可以用来衡量一个模型的拟合能力。
方差(Variance)是指一个模型在不同训练集上的差异,刻画了数据扰动造成的影响。可以用
来衡量一个模型是否容易过拟合。
噪声(Noise)是当前学习任务上任何学习算法所能达到的期望泛化误差的下界即表示了任务本身
的难度(任何算法误差都不可能低于该噪声值)。
泛化误差可以分解为偏差和方差和噪声之和。
泛化性能是由算法的学习能力,数据的充分性,任务本身的难度共同决定的。
方差一般会随着训练样本的增加而减少.随着模型复杂度的增加,模型的拟合能力变强,偏差减
少而方差增大,从而导致过拟合。
当一个模型在训练集上的错误率比较高时,说明模型的拟合能力不够,偏差比较高.这种情况可
以通过增加数据特征、提高模型复杂度、 减小正则化系数等操作来改进.当模型在训练集上的
错误率比较低,但验证集上 的错误率比较高时,说明模型过拟合,方差比较高.这种情况可以
通过降低模型 复杂度、加大正则化系数、引入先验等方法来缓解.此外,还有一种有效降低方
差 的方法为集成模型,即通过多个高方差模型的平均来降低方差.
残差是观察值与模型估计值之间的差。
误差是观察值与真实值之间的差。
最大似然估计与贝叶斯估计
估计类条件概率一种常见策略是假定其符合某种确定的概率分布形式,在基于训练样本对概率分
布的参数进行估计。事实上,概率模型的训练过程就是参数估计过程。频率派认为参数虽然未知
但是客观存在的固定值,可通过优化似然函数等准则来确定参数值;贝叶斯派认为参数是未观察
的随机变量,本身有分布,故假定参数服从一个先验分布,然后基于观测到的数据来计算参数的
后验分布。
极大似然估计
假设样本数据由真实数据分布p_data(x)生成。最大似然可以看作使模型分布p_model(x;θ)尽
可能和经验分布 相匹配的尝试。
贝叶斯决策论
贝叶斯估计
频率派认为真实参数θ是未知的定值,贝叶斯派认为参数是随机变量。根据已知知识表示θ的先
验分布,根据数据集计算后验分布。
贝叶斯估计与最大似然估计有两点重要区别:一,不像最大似然方法预测使用θ的点估计,贝叶
斯方法使用θ的全分布;二,贝叶斯先验分布,会使概率质量密度朝参数空间中偏好先验的区域
偏移。
最大后验点估计
原则上应该使用θ的完整后验分布进行预测。但后验计算复杂,点估计提供了一个可行解。MAP
估计选择后验概率组大的点。
⽣成式模型是直接对联合概率分布P(X,Y)进⾏建模
判别式模型是直接对条件概率分布P(Y|X)进⾏建模
特征工程与特征选择
机器学习处理流程
问题建模->数据探索->特征工程->模型训练->模型融合
特征工程
特征工程是对原始数据进行一系列的处理,旨在去除原始数据中杂质和冗余,设计更加高效的特
征以刻画求解的问题与预测模型之间的关系。
常用数据类型:
1)结构化数据:可看作数据库中一张表,每列有明确定义,包含数值型和类别型两种
2)非结构化数据:包含文本,图像,音频等,其包含信息无法用一个简单数值表示。
1. 数值型特征
特征归一化(normalization)是在数值类型的特征上做的,为了消除数据特征之间的量纲影
响,需要对特征进行归一化处理,使得各指标处于同一数量级,让他们之间具有可比性。在
实际应用中,通过梯度下降法求解的模型通常需要归一化。之所以要归一化是因为在更新参
数是,不同特征的范围不同,参数更新速度也会不同,归一化后会更加容易找到最优解。
a. 线性函数归一化(Max-Min Scaling)。对原始数据进行线性变化,使结果映射到[0,1]的范
围,实现对原始数据的等比缩放。
X 为原始数据
b. 零均值归一化(Z-Score Normalization)将原始数据映射到均值为0,标准差为1的分布
上。假设原始特征均值为μ,标准差为σ,则归一化公式为
归一化与标准化
μ
σ
a. 所谓“归一”,就是把数据归到[0,1]或[a,b]这个区间内。归一化会改变原始数据的原始
距离,分布和信息,标准化不会。
常用的方法有: min-max归一化y=(x-min)/(max-min)
b. 所谓“标准”,就是标准正态分布,把数据转换成标准正态分布。
常用的方法有:z-score标准化,即零-均值标准化,y=(x-μ)/σ
归一化与标准化使用场景:
对输出范围有要求,用归一化
数据较为稳定,不存在极端的极值,用归一化
数据存在异常值和较多噪声,用标准化
svm,knn,pca等都需要归一化或标准化
2. 类别型特征
类别型特征指只在有限选项内取值的特征。类别特征原始输入通常是字符串,除了决策树等
少数模型可直接处理字符串形式的输入,其他大多数模型需要对类别型转换成数值型特征才
能正确工作。
a. 序号编码。 序号编码通常用于处理类别间具有大小关系的数据。序号编码会按照大小关
系对类别特征赋予一个数值ID,转换后依然保留大小关系
b.独热编码。通常用于处理类别间不具有大小关系的特征。当类别取值较多时考虑使用稀疏
向量来节省空间;配合特征选择来降低维度。
c.二进制编码。先用序号编码给每个类别赋一个类别ID,后将ID对应的二进制编码作为结果
d.其他编码...
3. 组合特征
为提高复杂关系的拟合能力,在特征工程中经常会把一阶离散特征两两组合,构成高阶组合
特征。当类别数较多时往往考虑降维降低复杂度。
a. 数值特征的变化和组合
特征的线性组合仅适用于决策树以及基于决策树的集成学习算法,因为树模型不擅长捕
获不同特征之间的相关性。
常用数值特征变换和组合:
1)多项式特征:x1 * x1, x1*x2, y = w1 * x1 + w2 * x2 + w3 * x1 * x2
2)比例特征:x1/x2
3)绝对值
4)max(x1, x2), min(x1, x2), x1 or x2
5) 分桶离散化:将连续数值特征划分到不同桶里
b. 类别特征与数值特征的组合
1)中位数,众数,最⼩/⼤值,标准差,⽅差,频数
c. 独热⽮量的逻辑拼接
sex: male and age: 18
4. 文本类型
a. 词袋模型。将每篇文章看作一袋子词,忽略词出现的顺序。将文本以词为单位分开,将
每篇文章表示成一个长向量,向量每一维表示一个单词,该维的权值反应该词在原文中
剩余28页未读,继续阅读
siyan985
- 粉丝: 87
- 资源: 4
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 农村信用社联合社计算机信息系统投产与变更管理办.docx
- 农村信用社联合社计算机信息系统数据管理办法.docx
- 利用SPSS作临床效度分析线上计算网站介绍-医学研究部统计谘.(医学PPT课件).ppt
- 利用Zabbix监控mysqldump定时备份数据库状态.docx
- 利用计算机解决问题的基本过程.doc
- 化工铁路通信工程总结.doc
- 北京大学网络教育软件工程作业.docx
- 医药公司(连锁店)计算机操作规程未新系统的自行按照旧制修改-新系统过制的编号加修模版.doc
- 医药公司(连锁店)计算机系统操作规程模版.doc
- 医药连锁门店计算机系统的操作和管理程序未新系统的自行按照旧制修改-新系统过制的编号加修模版.docx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0