没有合适的资源?快使用搜索试试~ 我知道了~
机器学习面试题目.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 100 浏览量
2022-06-14
20:12:37
上传
评论
收藏 48KB DOCX 举报
温馨提示
试读
17页
机器学习面试题目.docx机器学习面试题目.docx机器学习面试题目.docx机器学习面试题目.docx机器学习面试题目.docx机器学习面试题目.docx机器学习面试题目.docx机器学习面试题目.docx
资源详情
资源评论
资源推荐
.
.
、有监视学习和无监视学习的区别
有监视学习:对具有标记的训练样本进展学习,以尽可能对训练样本集外的数据进展分类预
测。〔〕
无监视学习:对未标记的样本进展训练学习,比发现这些样本中的构造知识。
、正那么化
正那么化是针对过拟合而提出的,以为在求解模型最优的是一般优化最小的经历风险,现在
在该经历风险上参加模型复杂度这一项〔正那么化项是模型参数向量的 数〕,并使用一个
比率来权衡模型复杂度与以往经历风险的权重,如果模型复杂度越高,构造化的经历风
险会越大,现在的目标就变为了构造经历风险的最优化,可以防止模型训练过度复杂,有效
的降低过拟合的风险。
奥卡姆剃刀原理,能够很好的解释数据并且十分简单才是最好的模型。
过拟合
如果一味的去提高训练数据的预测能力,所选模型的复杂度往往会很高,这种现象称为过拟
合。所表现的就是模型训练时候的误差很小,但在测试的时候误差很大。
产生的原因过拟合原因:
样本数据的问题。
样本数量太少;
抽样方法错误,抽出的样本数据不能有效足够代表业务逻辑或业务场景。比方样本符合正态
分布,却按均分分布抽样,或者样本数据不能代表整体数据的分布;
样本里的噪音数据干扰过大
模型问题
模型复杂度高 、参数太多
决策树模型没有剪枝
权值学习迭代次数足够多拟合了训练数据中的噪声和训练样例中没有代表性
的特征
解决方法
样本数据方面。
增加样本数量,对样本进展降维,添加验证数据
抽样方法要符合业务场景
清洗噪声数据
模型或训练问题
控制模型复杂度,优先选择简单的模型,或者用模型融合技术。
利用先验知识,添加正那么项。 正那么更加容易产生稀疏解、 正那么倾向于让参数
趋向于
、穿插验证
. .word.zl.
.
.
不要过度训练,最优化求解时,收敛之前停顿迭代。
决策树模型没有剪枝
权值衰减
!、泛化能力
泛化能力是指模型对未知数据的预测能力
"、生成模型和判别模型
# 生成模型:由数据学习联合概率分布 $,然后求出条件概率分布 $%作为预测的
模型,即生成模型:$%&#$'#。〔朴素贝叶斯、(〕
生成模型可以复原联合概率分布 )$,并且有较快的学习收敛速度,还可以用于隐变量的
学习
# 判别模型:由数据直接学习决策函数 $&*或者条件概率分布 $%作为预测的模型,
即判别模型。〔+#近邻、决策树、〕
直接面对预测,往往准确率较高,直接对数据在各种程度上的抽象,所以可以简化模型
,、线性分类器与非线性分类器的区别以及优劣
如果模型是参数的线性函数,并且存在线性分类面,那么就是线性分类器,否那么不是。
常见的线性分类器有:贝叶斯分类,单层感知机、线性回归
常见的非线性分类器:决策树、、、多层感知机
#两种都有看线性核还是高斯核
线性分类器速度快、编程方便,但是可能拟合效果不会很好
非线性分类器编程复杂,但是效果拟合能力强
-、特征比数据量还大时,选择什么样的分类器?
线性分类器,因为维度高的时候,数据一般在维度空间里面会比拟稀疏,很有可能线性可分
对于维度很高的特征,你是选择线性还是非线性分类器?
理由同上
对于维度极低的特征,你是选择线性还是非线性分类器?
非线性分类器,因为低维空间可能很多特征都跑到一起了,导致线性不可分
# 如果 .#的数量很大,跟样本数量差不多,这时候选用 #或者是 #/#的
# 如果 .#的数量比拟小,样本数量一般,不算大也不算小,选用 0.#/
1# 如果 .#的数量比拟小,而样本数量很多,需要手工添加一些 *.#变成第一种情况
2、//34565#病态问题
训练完的模型测试样本稍作修改就会得到差异很大的结果,就是病态问题〔这简直是不能用
. .word.zl.
.
.
啊〕
、#和 #正那么的区别,如何选择 #和 #正那么
7/54689':7(:'4/'6/'"" 2"
他们都是可以防止过拟合,降低模型复杂度
#是在 /5#*.45#后面加上 模型参数的 #数〔也就是%:%〕
#是在 /5#*.45#后面加上 模型参数的 #数〔也就是 (:;〕,注意 #数的定义
是 <(:;,在正那么项上没有添加 <#根号是为了更加容易优化
# 会产生稀疏的特征
# 会产生更多地特征但是都会接近于
#会趋向于产生少量的特征,而其他的特征都是 ,而 #会选择更多的特征,这些特征都
会接近于 。#在特征选择时候非常有用,而 #就只是一种规那么化而已。
#求解
最小角回归算法:=#算法
、越小的参数说明模型越简单
过拟合的,拟合会经过曲面的每个点,也就是说在较小的区间里面可能会有较大的曲率,这
里的导数就是很大,线性模型里面的权值就是导数,所以越小的参数说明模型越简单。
、为什么一些机器学习模型需要对数据进展归一化?
7/546':7(:'4/'6/'!""2!-!
归一化化就是要把你需要处理的数据经过处理后〔通过某种算法〕限制在你需要的一定
围内。
〕归一化后加快了梯度下降求最优解的速度。等高线变得显得圆滑,在梯度下降进展求解
时能较快的收敛。如果不做归一化,梯度下降过程容易走之字,很难收敛甚至不能收敛
〕把有量纲表达式变为无量纲表达式# 有可能提高精度。一些分类器需要计算样本之间的
距离〔如欧氏距离〕,例如 88。如果一个特征值域 #围非常大,那么距离计算就主要取
决于这个特征,从而与实际情况相悖〔比方这时实际情况是值域 #围小的特征更重要〕
1# 逻辑回归等模型先验假设数据服从正态分布。
哪些机器学习算法不需要做归一化处理?
概率模型不需要归一化,因为它们不关心变量的值,而是关心变量的分布和变量之间的条件
概率,如决策树、*。而像 6755、76、:755、(、/、88、#之类的最优
化问题就需要归一化。
特征向量的归一化方法
线性函数转换,表达式如下:>&:3/.':/.3/.
对数函数转换,表达式如下:>&/5#:
反余切函数转换 ,表达式如下:>&4:?'@
减去均值,乘以方差:>&:3('#4
标准化与归一化的区别
. .word.zl.
.
.
简单来说,标准化是依照特征矩阵的列处理数据,其通过求 A345#的方法,将样本的特征
值转换到同一量纲下。归一化是依照特征矩阵的行处理数据,其目的在于样本向量在点乘运
算或其他核函数计算相似性时,拥有统一的标准,也就是说都转化为“单位向量〞。规那么
为 /#的归一化公式如下:
1、特征向量的缺失值处理
# 缺失值较多直接将该特征舍弃掉,否那么可能反倒会带入较大的 5,对结果造成不良
影响。
# 缺失值较少其余的特征缺失值都在 B以内,我们可以采取很多的方式来处理C
# 把 88#直接作为一个特征,假设用 #表示;
# 用均值填充;
1# 用随机森林等算法预测填充
随机森林如何处理缺失值〔4D/D(D.75'"'1'65(3534+'〕
方法一〔5.DE:〕简单粗暴,对于训练集同一个 4/#下的数据,如果是分类变量缺失,
用众数补上,如果是连续型变量缺失,用中位数补。
方法二〔*@().〕这个方法计算量大,至于比方法一好坏?不好判断。先用 5.DE:#补
上缺失值,然后构建森林并计算 )5:(>#(:,再回头看缺失值,如果是分类变量,那么
用没有缺失的观测实例的 )5:(>#中的权重进展投票。如果是连续型变量,那么用 )5:(>
矩阵进展加权平均的方法补缺失值。然后迭代 3"#次,这个补缺失值的思想和 88#有些类
似 。
随机森林如何评估特征重要性〔4D/D(D.75'"'1'65(3534+'〕
衡量变量重要性的方法有两种,4#@8@# 和 4#=44.4>:
#4#@8@:对于回归问题,直接使用 (:F*FD作为评判标准,即
当前节点训练集的方差 #减去左节点的方差 *#和右节点的方差 D。
#4#=44.4>:对于一棵树 7:,我们用 #样本可以得到测试误差 ;然后随机
改变 #样本的第 G#列:保持其他列不变,对第 G#列进展随机的上下置换,得到误差 。至
此,我们可以用误差 3误差 #来刻画变量 G#的重要性。根本思想就是,如果一个变量 G#足够
重要,那么改变它会极大的增加测试误差;反之,如果改变它测试误差没有增大,那么说明
该变量不是那么的重要。
、优化 (
使用 +6#树或者 7//#这个树不懂
将所有的观测实例构建成一颗 +6#树,之前每个聚类中心都是需要和每个观测点做依次距离
计算,现在这些聚类中心根据 +6#树只需要计算附近的一个局部区域即可
#初始类簇中心点的选取
+3(00算法选择初始 6#的根本思想就是:初始的聚类中心之间的相互距离要尽可能
的远。
# 从输入的数据点集合中随机选择一个点作为第一个聚类中心
. .word.zl.
剩余16页未读,继续阅读
apple_51426592
- 粉丝: 9507
- 资源: 9659
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 多机调度问题贪心算法:理论探索与实践应用.zip
- 探索tecreate:软件开发的未来之星.zip
- 打标机项目C#源码连接扫码
- 基于SSM的房屋租赁系统的设计与实现
- xyctf:从入门到精通的实用指南.zip
- mmqrcode1714153659780.png
- Screenshot_2024-04-27-06-08-58-486_com.baidu.xin.aiqicha.jpg
- 基于Javaweb+Tomcat+MySQL的大学生公寓管理系统+sql文件.zip
- 实训作业基于javaweb的订单管理系统源码+数据库+实训报告.zip
- 多机调度问题贪心算法基于最小堆和贪心算法求解多机调度问题.zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0