机器学习面精彩试题目.pdf资源-CSDN文库

版权申诉

68 浏览量 2022-06-14 20:11:59 上传评论收藏 975KB PDF 举报

【机器学习面试知识点详解】 1. 有监督学习与无监督学习：有监督学习是一种利用带有标签的训练样本进行学习的方法，目的是对未知数据进行分类或预测，如逻辑回归（LR）、支持向量机（SVM）、反向传播（BP）、随机森林（RF）和梯度提升决策树（GBDT）。无监督学习则是对未标记数据进行学习，通过发现数据内部的结构或模式，例如K-means聚类和深度学习（DL）。 2. 正则化：正则化是防止过拟合的一种策略，它在经验风险最小化的基础上添加了一个模型复杂度的惩罚项，这个惩罚项通常与模型参数的范数有关。正则化率用于平衡模型复杂度和经验风险。过高复杂度可能导致过拟合，即模型在训练集上表现优秀，但在测试集上表现较差。过拟合的原因包括样本不足、抽样不合理、模型过于复杂、噪声数据过多等。解决过拟合的方法包括增加样本、降维、使用验证集、模型剪枝、正则化（如L1和L2正则化）以及早停策略。 3. 泛化能力：泛化能力是指模型对未见过的数据进行预测的能力。一个优秀的模型应该具有良好的泛化能力，能够在新数据上保持稳定的表现。 4. 生成模型与判别模型：生成模型学习数据的联合概率分布P(X,Y)，然后推导出条件概率P(Y|X)，如朴素贝叶斯和K-means。生成模型可以揭示数据的潜在结构，但可能收敛速度较慢。判别模型直接学习决策函数Y=f(X)或条件概率P(Y|X)，如K近邻、决策树和SVM，其通常预测精度较高，但可能忽略数据的内在结构。 5. 线性分类器与非线性分类器：线性分类器如逻辑回归、贝叶斯分类、单层感知机等适用于线性可分问题，速度较快，但可能无法处理复杂的非线性关系。非线性分类器如决策树、随机森林、梯度提升决策树和多层感知机可以处理非线性问题，但计算成本相对较高。 6. 大量特征与分类器选择：当特征数量远大于样本数量时，选择线性分类器如LR，因为高维数据往往在低维子空间中线性可分。反之，如果特征数量较少，可能需要非线性分类器以应对可能的非线性关系。 7. 病态问题：病态问题是指模型对微小输入变化非常敏感，导致预测结果大幅度变动。这可能表明模型过复杂或欠拟合，需要调整模型或采用正则化等方法。 8. L1与L2正则化： L1正则化通过L1范数（绝对值之和）使模型参数稀疏，适合特征选择。L2正则化通过L2范数（平方和的平方根）使参数接近于零，但不为零，适合特征平滑。选择哪种正则化取决于是否需要进行特征选择或保持所有特征。 9. 小特征与大量样本：对于特征数量较少的情况，选择非线性分类器以处理可能存在的非线性关系。对于特征数量较大而样本数量接近的场景，线性模型如LR或线性核的SVM是合适的选择。机器学习面试涉及的知识点广泛，涵盖监督与无监督学习、正则化、模型泛化、模型选择、特征处理等多个方面，理解并掌握这些概念对于面试和实际项目工作至关重要。

资源详情

资源评论

1、有监督学习和无监督学习的区别

有监督学习：对具有标记的训练样本进行学习，以尽可能对训练样本集外的数据进行分类预

测。（LR,SVM,BP,RF,GBDT）

无监督学习：对未标记的样本进行训练学习，比发现这些样本中的结构知识。(KMeans,DL)

2、正则化

正则化是针对过拟合而提出的，以为在求解模型最优的是一般优化最小的经验风险，现在在

该经验风险上加入模型复杂度这一项（正则化项是模型参数向量的数），并使用一个 rate 比

率来权衡模型复杂度与以往经验风险的权重，如果模型复杂度越高，结构化的经验风险会越

大，现在的目标就变为了结构经验风险的最优化，可以防止模型训练过度复杂，有效的降低

过拟合的风险。

奥卡姆剃刀原理，能够很好的解释已知数据并且十分简单才是最好的模型。

过拟合

如果一味的去提高训练数据的预测能力，所选模型的复杂度往往会很高，这种现象称为过拟

合。所表现的就是模型训练时候的误差很小，但在测试的时候误差很大。

产生的原因过拟合原因：

1. 样本数据的问题。

样本数量太少；

抽样方法错误，抽出的样本数据不能有效足够代表业务逻辑或业务场景。比如样本符合正态

分布，却按均分分布抽样，或者样本数据不能代表整体数据的分布；

样本里的噪音数据干扰过大

2. 模型问题

模型复杂度高、参数太多

决策树模型没有剪枝

权值学习迭代次数足够多(Overtraining),拟合了训练数据中的噪声和训练样例中没有代表性

的特征.

解决方法

1. 样本数据方面。

增加样本数量，对样本进行降维，添加验证数据

抽样方法要符合业务场景

清洗噪声数据

2. 模型或训练问题

控制模型复杂度，优先选择简单的模型，或者用模型融合技术。

利用先验知识，添加正则项。L1 正则更加容易产生稀疏解、L2 正则倾向于让参数 w 趋向于

4、交叉验证

不要过度训练，最优化求解时，收敛之前停止迭代。

决策树模型没有剪枝

权值衰减

5、泛化能力

泛化能力是指模型对未知数据的预测能力

6、生成模型和判别模型

1. 生成模型：由数据学习联合概率分布P(X,Y)，然后求出条件概率分布 P(Y|X)作为预测的模

型，即生成模型：P(Y|X)= P(X,Y)/ P(X)。（朴素贝叶斯、Kmeans）

生成模型可以还原联合概率分布 p(X,Y)，并且有较快的学习收敛速度，还可以用于隐变量的

学习

2. 判别模型：由数据直接学习决策函数Y=f(X)或者条件概率分布 P(Y|X)作为预测的模型，即

判别模型。（k 近邻、决策树、SVM）

直接面对预测，往往准确率较高，直接对数据在各种程度上的抽象，所以可以简化模型

7、线性分类器与非线性分类器的区别以及优劣

如果模型是参数的线性函数，并且存在线性分类面，那么就是线性分类器，否则不是。

常见的线性分类器有：LR,贝叶斯分类，单层感知机、线性回归

常见的非线性分类器：决策树、RF、GBDT、多层感知机

SVM 两种都有(看线性核还是高斯核)

线性分类器速度快、编程方便，但是可能拟合效果不会很好

非线性分类器编程复杂，但是效果拟合能力强

8、特征比数据量还大时，选择什么样的分类器？

线性分类器，因为维度高的时候，数据一般在维度空间里面会比较稀疏，很有可能线性可分

对于维度很高的特征，你是选择线性还是非线性分类器？

理由同上

对于维度极低的特征，你是选择线性还是非线性分类器？

非线性分类器，因为低维空间可能很多特征都跑到一起了，导致线性不可分

1. 如果 Feature 的数量很大，跟样本数量差不多，这时候选用 LR 或者是 Linear Kernel 的 SVM

2. 如果 Feature 的数量比较小，样本数量一般，不算大也不算小，选用 SVM+Gaussian Kernel

3. 如果 Feature 的数量比较小，而样本数量很多，需要手工添加一些 feature 变成第一种情

况

9、ill-condition 病态问题

训练完的模型测试样本稍作修改就会得到差别很大的结果，就是病态问题（这简直是不能用

啊）

10、L1 和 L2 正则的区别，如何选择 L1 和 L2 正则

blog.csdn.NET/xbmatrix/article/details/61624196

他们都是可以防止过拟合，降低模型复杂度

L1 是在 loss function 后面加上模型参数的 1 数（也就是|xi|）

L2 是在 loss function 后面加上模型参数的 2 数（也就是 sigma(xi^2)），注意 L2 数的定义是

sqrt(sigma(xi^2))，在正则项上没有添加 sqrt 根号是为了更加容易优化

L1 会产生稀疏的特征

L2 会产生更多地特征但是都会接近于 0

L1 会趋向于产生少量的特征，而其他的特征都是 0，而 L2 会选择更多的特征，这些特征都

会接近于 0。L1 在特征选择时候非常有用，而 L2 就只是一种规则化而已。

L1 求解

最小角回归算法：LARS 算法

11、越小的参数说明模型越简单

过拟合的，拟合会经过曲面的每个点，也就是说在较小的区间里面可能会有较大的曲率，这

里的导数就是很大，线性模型里面的权值就是导数，所以越小的参数说明模型越简单。

12、为什么一些机器学习模型需要对数据进行归一化？

blog.csdn.net/xbmatrix/article/details/56695825

归一化化就是要把你需要处理的数据经过处理后（通过某种算法）限制在你需要的一定围。

1）归一化后加快了梯度下降求最优解的速度。等高线变得显得圆滑，在梯度下降进行求解

时能较快的收敛。如果不做归一化，梯度下降过程容易走之字，很难收敛甚至不能收敛

2）把有量纲表达式变为无量纲表达式, 有可能提高精度。一些分类器需要计算样本之间的

距离（如欧氏距离），例如 KNN。如果一个特征值域围非常大，那么距离计算就主要取决于

这个特征，从而与实际情况相悖（比如这时实际情况是值域围小的特征更重要）

3) 逻辑回归等模型先验假设数据服从正态分布。

哪些机器学习算法不需要做归一化处理？

概率模型不需要归一化，因为它们不关心变量的值，而是关心变量的分布和变量之间的条件

概率，如决策树、rf。而像 adaboost、gbdt、xgboost、svm、lr、KNN、KMeans 之类的最优

化问题就需要归一化。

特征向量的归一化方法

线性函数转换，表达式如下：y=(x-MinValue)/(MaxValue-MinValue)

对数函数转换，表达式如下：y=log10 (x)

反余切函数转换，表达式如下：y=arctan(x)*2/PI

减去均值，乘以方差：y=(x-means)/ variance

标准化与归一化的区别

简单来说，标准化是依照特征矩阵的列处理数据，其通过求 z-score 的方法，将样本的特征

值转换到同一量纲下。归一化是依照特征矩阵的行处理数据，其目的在于样本向量在点乘运

算或其他核函数计算相似性时，拥有统一的标准，也就是说都转化为“单位向量”。规则为

剩余16页未读，继续阅读

评论收藏

内容反馈

版权申诉

机器学习面精彩试题目.pdf

评论0

最新资源

机器学习面精彩试题目.pdf

评论0

最新资源

相关推荐

机器学习面精彩试题目.docx

astrologist-mona-megistus:关于机器学习的精彩笔记

无领导小组面精彩试题目汇总情况.pdf

物联网测精彩试题目单选题.pdf

基于机器学习的羽毛球赛事视频精彩片段提取方法.docx

《机器学习》实验教学大纲.pdf

机器学习-试题-2014.pdf

机器学习算法与应用.pdf

机器学习-决策树 -ppt.pdf

南大出品 机器学习基础入门教程 机器学习导论 第10章 降维与度量学习 共23页.pdf

2019年无领导小组面精彩试题目汇总情况.pdf

巧妙提问 深度学习 演绎精彩课堂.pdf

小学生垃圾分类宣传学习心得体会精彩范文五篇.pdf

公务员面试题目以及网友的精彩回答借鉴.pdf

如何通俗的解释机器学习的10大算法？.pdf

使用机器学习检测 SQL 注入攻击.pdf

机器学习的数学基础 machine learning.pdf

机器学习小测及答案.pdf

亚马逊大规模应用机器学习的MLOps实践.pdf

Code-Sleep-Python:Python 中的精彩项目 - 机器学习应用程序、游戏、桌面应用程序都在 Python 中

awesome-optimal-transport:一系列有关最佳运输及其应用的精彩论文和超酷资源！ 您会注意到，该列表当前主要集中在针对机器学习主题的最佳传输上

企业职工学习科学发展观精彩演讲稿.pdf

数学“说理”成就学生深度学习之精彩.pdf

一篇吴恩达精彩的机器学习常见算法分类汇总大全

南大出品 机器学习基础入门教程 机器学习导论 第01章 绪论 共39页.pdf

山东大学2020年1月机器学习期末考试题目整理.pdf

机器学习理论及应用.pdf

解决几乎任何机器学习问题路径.pdf

机器学习30讲.pdf

南大出品机器学习基础入门教程机器学习导论第10章降维与度量学习共23页.pdf

巧妙提问深度学习演绎精彩课堂.pdf

awesome-optimal-transport:一系列有关最佳运输及其应用的精彩论文和超酷资源！您会注意到，该列表当前主要集中在针对机器学习主题的最佳传输上

南大出品机器学习基础入门教程机器学习导论第01章绪论共39页.pdf