没有合适的资源?快使用搜索试试~ 我知道了~
机器学习原理及应用习题答案
资源推荐
资源详情
资源评论
第一章的题目
填空题
1、常见的机器学习算法有_________、___________、___________(随意列举三
个)
答:逻辑回归、最大熵模型、k-近邻模型、决策树、朴素贝叶斯分类器、支持向
量机、高斯混合模型、隐马尔可夫模型、降维、聚类、深度学习
2、sklearn.model_selection 中的 train_test_split 函数的常见用法为
______,______,______,______ = train_test_split(data,target)(填写测试集和训练
集名称,配套填写,例如 x_train,x_test)
答:x_train x_test y_train y_test
3、根据机器学习模型是否可用于生成新数据,可以将机器学习模型分为
_________和_________。
答:生成模型 判别模型
4、训练一个机器学习模型往往需要对大量的参数进行反复调试或者搜索,这一
过程称为______。其中在训练之前调整设置的参数,称为_________。
答:调参 超参数
5、根据样本集合中是否包含标签以及半包含标签的多少,可以将机器学习分为
____________、____________和______________。
答:监督学习 半监督学习 无监督学习
判断题
1、根据模型预测输出的连续性,可以将机器学习算法适配的问题划分为分类问
题和线性问题。(F)(回归问题)
2、决策树属于典型的生成模型。(F)(判别模型)
3、降维、聚类是无监督学习算法(T)
4、当我们说模型训练结果过拟合的时候,意思是模型的泛化能力很强(F)(很
差)
5、训练误差和泛化误差之间的差异越小,说明模型的泛化性能越好。(T)
选择题
1、以下属于典型的生成模型的是(D)
A、逻辑回归 B、支持向量机 C、k-近邻算法 D、朴素贝叶斯分类器
2、以下属于解决模型欠拟合的方法的是(C)
A、增加训练数据量 B、对模型进行裁剪 C、增加训练过程的迭代次数 D、
正则化
3、构建一个完整的机器学习算法需要三个方面的要素,分别是数据、模型、
(A)。
A、性能度量准则 B、评估 C、验证 D、训练和验证
4、以下属于典型的判别模型的是(B)
A、高斯混合模型 B、逻辑回归 C、隐马尔可夫模型 D、生成对抗网络
5、train_test_split 函数的 test_size 参数规定了测试集占完整数据集的比例,默认
取(B)
A、0.5 B、0.25 C、0.2 D、0.75
第二章
一、填空题
1. 线性回归的目标是求解ω和 b,使得 f(x)与 y 尽可能接近。求解线性回归模型的基本方法是
最小二乘法。
2. 优化目标是让整个样本集合上的预测值与真实值之间的欧氏距离之和最小。
3. 多元线性回归问题中:
ω
=
(
X
T
X)
―
1
X
T
X
当
𝐗
𝐓
𝐗
可逆时,线性回归模型存在唯一解。
4. PR 曲线以精确率为纵坐标,以召回率为横坐标。
5. 在 ROC 曲线与 AUC 曲线中,对于某个二分类分类器来说,输出结果标签(0 还是 1)往往取
决于置信度以及预定的置信度阈值。
二、判断题
1. 逻辑回归是一种广义线性回归,通过回归对数几率的方式将线性回归应用于分类任务。
(✔)
2. 信息论中.熵可以度量随机变量的不确定性。现实世界中.不加约束的事物都会朝着“熵增”
的方向发展,也就是向不确定性增加的方向发展。(✔)
3. 机器学习中描述一个概率分布时,在满足所有约束条件的情况下,熵最小的模型是最好的。
(✖)(熵最大的模型是最好的)
4. 准确率可以判断总的正确率,在样本不平衡的情况下,也能作为很好的指标来衡量结果。
(✖)(虽然准确率可以判断总的正确率,但是在样本不平衡的情况下,并不能作为很好的指
标来衡量结果。)
5. 当 TPR=FPR 为一条斜对角线时,表示预测为正样本的结果一-半是对的,一半是错的,为
随机分类器的预测效果。(✔)
三、简答题
1. 简述按卡姆剃刀原则在线性回归模型简化过程中的应用
答:奥卡姆剃刀原则指出,当模型存在多个解时,选择最简单的那个。因此可以在原始线性
回归模型的基础上增加正则化项目以降低模型的复杂度,使得模型变得简单。
2. 请简述最大熵模型的思路
答:从样本集合使用特征函数 f(x,y)抽取特征,然后希望特征函数 f(x,y)关于经验联合分布
p(x,y)的期望,等于特征函数 f(x,y)关于模型 p(y\x)和经验边缘分布 p(x)的期望。从样本集合使
用特征函数 f(x,y)抽取特征,然后希望特征函数 f(x,y)关于经验联合分布 p(x,y)的期望,等于
特征函数 f(x,y)关于模型 p(y\x)和经验边缘分布 p(x)的期望。
3. 请简述准确率、精确率和召回率的定义
答:准确率是最为常见的指标,即预测正确的结果占总样本的百分比
精确率又叫查准率,精确率表示在所有被预测为正的样本中实际为正的概率
召回率又叫查全率,召回率表示在实际为正的样本中被预测为正样本的概率
4. 请解释混淆矩阵包含的四部分信息:真阴率、假阳率、假阴率、真阳率的概念
答:(1)真阴率(True Negative,TN)表明实际是负样本预测成负样本的样本数。
(2)假阳率(False Positive,FP)表明实际是负样本预测成正样本的样本数。
(3)假阴率(False Negative, FN)表明实际是正样本预测成负样本的样本数。
(4)真阳率(True Positive,TP)表明实际是正样本预测成正样本的样本数。
5. 请说明一般情况下 PR 曲线中置信度阈值、召回率和精确率的变化关系
答:不同的置信度阈值对应着不同的精确率和召回率。一般来说,置信度阈值较低时,大量
样本被预测为正例,所以召回率较高,而精确率较低;置信度阈值较高时,大量样本被预测为负
例,所以召回率较低,而精确率较高。
第三章
一、填空题
剩余13页未读,继续阅读
资源评论
上山砍菜
- 粉丝: 0
- 资源: 225
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功