【免费】作业答案合集fromcsdn1资源-CSDN文库

机器学习

需积分: 0 117 浏览量 2022-08-03 13:13:31 上传评论 1 收藏 1.29MB PDF 举报

资源详情

资源评论

资源推荐

机器学习 (周志华西瓜书) 参考答案总目录

http://blog.csdn.net/icefire_tyh/article/details/52064910

假设数据集有 n 种属性，第 i 个属性可能的取值有种，加上该属性的泛化取值 (*)，所以可能的假设有。再用空集表示没有正例，假设空间中一共

种假设。

现实问题中常面临很大的假设空间，我们可以寻找一个与训练集一致的假设集合，称之为版本空间。版本空间从假设空间剔除了与正例不一致和与反例一致的假

设，它可以看成是对正例的最大泛化。

版本空间的可以通过搜索假设空间来得到，这样需要遍历完整的假设空间。如果数据集中有正例，则可以先对一个正例进行最大泛化，得到个假设，然后再对

这些假设进行剔除操作，可以适当精简计算量。

西瓜数据集（精简）

编号色泽根蒂敲声好瓜

1 青绿蜷缩浊响是

2 乌黑稍蜷沉闷否

数据集有 3 个属性，每个属性 2 种取值，一共种假设，分别为

1. 色泽 = 青绿根蒂 = 蜷缩敲声 = 浊响

2. 色泽 = 青绿根蒂 = 蜷缩敲声 = 沉闷

3. 色泽 = 青绿根蒂 = 稍蜷敲声 = 浊响

4. 色泽 = 青绿根蒂 = 稍蜷敲声 = 沉闷

5. 色泽 = 乌黑根蒂 = 蜷缩敲声 = 浊响

6. 色泽 = 乌黑根蒂 = 蜷缩敲声 = 沉闷

7. 色泽 = 乌黑根蒂 = 稍蜷敲声 = 浊响

8. 色泽 = 乌黑根蒂 = 稍蜷敲声 = 沉闷

9. 色泽 = 青绿根蒂 = 蜷缩敲声 =*

10. 色泽 = 青绿根蒂 = 稍蜷敲声 =*

11. 色泽 = 乌黑根蒂 = 蜷缩敲声 =*

12. 色泽 = 乌黑根蒂 = 稍蜷敲声 =*

13. 色泽 = 青绿根蒂 =* 敲声 = 浊响

14. 色泽 = 青绿根蒂 =* 敲声 = 沉闷

15. 色泽 = 乌黑根蒂 =* 敲声 = 浊响

16. 色泽 = 乌黑根蒂 =* 敲声 = 沉闷

17. 色泽 =* 根蒂 = 蜷缩敲声 = 浊响

18. 色泽 =* 根蒂 = 蜷缩敲声 = 沉闷

19. 色泽 =* 根蒂 = 稍蜷敲声 = 浊响

20. 色泽 =* 根蒂 = 稍蜷敲声 = 沉闷

21. 色泽 = 青绿根蒂 =* 敲声 =*

22. 色泽 = 乌黑根蒂 =* 敲声 =*

23. 色泽 =* 根蒂 = 蜷缩敲声 =*

机器学习 (周志华) 参考答案第一章绪论

1. 表 1.1 中若只包含编号为 1，4 的两个样例，试给出相应的版本空间。

假设空间指的是问题所有假设组成的空间，我们可以把学习过程看作是在假设空间中搜索的过程，搜索目标是寻找与训练集“匹配”的假设。

( + 1)

∏

( + 1) + 1

∏

3 ∗ 3 ∗ 3 + 1 = 28

24. 色泽 =* 根蒂 = 稍蜷敲声 =*

25. 色泽 =* 根蒂 =* 敲声 = 浊响

26. 色泽 =* 根蒂 =* 敲声 = 沉闷

27. 色泽 =* 根蒂 =* 敲声 =*

28. 空集 Ø

编号 1 的数据可以删除 (不包含数据 1)

编号 1 的数据可以删除 (包含了数据 2)

所以版本空间为:

1. 色泽 = 青绿根蒂 = 蜷缩敲声 = 浊响

9. 色泽 = 青绿根蒂 = 蜷缩敲声 =*

13. 色泽 = 青绿根蒂 =* 敲声 = 浊响

17. 色泽 =* 根蒂 = 蜷缩敲声 = 浊响

21. 色泽 = 青绿根蒂 =* 敲声 =*

23. 色泽 =* 根蒂 = 蜷缩敲声 =*

25. 色泽 =* 根蒂 =* 敲声 = 浊响

一般情况下版本空间是正例的泛化，但由于数据集中只有 1 个正例，所以在版本空间中依然包含了这个样本的假设 (假设 1)。

http://blog.csdn.net/icefire_tyh/article/details/52065626

通常认为两个数据的属性越相近，则更倾向于将他们分为同一类。若相同属性出现了两种不同的分类，则认为它属于与他最临近几个数据的属性。也可以考虑同

时去掉所有具有相同属性而不同分类的数据，留下的数据就是没误差的数据，但是可能会丢失部分信息。

还是考虑二分类问题，NFL 首先要保证真是目标函数 f 均匀分布，对于有 X 个样本的二分类问题，显然 f 共有种情况。其中一半是与假设一致的，也就

。

此时，

应该是个常数，隐含的条件就该是 (一个比较合理的充分条件) 。如果不满足， NFL

应该就不成立了 (或者不那么容易证明)。

1. 最常见的，消息推送，比如某东经常说某些商品我可能会感兴趣，然而并没有。

2. 网站相关度排行，通过点击量，网页内容进行综合分析。

3. 图片搜索，现在大部分还是通过标签来搜索，不过基于像素的搜索也总会有的吧。

2 − 8

，

10 − 12

，

14 − 16

，

18 − 20

，

2. 与使用单个合取式来进行假设表示相比，使用 “析合范式” 将使得假设空间具有更强的表示能力。若使用最多

包含 k 个合取式的析合范式来表达 1.1 的西瓜分类问题的假设空间，试估算有多少种可能的假设。

3. 若数据包含噪声，则假设空间中可能不存在与所有训练样本都一致的假设。在此情形下，试设计一种归纳偏好用

于假设选择

4. 本章 1.4 节在论述 “没有免费的午餐” 定理时，默认使用了 “分类错误率” 作为性能度量来对分类器进行评

估。若换用其他性能度量 , 试证明没有免费的午餐” 定理仍成立

(

) =

(

)) = 0.5

(

)) = 0.5 ∗ ∗ (

(

) =

(

)) +

(

) ≠

(

)))

∑

(

) =

(

)) +

(

) ≠

(

))

(0,0) =

(1,1),

(1,0) =

(0,1)

5. 试述机器学习在互联网搜索的哪些环节起什么作用

机器学习 (周志华) 参考答案第二章模型评估与选择

机器学习 (周志华西瓜书) 参考答案总目录

http://blog.csdn.net/icefire_tyh/article/details/52064910

1. 数据集包含 1000 个样本，其中 500 个正例，500 个反例，将其划分为包含 70% 样本的训练集和

30% 样本的测试集用于留出法评估，试估算共有多少种划分方式。

一个组合问题，从正反例中分别选出正反例用于留出法评估，所以可能取法应该是种。

2. 数据集包含 100 个样本，其中正反例各一半，假定学习算法所产生的模型是将新样本预测为训练样本

数较多的类别（训练样本数相同时进行随机猜测），试给出用 10 折交叉验证法和留一法分别对错误率进

行评估所得的结果。

10 折交叉检验：由于每次训练样本中正反例数目一样，所以讲结果判断为正反例的概率也是一样的，所以错误率的期望是 %。

留一法：如果留下的是正例，训练样本中反例的数目比正例多一个，所以留出的样本会被判断是反例；同理，留出的是反例，则会被判断成正例，

所以错误率是 %。

3. 若学习器 A 的 F1 值比学习器 B 高，试析 A 的 BEP 值是否也比 B 高。

F1 值的大小与 BEP 值并没有明确的关系。

两个分类器的值得大小与他们的 BEP 值大小并没有明确的关系 (没去找)

这道题这里用反推，设计两个 BEP 值相同的分类器，如果他们的值不一样，那么这道题的结论就是否定的

再加点我看了评论后的疑惑：

BEP 值就是值吗？

BEP 值是在 P=R 时取到的，也就是 BEP=P=R。如果在计算 F 时也要定义 P=R，那么和将会恒等于 BEP，那么 P,R,F 在这里有什么意义

呢？

这里分两种情况：

第一就是我的理解，在计算 F1 时就是按照分类器真实的分类结果来计算 P,R，再根据 PR 计算 F1。当这个分类器正好 P=R 时，有

P=R=BEP=F1。否则 BEP 的计算不能用当前的 PR，而是通过一步一步尝试到查准率 = 查全率时，P’=R’=BEP。

第二种就是不存在我下面假设的分类器，分类器始终会在 P=R 的位置进行截断 (截断指的是分类器将所有样本按分为正例的可能性排序后，选择

某个位置。这个位置前面分类为正，后面分类为负)。但是这个可能吗？这种情况下恒成立，分类器的评价本质将会变成了样

本的正例可能性排序，而不是最终的样本划分结果。

分类器将所有训练样本按自己认为是正例的概率排序，排在越前面分类器更可能将它判断为正例。按顺序逐个把样本标记为正，当查准率与查全率

相等时， = 查准率 = 查全率。当然分类器的真实输出是在这个序列中的选择一个位置，前面的标记为正，后面的标记为负，这时的查准率

与查全率用来计算值。可以看出有同样的 BEP 值的两个分类器在不同位置截断可能有不同的值，所以值高不一定值也高。

比如：

1/+ 2/+ 3/+ 4/+ 5/+ 6/- 7/- 8/- 9/- 10/-

1/+ 2/+ 3/+ 4/+ 6/- 5/- 7/- 8/- 9/- 10/-

1/+ 2/+ 3/+ 4/+ 6/+ 5/- 7/- 8/- 9/- 10/-

第一行是真实的测试样本编号与分类，第二三行是两个分类器对所有样本按为正例可能性的排序，以及判断的结果。显然两个分类器有相同的

BEP 值，但是他们的值一个是，一个是。

4. 试述真正例率（TPR）、假正例率（FPR）与查准率（P）、查全率（R）之间的联系。

查全率: 真实正例被预测为正例的比例

真正例率: 真实正例被预测为正例的比例

显然查全率与真正例率是相等的。

查准率: 预测为正例的实例中真实正例的比例

假正例率: 真实反例被预测为正例的比例

两者并没有直接的数值关系。

500 150

(

150

500

)

100

= =

BEP

0.89 0.8

应的面积是。计算出总面积后，由于图的坐标是归一化的，所以总面积要除以一开始放大的倍数，也就是。

6. 试述错误率与 ROC 曲线之间的关系

曲线每个点对应了一个与，此时对应了一个错误率。

学习器会选择错误率最小的位置作为截断点。

7. 试证明任意一条 ROC 曲线都有一条代价曲线与之对应，反之亦然。

由定义可以知道与都是由上升到，那么则是由下降到。

每条曲线都会对应一条代价曲线，由于第一条代价线段的是，最后是 ,

所有代价线段总会有一块公共区域，这个区域就是期望总体代价，而这块区域的边界就是代价曲线，且肯定从到。

在有限个样本情况下，是一条折线，此时根据代价曲线无法还原曲线。但若是理论上有无限个样本，是一条连续的折线，代价

曲线也是连续的折线，每个点的切线可以求出与，从而得到唯一的曲线。

8.Min-Max 规范化与 z-score 规范化如下所示。试析二者的优缺点。

规范化方法简单，而且保证规范化后所有元素都是正的，每当有新的元素进来，只有在该元素大于最大值或者小于最小值时才要重

新计算全部元素。但是若存在一个极大 (小) 的元素，会导致其他元素变的非常小(大)。

标准化对个别极端元素不敏感，且把所有元素分布在的周围，一般情况下元素越多，周围区间会分布大部分的元素，每当有新的元

素进来，都要重新计算方差与均值。

9. 试述卡方检验过程。

略 (……)

10. 试述在使用检验中使用式 (2.34) 与(2.35)的区别

书上说检验，在比较大时，平均序值近似于正态分布，均值为 ,

方差为（其实我觉得的方差是）。

即： ~

所以 ~

统计量由于个算法的平均序值是有关联的，知道其中个就能推出最后一个，所以自由度为 , 在前面乘上

，最终得到统计量为

猜测: 由于统计量只考虑了不同算法间的影响，而没去考虑不同数据集 (其他方差) 所带来的影响，所以书上说这个 Friedman 统计量

太保守。

对序值表做方差分析:

总方差自由度

算法间方差自由度

其他方差自由度

做统计量 , 服从和的分布

0.5

ROC

−

ROC TPR FPR

= ( ∗ (1 −

TPR

) ∗

cos

+ ∗

FPR

∗

cos

)/( + )

cost

−

TPR FPR

0 1

FNR

1 0

ROC

(0,0),(1,1) (0, 1)(1, 0)

(0,0) (1,0)

ROC ROC ROC

TPR FNR ROC

Min

−

max

−

score

0 0

Friedman

Friedman Nk

−1

( , )

−1

( −

−1

)

(1)

( −

−1

∑

)

− 1

−1

Friedman

fri

= ∗ ( −

−1

∑

)

Friedman

SST

∗ (

( ) − (

) =

∗

∗ ( − 1)/12

)

∗ (

− 1)

SSA

∗ ( −

∑

)

− 1

SSE

SST

−

SSA

(

− 1) ∗ (

− 1)

= =

SSA

−1)

SSE

/((

−1)∗(

−1))

(

−1)

fri

(

−1)−

fri

(

− 1) (

− 1) ∗ (

− 1)

剩余24页未读，继续阅读

评论收藏

内容反馈

小崔个人精进录

粉丝: 30
资源: 316

作业答案合集 from csdn1

评论0

最新资源

作业答案合集 from csdn1

评论0

中科大汪增福模式识别第三次作业答案

数据结构作业答案

大学物理实验绪论课作业答案

计算机应用基础作业及答案(1).doc

编译原理作业答案

北交——微机原理与接口技术作业答案

2022年国开电大《微积分基础》下载作业答案

CSDN Share：大会PPT合集下载，纯干货！

实验室安全培训作业答案雨课堂/学堂云

a7p格式作业 authorware CSDN 下载频道

吴恩达 深度学习课后作业系列6

西安交通大学工程分析程序设计Fortran上机作业参考答案.pdf

数据库作业2021.zip

东北大学软件需求分析与设计作业答案

西电数模国赛培训第一阶段作业.zip

自己做的吴恩达深度学习作业答案（第一课第三周）

英文科技论文写作与学术报告（2020春）总题库包括作业与期末考答案

关于创新创业期末考试答案分享.pdf

南邮微机接口作业与其答案

BurpLoaderKeygen.jar.zip

最新版ISO/IEC 27001:2022、ISO 27002:2022中英文合集

Goby红队版-win-x64-2.4.7版本

Chrome Header Editor 插件

ISO SAE 21434-2021 中文版.pdf

OpenVAS GVM 中文翻译补丁

安全认证cisp教材全套

STM32F103C8T6核心板-电路原理图1.PDF

软件工程导论(第六版)课后习题答案1

最新资源

吴恩达深度学习课后作业系列6