作者:红色石头 公众号:AI有道(id:redstonewill)
上节课,我们主要介绍了机器学习的可行性。首先,由NFL定理可知,机器学习貌似
是不可行的。但是,随后引入了统计学知识,如果样本数据足够大,且hypothesis个
数有限,那么机器学习一般就是可行的。本节课将讨论机器学习的核心问题,严格证
明为什么机器可以学习。从上节课最后的问题出发,即当hypothesis的个数是无限多
的时候,机器学习的可行性是否仍然成立?
我们先来看一下基于统计学的机器学习流程图:
该流程图中,训练样本D和最终测试h的样本都是来自同一个数据分布,这是机器能够
学习的前提。另外,训练样本D应该足够大,且hypothesisset的个数是有限的,这样
根据霍夫丁不等式,才不会出现BadData,保证 ,即有很好的泛化能
力。同时,通过训练,得到使 最小的h,作为模型最终的矩g,g接近于目标函数。
这里,我们总结一下前四节课的主要内容:第一节课,我们介绍了机器学习的定义,
目标是找出最好的矩g,使 ,保证 ;第二节课,我们介绍了如何让
林轩田《机器学习基石》课程笔记5Trainingversus
Testing
一、RecapandPreview