《Pattern recognition and machine learning》第一章 笔记

5星(超过95%的资源)
所需积分/C币:10 2013-01-10 18:41:22 1.38MB PDF
29
收藏 收藏
举报

《Pattern recognition and machine learning》第一章 笔记 pdf
到T’={tl1,t2,,tn},对于每一个ti加上一个随机噪声得到T=x1,x2,,xn}.这个噪声 符合高斯分布( Gaussian distribution)。T就是观察值 寻找回归函数 我们的目标就是找到一个函数对新的x进行预测,得到7 我们使用的是多项式函数: y(x,w)=n*nx+m2x+…+Whx"=∑形x7进行拟合( fitting) y(x,w)是x的非线性函数( nonlinear function),但是是w的线性函数( linear function)。 M叫做多项式的阶( order)。 术语: Coefficient系数 0 uadratic function二次函数 Der ivat ve微分 Po l ynomi a|多项式 order M of the pol ynomial多项式项式的阶。 选择 order of po l ynomi a l是一大类问题: modeI compar ison or model selection 现在我们就是要找到一个向量W=(,…W)使得y(x,w)最佳拟合sin(2mx) 可以使用个误差函数( error function)来衣示y(x,w)与sin(2x)的误差。 EG-2(x,"-1],间题转化为我到一个w使得E()最小。这个函数也叫平方 和函数(sum-of- squire function) E(w)是一个对w的二次函数,它对w的微分是线性的。所以问题转化为一个求最小值问题, 而且E(w)有唯一解n。我们得到的次函数就是y(x,w). 确定yx,)的阶 就是确定 order of polynomial。这就是一个 model comparison和 selection的问题。 选择了M=0,1,3,9当M0,1时候拟合非常差,当M=9的时候,拟合完美而来,这个时候 E(w)=0,但是当使用测试数据时侯,效果非常差,这叫过拟合over- fitting.m=3的时候 效果较好,虽然没有通过某些点。如下图。 M=9 我们可以看到M9的时侯y(x,w)的振动是非常人的(特别是x接近1的时候) 定量分析函数泛化能力: 在训练阶段我们使用误差函数E(w)=∑L(xn,n)-t来定量的测试y(,w)的好 坏。在使用测试集的时候,我们也可以定量的分析y(x,w)的泛化能力。这里使用 root-mean- square(均方根)来测试。 aE=y2E(1米)N其中N测试集合的大小。 这个可以反映我们的拟合函数的泛化能力 The test set error is a measure of how well we are doing in predicting the values of t for new data observations of 下面是在M=0,1,3,9时候的测试集的Ews的大小曲线 Training Test 0.5 如图,可以看出当M增加的时候蓝色的曲线(训练集合)E越来越小,表示拟合得越 来越好,但是当,在Mc(0,8)的时候,测试集合的走势是相同,当M>8的时候, 红线急剧上升,表明泛化能力急剧下降,出现了过渡拟合。 不同的训练集大小对结果的影响。 上面当我们在相同训练集上,不同M值对泛化能力大小进行分析,当在相同训练集合时候, 当M增大到一定程度的时候(M=9),会出现过渡拟合的情况。 但是在M=9的情况下,当N(训练集大小在15,100的时候,反而没有出现严重的过度拟 合,而且在N=100时候拟合得非常好。如下图 10 oeag328° 0 这给我们一个启示:当模型复杂度(比如M=9)的情况下,训练集越大,过拟合越不严重。 反过来也可说,训练集合越大,我们就可以使用更为复杂的模型区拟合它。 直觉告诉我们,训练集的大小应该是 model复杂度的若干倍,比如N/M-5或者10(N为训 练集合大小,M衣示模型的复杂度,这里为多项式的阶) 但是如果根据训练集的大小来选择参数的大小不太让人接受,根据问题的复杂度来选择参 数更加合理一些。上面我们使用的最小二乘法其实是最大似然桃率( Inaxlmuin1 ikelihood) 的一种特殊形式,而过拟合其实是最大似然概率的一种很普遍的性质。 如果使用 Bayesian方法,过拟合其实是可以避免的(后面要讲)。 防止过渡拟合的方法: regularization 现阶段(没有其他高级方法的阶段)我们可以使用正则化来解决过渡拟合的方法。 我们可以加入一个惩罚项( penalty term)来防止,多项式的系数变得太大。 |=v形=6++…+H,表示系数的平方和。 我们修改一下 error function:E(w)-∑[(x,1-t]+理i A的作用就是控制‖2与E(w)的相对重要程度。 the coefficient A governs the relative importance of the regularization term compared with the sum-of-squares error term 这种方法在统计学里面叫做收缩法( shrinkage me thod),因为它减少了系数的大小。 在神经网络里这种方法叫做权值衰减( weight decay)。 M9使用上面会出现 overfitting的训练数据,我们选择1nλ=-18和1nA=0与没有 使用 regularization的进行对比。当在nλ=-18时候很好地控制了过拟合(下图的第一个 图)。但是我们使用太大的入又会得到一个很差的拟合,如下图的第二个图。 1 ln入 In=0 C 下面是在不同A对应的不同的系数,可以看出这种方法可以明显减小系数的量级。 18 nA= 0 035 0.35 0.13 zoX 232.37 4.74 0.0 5321.83 -0.77 006 23 48568.31 3197 0.05 23163930 3.89 0.03 640042.26 55.28 0.02 吉|-1061800.52 41.32 0.0 1042400.18 4595 0.00 557682.99 91.53 0.00 125201.43 72.68 001 使用训练数据和测试数据比较EgMs rainIng 30nx-25 结论 λ能够有效滴控制模型的复杂度,因此能减小过拟合。 We see that in effect x now controls the effective complexity of the model and hence determines the degree of over-fitting 决定模型复杂度的一般方法: 将已知的数据分为训练数据( trainning set)和验证数据( validation set),训练数据用于决 定多项式的系数,验证数据用于优化模型的复杂度(比如控制M和λ),这种方法的缺点是 浪费宝贵的数据。 三、概率论 模式识别的一个重要概念就是:不确定性,这是由噪声和数据的有限性造成的概率论是一个 量化和操作这种不确定性的工具. 从一个例子引入概率论 我们有两个盒子(Box),一个是红的(red)一个是蓝的(Bue),盒子里面放有两种 Fruit, 一中是苹果( Apple),一和是橘子( Orange)在red的盒子里面放了2 apple和6 orange, 在Bue盒了中放了3aple和1 orange 我们的一次实验:随机选取一个盒子,并且随机选取一个水果,记录他是 apple还是 orange 然后放回原米的盒子 在这个实验中,盒子的类别是一个随机变量( random variable),可以使它为B,B有两个可 能值r和b,分别代表red和blue;同理,水果的种类也是·个随机变量F,F有两个可能 的值a和o,分别代表 apple和 orange 我们定义一个事件的概率( probability of an event)是这个时问发生的次数和总的实验次数 的比例 we shall define the probability of an event to be the fraction of times that event occurs out of the total number of trials 假设我们40%时间是选择的 Red box,60%的时间是选择的 Blue box。 P(B=r)=4/10,P(B=b)=6/10 P(B=r)+P(B=b)=1; 如果两个事件是互斥的( mutually exclusive)并且包括了所有的情况,那么他们加起来为1 ( sum to 1) 加法法则和乘法法则( sum rule and product rule 假设我们有两个随机变量xY,X可能的值是x=1Y可能的值是y=1m 我们所有的实验次数是N,n2表示X=x,Y=y的事什发生的次数 C表示X发生的次数了,不考虑Y r表示发生次数了,不考虑x P×x,Yy)叫做xx,.y的联合概率( (joint probability), P(X=ri,Yy)mN x)=cN,于c=∑n 所以P=x)=∑PxX=x,Y=y)这就是概率的加法法则,PX=x)也叫做边缘概率 在Xx的情况下,v的概率记为Py=X=x)=n/C,这叫做条件概率 ditional probabilty) P×x,Y=y)==m.c CN=P=少Xx)P=x)这就是概率的乘法法则 由对称性得到:P(X的=PX)->PYX)P(x)=P(X1YPNY)->FP(X|Y)P(Y) P(X) 这就叫做贝叶斯定理,在模式识别和机器学习中起着核心作用 使用加法规则分母( denumerator)可以使用分子( numerator来表小 P=∑PxP,在贝叶斯中分母被看做一个归一化常数,它保证左边的条件概率对 于所有的Y相加为1。 回到水果问题: P(B=r)=4/10P(B=b)=6/10 当我们随机选择一个盒子,如果这个盒子是bue。这个盒子中的 apple的比例是3/4,那 么 P(F=a|B=b)=3/4 同理 P(F=o|B=b)=1/4 P(F=a|B=r)=1/4; P(F=o|B=r)=3/4 当我们知道了选取的一个水果是苹果,我们想知道它是来自哪个盒子?这就是贝叶斯解决 的问题。 P(F=o)=P(F=o|B=r)*P(B=r)+P(F=O|B=b)*P(B=b)=3/4*4/10+1/4*6/10=9/20 P(B=rF=o) PF=OB=rPB= 314*4/10*20/9=2/3 (F=O) 由加法法则得到:P(B=b|B=0)=1-2/3=1/3 先验概率,后验概率: 我们使用水果的例子来说明贝叶斯法则: 在告知我们选择的水果的种类之前,先告诉我们盒子的颜色,这个时候我们仅有的数据时盒 子的概率分布P(B)这叫做先验概率( prior probability)因为那是在我们知道水果种类之前的 穊率,一旦知道∫这个水果的种类,我们就可以计算F(B|F,这叫做后验概率( posterior probability),因为那是我们得知水果之后计算得到的概率 在这个例了中,P(B=)=4/10从先验概率来看,更容易选择bue的盒了,因为P(B=r) 6/10但是我们已知的是一个 orange的时候,我们选择的是red盒子的概率是P(B=r|F=o)= 2/3从直觉上也可以得到相似的结论:red盒子中的 orange占到的比例比bue中的多(3/4比 1/4)。这个取到 orange这个后验概率比先验概率更有力地暗示了这是从一个red盒子中取 出来的(这可以用来推测未知的东西?)。 独立事件:P(YX)=P(Y),P(XY)=P(xX)P(Y)例如当bue和red盒子中的水果比例都是 1/2的时候P(F|B)=P(F这就叫做水果独立于它从哪个盒子取出米。 trial实验 o int probab i l ity ofⅩ= xi and y=yi:Ⅹ= xi and y=yi的联合概率P(X=xi,Y=yi marginal probability边缘概率P(x=xi) conditional probability条件概率P(X=xi|Y=yi) P(X|Y)表达为 The probab i l ity of x given Y P(X,Y)表达为 The probab i l ity of x and y p(X,Y)=p(X)p(Y)表达为Ⅹ and Y are independent。X,Y是独立的 Histogram直方图 概率密度: 定义: If the probability of a real-valued variable x falling in the interval (x, X+ 0 x)is given by p(x)8x for dX0, then p(x)is called the probability density over x.(注意这种描述) 使用极限的方法来定义概率密度的。 X落在(a,b)之间的概率为p(x∈(a,b)2m(x)ah 概率密度的性质 p(x)≥0 概率密度可以看成是分布函数( cumulative distribution function)的微分 P(z) p(r)c (x)=p(x 在概率密度中,如果ⅹ=g(y,那么这里就有一个关于y的新的概率密度f(y)=p(g(y) 那么(xx+△x就可以映射到(wy+△y).并且 f(y)△y=p(x)△x 么f(y)=p(g()|=p(g(y) dy 从这里可以看出同·个问题概率密度的最大化依赖于参数的选择 如果有一个 vector x=x1x2,…xn) p(Ⅺ)=Px1,x2,,xn)叫做联合概率密度 Coint probability density) 同样需要满足 p(X)≥0 P(dA

...展开详情
试读 30P 《Pattern recognition and machine learning》第一章 笔记
立即下载 身份认证VIP会员低至7折
一个资源只可评论一次,评论内容不能少于5个字
Lewisr 很不错,讲解很清晰
2015-03-28
回复
konglingjiang 写的不错,适合初学者阅读借鉴
2014-11-12
回复
sars_715 确实很不错
2014-07-23
回复
crothen 总结的不错,可惜只用第一章
2014-05-13
回复
cjunkai327 适合入门学习
2013-12-07
回复
shaoshao000 机器学习里的经典学习资料,不错
2013-02-26
回复
您会向同学/朋友/同事推荐我们的CSDN下载吗?
谢谢参与!您的真实评价是我们改进的动力~
上传资源赚钱or赚积分
最新推荐
《Pattern recognition and machine learning》第一章 笔记 10积分/C币 立即下载
1/30
《Pattern recognition and machine learning》第一章 笔记第1页
《Pattern recognition and machine learning》第一章 笔记第2页
《Pattern recognition and machine learning》第一章 笔记第3页
《Pattern recognition and machine learning》第一章 笔记第4页
《Pattern recognition and machine learning》第一章 笔记第5页
《Pattern recognition and machine learning》第一章 笔记第6页

试读结束, 可继续读3页

10积分/C币 立即下载