斯坦福大学吴恩达机器学习笔记(一)

所需积分/C币:50 2018-05-31 14:00:44 680KB PDF
0
收藏 收藏
举报

这份pdf主要同步网易公开课上的吴恩达的机器学习视频第二讲主要讲解了线性回归、BGD算法、SGD算法、线性回归的概率解释、局部加权回归(LWR)的内容
如需转载请注明CSDN博客网址:htp:/blog.csdn. net/qq30091945 0=0 其中a称作学习率,这是个非常自然的算法,它反复向着()最急剧减 少的方向迈出了一步。 为了实现这个算法,我们必须计算岀右侧的偏徵分项。让我们首先解决一下 如果我们只有一个训练样例()的情況,那么我们可以忽略的定义中的和。 我们有: 00 6日 ∑0 对于单个训练样本,这里给出了更新规则: =6 该规则称为LMS更新规则(LMs代表“最小均方”),也称为 Widrow-Hoff 学习规则。这条规则有几个看似自然和直观的属性。举例来说,更新与误差项 (-D()成比例;因此,例如如果我们遇到一个训练样例,我们的预测几 乎与的实际值相匹配,那么我们发现几乎不需要改变参数;相反,如果我们 的预测()具有大的误差,那么我们必须大幅度改变参数 当只有一个训练样本时,我们推导了LMS规则。有两种方法可以为多个样 木的训练集修改此方法。首先是用以下算法替换它: Repeat until convergence ∑ (for every j 读者可以很容易地验证上述更新规则中求和的数量只是0() 。因此,这 6 如需转载请注明CSDN博客网址:htp:/ blog. csdn.netq30091945 只是原始成本函数上的梯度下降。该方法查看每个步骤的整个训练集中的每个 样本,并称为批梯度下降(BGD)。请注意,虽然梯度下降一般容易受局部最小值 影响,但我们在这里提出的用于线性回归的优化问题只有一个全局的,而没有其 他局部最优解;因此梯度下降总是收敛(假设学习率α不是人高)到全局最低 事实上是一个凸二次函数。这是梯度下降的一个例子,因为它是为了使二次函 数最小化而运行的。 上面显示的椭圆是二次函数的轮廓。还显示了梯度下降的轨迹,初始化为 48,30)。图中的ⅹ(用直线连接)表示梯度下降经过的O的连续值。 当我们运行批梯度下降以调整我们以前的数据集的θ时,为了学习预测住房 价格作为生活区域的函数,我们得到θ 如果我们将()作为 (面积)的一个函数,并将其与训练数据一起绘制,我们得到下图: 如果房间数也作为输入数据的属性的话,我们可以得到如下那结果 上述结果是通过批梯度下降获得的。批处理梯度下降还有一种替代方法,也 可以很好地工作。考虑以下算法: 如需转载请注明CSDN博客网址:htp:/ blog. csdn. net/qq_30091945 for i=l to m b=6 (for every j) 在这个算法中,我们重复遍历训练集,并且每次遇到训练样例时,我们都会 根据单个训练样本的误差梯度更新参数。这种算法被称为随机棁度下降(也称渐 增梯度下降)。而在采取一步之前,批梯度下降必须扫描整个训练集。如果m是 很大,批梯度下降则是一项代价高昂的操作,但是可以立即开始取得进展,并且 继续在每个看起来的示例中取得进展。通常是随机的梯度下烽比批量梯度下降快 得多。(然而,注意它可能永远不会“收敛”到最小值,并且参数将保持在(O 的最小值附近振荡;但实际上接近最小值的大多数值将是相当好的近似于真实的 最小值。)由于这些原因,特别是当训练集较大时,随杋梯度下降通常优于批梯 度下降。 下面是自己对BGD与SGD算法的个人理解,这与讲义内容无关。BGD的 主要思想是首先对整个数据集进行遍历,保存相应参数的梯度增量。待遍历结束 之后对每组数据的梯度增量进行求和后进行更新所有层与层之间的权重与阈值 通过多次迭代,BGiD算法将会得到全局最优解。同时,虽然BGD算法最终能够 获得全局最优解,但是一次荙代过程中只进行一次参数新,这使得收敛速度极其 缓慢。因此在处理大型数据集时速度很慢且难以控制,甚至会因为临时保存参数 梯度增量的内存过大而导致溢出。SGD算法的主要思想是在遍历整个数据集时, 对每组数据分别进行一次参数更新,虽然这能极大加快算法的收敛速度,但是却 不能保证每次迭代过程都沿着损失函数全局最小值方问,即SGD算法在迭代过 程中公出现振荡,从而影响收敛速度。即对于一个含有组数据的数据集,每做 次迭代得做次参数更新。不管是BGD算法还是SGD算法,其木质都是贪 如需转载请注明CSDN博客网址:htp:/ /blog. csdn. net/qq3001945 心算法。贪心算法的本质是沿着梯度变化最大的方向寻找全局最优解。相比BGD 算法,SGD算法存在大量的利用梯度增量进行参数更新,这也导致每一次更新 SGD算法不一定式沿着全局最小值方向,那么这也造就了SGD算法更容易陷入 局部最优解而导致过拟合 四正规方程组 上述函数中自变量是矩阵,那么我们有必要对矩阵的求导相关知识进行 补充。 41矩阵求导 对于R→R这样一个m行n列的矩阵映射到实数的函数,我们定义 其导数如下 同时我们定义矩阵的迹运算 那么有如下结论 对于与迹相关的求导结论如下: 如需转载请注明CSDN博客网址:htp:/blog.csdn. net/qq30091945 V()=[( 对于上面第三个公式我们给出证明过程,设( ,证明过程如下: +(V (() 42再看最小二乘 通过矩阵求导公式,我们可求得使得最小的B。对于给定×矩阵Ⅹ (这是算上了常数项0x=)我们可以表示为 同时目标变量y可以表示为: 由于 O,那么也可以这样表示 6 如需转载请注明CSDN博客网址:htp:/blog.csdn. net/qq30091945 那么 ()=-(0-)( ∑[() 则导数为 V。(0)=V。-(6-)(0- v(00-0 6+ V。(0 6+ V。(b日 0--( 那么我们成正规方程组为: 那么 五概率解释 面临一个会回归问题,为什么线性回归,特别是最小价值函数会是一个合 理的选择?为此此节将会给出一个概率解释! 首先假设目标变量和输入变量通过如下方程联系起来: 0+ 其中E是捕获非模型因素的误差项。同时进一步假设E是∏(即独立同分布)。 通过均值为0,方差为σ的高斯分布(即正念分布(a)),我们能说 如需转载请注明CSDN博客网址:htp:/ blog. csdn. net/qq_30091945 即 那么可以肯定: 这里 )是指对于给定经参数化的有关的的概率。也可以说 。为此我们引入似然函数 那么 (6)=I a((=) 根据极大似然原则,当(θ)取得最大值时,概率才会尽可能大。由于上述公式过 于复杂,接下来我们运用对数极大似然构造函数即 (6 (6)= (-0) 那么要想使(θ)取得最大值,那么(θ)必须取得最小值,也就证明了梯度 下降是一种合理的选择。 六局部加权线性回归 局部加权线性回归,即LWR。在斯坦福机器学习课程中给出了如下 如需转载请注明CSDN博客网址:htp:/ /blog. csdn. net/qq3001945 O+0对于房价例子的拟合图像,通过图像可以发现数据点并不是全部分 布在直线,也就是说拟合效果不是很好,即欠拟合。之后分别对=∑与 ∑θ进行了拟合实验,效果如图所示。可以发现拟合效果越来越好 正如上面的例子,特征的选取对于学习算法的执行效率至关重要。下面是对 LWR的简单介绍。对于上述的价值函数(损失函数)(0)将会做出一点小变化: 其中是非负的权值。直观感受,对于每个,如果是个很大的数, 那么就很难把(-0)变小,如果是个很小的数,那么在拟合过程中 的误差可以忽略不计。最好的选择就是选择: 那么在佔算是权值是依赖于特定点。当-减小时,趋近于1, 增大时,趋近于0。参数z被称为带宽参数,控制训练样本到点 的速度。LWR是我们见到的第一个无参算法。同时上述权值的函数表达式与 高斯分布(正态分布)类似,但是却与高斯分布无任何关系,仪仪是形式上类 似而已。那么为此我们可以推出回归系数的公式 在使用这个算法训练数据的吋候,不仅需要学习线性回归的参数,还需要学 习带宽参数。这个算法的问题在于,对于每一个要预测的点,都要重新依据整个

...展开详情
试读 11P 斯坦福大学吴恩达机器学习笔记(一)
立即下载 低至0.43元/次 身份认证VIP会员低至7折
抢沙发
一个资源只可评论一次,评论内容不能少于5个字
  • 领英

    绑定领英第三方账户获取
  • GitHub

    绑定GitHub第三方账户获取
  • 签到新秀

    累计签到获取,不积跬步,无以至千里,继续坚持!
  • 技术圈认证(专家版)

    博客专家完成年度认证,即可获得
  • 分享宗师

    成功上传21个资源即可获取
关注 私信 TA的资源
上传资源赚积分or赚钱
    最新推荐
    斯坦福大学吴恩达机器学习笔记(一) 50积分/C币 立即下载
    1/11
    斯坦福大学吴恩达机器学习笔记(一)第1页
    斯坦福大学吴恩达机器学习笔记(一)第2页
    斯坦福大学吴恩达机器学习笔记(一)第3页

    试读结束, 可继续读1页

    50积分/C币 立即下载 >