【免费】机器学习常用算法公式推导与分析1

机器学习

需积分: 0 59 浏览量 2022-08-08 22:45:39 上传评论收藏 3.9MB DOCX 举报

资源详情

资源评论

资源推荐

1.PCA 降维的公式及原理分析:

假设对称矩阵 A 的所有特征值都不一样，那么:

∧

𝑈

𝑇

-> 对角矩阵

∧

𝑈

𝑇

𝐴𝑈

对于矩阵 Y，它的协方差

𝐶

𝑌

𝑛

𝑌

𝑇

假设 Y=QX（此时不考虑降维），则

𝐶

𝑌

𝑛

𝑄𝑋

(𝑄𝑋)

𝑇

𝑛

𝑄𝑋

𝑋

𝑇

𝑄

𝑇

𝐶

𝑥

𝑄

𝑇

PCA 的本质:让协方差最小，方差最大，这样可以去相关 -> 协方差矩阵的对角元最大，非

对角元为 0->对角矩阵满足

我们已经得到两个公式:

𝐶

𝑌

𝐶

𝑥

𝑄

𝑇

和

∧

𝑈

𝑇

𝐴𝑈

，假设 Q =

𝑈

𝑇

可以得到:

𝐶

𝑌

𝑈

𝑇

𝐶

𝑥

𝑈

，因为协方差矩阵

𝐶

𝑥

是对称半正定矩阵(特征值>=0)

所以可以得到:当 Q =

𝑈

𝑇

时，

𝐶

𝑌

是对角矩阵，因此如果 Q 少取几行就实现了降维

2.极大似然估计公式及原理分析:

极大似然估计起源于贝叶斯

假设特征为 D，标签为 A，P 为概率

贝叶斯公式为:P(A|D) =

𝑃(𝐷|𝐴)𝑃(𝐴)

𝑃(𝐷)

当样本给定的时候 P(D)为常量，同时假定先验概率 P(A)是符合正态分布的，那么我们可以

得到:

P(A|D) 是正比于 P(D|A),其中 P(D|A)就是极大似然函数

对于机器学习的意义：将已知特征求标签的概率转化为已知标签求特征的概率，从无监督问

题变成了有监督问题

但是极大似然的最大问题是:不同参数的 P(A)不一定是相等的，只能说在样本不够大的时

候是近似相等的

贝叶斯算法考虑了先验概率 P(A),但同时要求先验概率要准确

极大似然的两个假设：

１. 已经发生的事件是独立重复事件，符合同一分布

２. 已经发生的事件是可能性（似然）最大的事件

3.模型调优

１. 过拟合:找更多的数据来学习,增大正则化系数，减少特征个数（不一定有效）

２. 欠拟合:找更多的特征，减少正则化系数

３. 权重分析:特征对最后结果的影响

X,Y 同时发生的概率即联合概率P(X,Y) = P(Y|X)P(X) = P(X|Y)P(Y)->P(Y|X) =

𝑃(𝑋|𝑌)𝑃(𝑌)

𝑃(𝑋)

（贝叶斯）

朴素贝叶斯(NB):条件独立性假设，很“朴素”的近似，即:

P("邱佳豪"|S)=P（“邱”|S）P（“佳”|S）P（“豪”|S）

以垃圾邮件为例:

利用分词向量将“我司发票”拆成一个个分词

C1=P（“垃圾邮件”|“我”，“司”，“发票”） = P(“我”，“司”，“发票”|“垃

圾邮件”)P(“垃圾邮件”) | P（“我”，“司”，“发票”）

C2=P ("正常邮件" | “我”，“司”，“发票”) = P（“我”，“司”，“发票”|"正

常邮件"）P（"正常邮件"）| P(“我”，“司”，“发票”)

C1/C2 可以把分母约掉，再加上独立性假设

C1/C2 = P（“我”|S）P（“司”|S）P（“发票”|S）P（S）除以 P（“我”|H）P

（“司”|H）P（“发票”|H）P（H），其中 H，S 分别代表垃圾邮件和正常邮件

这样就化简后，每一项就特别好求，比如

P（“发票”|“垃圾邮件”） = 垃圾邮件中出现发票的次数/垃圾邮件中所有词谱出现的

次数总和

由于乘法的交换率， P（“我”|S）P（“司”|S）和 P（“司”|S） P（“我”|S）是一

样的，这样一来，贝叶斯就失去了语言里的顺序问题

1.三种模型 2.平滑 3.工程上的灵活应用

P(（"代开普通发票增值税发票”）|S)这个拆开后，发票出现了 2 次

如果统计与判断的时候都计算重复的次数，称为多项式模型，即 P（发票）*P（发票）

如果训练和判断都只算一次，称为伯努利模型，即 P（发票）

如果训练的时候考虑重复的，判断的时候不考虑，即高斯分布型（假定属性/特征是服从正

态分布的）

工程中比理想情况更加复杂，这个时候要考虑平滑：如何在样本数量不是那么充足的情况

下，给未出现的新词一个概率，就是平滑最重要的事情

平滑的本质:统一给未出现的词一个概率，同时也要减少已知的概率（所有分子相加等于分

母）

如果真实情况中出现了一个测试中没有出现的词就会导致某一项 P=0，导致整个结果为 0

对于伯努利模型:（简称拉普拉斯平滑）

因为考虑重复所以是封数，分母加 2（2 效果比 1 好，未知的概率增加，已知的概率就要减

少）

对于多项式模型:（加上被统计词谱的数量，实际上是降低已知词的概率）

剩余17页未读，继续阅读

评论收藏

内容反馈

独角兽邹教授

粉丝: 29
资源: 320

机器学习常用算法公式推导与分析1

评论0

最新资源

机器学习常用算法公式推导与分析1

评论0

机器学习算法的公式推导以及numpy实现

人工智能之机器学习常见算法.pdf

机器学习公式推导以及解析

机器学习课件（含公式推导）

机器学习算法推导 第四章1

机器算法原理及公式详细推导思维导图总结

Python机器学习模型公式推导 笔记

机器学习算法的公式推导以及numpy实现.zip

机器学习30讲.pdf

机器学习（公式推导与代码实现）鲁伟-川北医学院.zip

逻辑回归分类实验——【机器学习与算法分析】.pdf

机器学习算法推导 第七章 核函数1

ML:numpy scipy matplot 机器学习常用算法汇总以及推导实现

机器学习算法推导 十三章 MCMC1

机器学习算法推导 第六章 SVM1

机器学习常用各类算法详解

毕业设计，课程设计，基于机器学习算法构建的股吧情绪量化分析平台，采用机器学习算法进行建模分析

机器学习算法与应用.pdf

回归算法公式推导过程1

机器学习算法分类

人工智能机器学习常用算法总结及各个常用算法精确率对比

机器学习算法与神经网络.zip

逻辑回归分类实验——【机器学习与算法分析】.docx

机器学习分类算法分析及基于Python的实现

机器学习常见算法分类汇总

最新版ISO/IEC 27001:2022、ISO 27002:2022中英文合集

Goby红队版-win-x64-2.4.7版本

Chrome Header Editor 插件

ISO SAE 21434-2021 中文版.pdf

最新资源

机器学习算法推导第四章1

Python机器学习模型公式推导笔记

机器学习算法推导第七章核函数1

机器学习算法推导十三章 MCMC1

机器学习算法推导第六章 SVM1