没有合适的资源?快使用搜索试试~ 我知道了~
杜克 STA561 概率机器学习讲义.pdf
需积分: 5 0 下载量 127 浏览量
2024-02-03
12:13:15
上传
评论
收藏 2.71MB PDF 举报
温馨提示
试读
127页
杜克 STA561 概率机器学习讲义
资源推荐
资源详情
资源评论
概率机器学习
Sayan Mukherjee
概率机器学习
Sayan Mukherjee
1统计科学、计算机科学和数学系,杜克大学,
杜罕,27708。
电子邮件地址 : [email protected].
2015年11月19日
©
c
2015年美国数学学会
1
2 S. MUKHERJEE,概率机器学习
讲座 1
课程准备
机器学习这个术语可以追溯到Arthur Samuels和他的计算机下棋算法。 1959年
,Samuels将机器学习描述为:“一种使计算机具有学习能力而无需明确编程的研
究领域。”
机器学习被认为是人工智能的一个子领域,学习机器的概念出现在AlanTuring
于1950年在《心智:心理学和哲学的季刊》中发表的《计算机与智能》一文中。
本文的第一句提出的问题是“机器能思考吗?”。
在这门机器学习课程中,我们将考虑使用算法和概率方法来“从数据中学习”
。这门课程涉及统计学、计算机科学的交叉领域,机器学习的一个夸张描述是计算
机科学家在做统计学。
机器学习通常也与“大数据”这个术语联系在一起,它通常指的是对非常大的数据
集进行统计分析,在这里,计算挑战与推断问题一样严重。
广义上说,我们将讨论的方法可以分为两类:程序员:这将涵盖频率统计学和
机器学习的算法方法。这种方法基于找到适用于数据的良好程序。 良好的意思是
某个长期概率的过程,例如分类中出错的长期概率很小。
贝叶斯:一种基于数据推断参数或模型后验概率的一致公理方法。 在某些情况下
,贝叶斯推断可能不可行或不实际。
1.1. 复习
我们将从统计学的基础知识开始复习。 我们将使用贝叶斯和频率主义分析来研究
一个统计问题。 以下形式将在两个模型中进行量化。
P(M | D) =
P(D | M)P(M)
P(D)
∝ P(D | M)P(M),
其中P(M | D)是给定数据 D的模型 M的证据,P(D | M)是给定模型 M的数据D
的证据,P(M)是模型 M的概率,P(D)是数据的概率。这些对象的标准统计术语
为
P(D | M) ≡ Lik(D; M),给定模型 M的数据的似然,P(M | D) ≡ Po
st(D; M),给定数据的模型 M的后验证据,P(M) ≡ π(M),模型M的
先验概率(在观察数据之前)。
示例1:模式估计
我们考虑一个随机变量 X,它是从一个包含 k= 4个字母的字母表中抽取的{A,
C, T, G},其中我们表示 A ≡ 1, C ≡ 2, T ≡3, and G ≡4. 我们将概率分布设置
为以下多项式分布,注意我们
讲座1. 课程准备 3
正在模拟抽取四个字母
P(n
1
, n
2
, n
3
, n
4
| p
1
, p
2
, p
3
, p
4
) ≡ Multi(p
1
, p
2
, p
3
, p
4
)
∝
4
j=1
p
n
j
j
,
4
j=1
p
j
= 1, p
j
≥ 0 ∀j = 1, ..., 4,
其中 p
i
是观察到第i个字母({A, C, T, G}在字母表中
并且 n
i
表示第i个字母观察到的次数(要么是1,要么是0)。上述内容
是多项式分布的一个例子。
随机变量 X 是一个序列中的字符串,我们可以将随机字符串 Z= ( X
1
, ..., X
m
) 视为长度为 m的字符串,每个X
i
从分布中独立同分布地抽取。 这是一个字符串
的例子,让我们称这些字符串为模式。
数据由一系列字符串组成, D = {Z
1
, ..., Z n}每个字符串 Z
i
独立同分布地抽取
。
我们首先陈述观察到的数据 D的可能性
P(D | M) = Lik(D | p
1
, ..., p
4
)
Lik(D | p
1
, ..., p
4
) ∝
n
i=1
m
`=1
k
j=1
p
n
i`j
j
∝
m
`=1
n
i=1
k
j=1
p
n
i`j
j
∝
m
`=1
k
j=1
p
n˜
`j
j
,
其中 n
i`j
是观察 i中在位置 `上观察到字母 j的次数(这个次数为0或1),而˜n
`j
=
i n
i`j
是在序列中观察到字母 j在位置 `的次数。
估计 p
1
, .., p
k
的经典方法是最大似然公式-
{pˆ
1
, ..., pˆ
k
} = arg max
p
1
,...,p
k
[Lik(D | p
1
, ..., p
k
)] ,
受限于
k
j=1
p
j
= 1, p
j
≥ 0 ∀j = 1, ..., k.
要理解如何进行上述优化,请了解拉格朗日乘数法的方法。 这是一个非常合理的
方法,但它有一个问题,如何估计 {pˆ
1
, ...,pˆ
k
}的估计不确定性呢?
我们可以使用贝叶斯规则正式地对不确定性进行建模。
P(M | D) ∝ P(D | M )P(M ),
如果我们可以在模型空间上放置一个概率分布,即(p
1
, ..., p
k
)。
所有点 p= (p
1
, ..., p
k
)的空间,使得
j
p
k
= 1 and p
k
≥ 0 for all
j = 1, ..., k被称为单纯形。 我们现在介绍一个经典的分布在
剩余126页未读,继续阅读
资源评论
绝不原创的飞龙
- 粉丝: 1w+
- 资源: 1091
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功