没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论













UCAS_机器学习导论
_01_绪论(1)
UCAS_机器学习导论
_03_⽀持向量机与
核⽅法
感知器准则
3.1 感知器准则
分类任务
决策⾯ 损失函数
感知器 分类算法
使⽤梯度下降⽅法更新参数
函数间隔 ⼏何间隔 关系
函数间隔 ⼏何间隔 关系
优缺点
3.3 ⽀持向量机
线性可分模型描述
间隔最⼤化
间隔最⼤化
⽀持向量机原理
⽬标函数推导过程
函数间隔代换⼏何间隔
最⼩化分⺟最⼤化原函数
线性可分问题的对偶问题
转换过程: >= 变 <= 代⼊拉格朗
⽇条件
线性不可分-软间隔⽀持向
量机
软间隔
每个样本对应⼀个
通⽤⽀持向量机的模型
感知器准则VS⽀持向量机
感知器准则具有⽆穷多解是因为只
考虑错分类样本吗?
3.4 ⽀持向量机回归
3.5 ⽀持向量机排序
3.7 KSVM
3.6 核技巧
思想
举例
表示定理
训练
和⾮核化SVM相⽐只有数值差异
⽽已,但是就能够实现线性不可分
样本的分类,⾮常伟⼤
预测
注释:是逗号不是乘号
3.9 KPCA
UCAS_机器学习导论
_02_线性模型(1)
线性模型相关
线性模型的基本形式
向量->标量
多回归任务
向量->向量
Softmax回归
LDA
多分类学习
⼴义线性回归
对数⼏率(logistics)回归
logistics回归不能处理多分类问
题,推⼴⻅softmax
特征选择
特征变换 特征选择
UCAS_机器学习导论
_05_聚类
聚类问题
对⼀批没有类别标签的样本集,按
照样本之间的相似程度分类,相似
的归为⼀类,不相似的归为其它
类。
这种分类称为聚类分析,也称为⽆
监督分类。
聚类结果因不同任务⽽不同。
对于身份识别任务,⽬标是⼀⾏被
聚为⼀类;对于姿态估计任务,⽬
标是⼀列被聚为⼀类
任务
挑战性问题 聚类性能评价
外部指标
假定存在某个参考聚类结果,通过
与它⽐较计算得到外部指标
内部指标
内部指标–在⽆参考聚类结果下,根
据聚类簇样本之间的相互距离定义
⼀些内部评价指标
常⽤指标(标签给定情形)
NMI
距离与相似性度量
任务不同距离和相似性度量⽅法不
同
距离
类间距离
类直径
相似性
计算⽂本向量的相似性时经常使⽤
具体算法
层次聚类(Hierarchical Clustering)
⾃底向上凝聚
具体步骤 核⼼问题
⾃顶向下分裂
K-均值聚类
Je=各个类内间距离之和。
寻找最⼩的Je
缺点
三类样本中⼼点都在同⼀个位置
谱聚类
基本思想
谱聚类算法建⽴在图论中的谱图理
论基础之上,其本质是将聚类问题
转化为⼀个图上的关于顶点划分的
最优问题。
把数据集转换成⼀个图,再把图划
分成不同的⼦集
从图切割的⻆度,聚类就是要找到
⼀种合理的分割图的⽅法,分割后
能形成若⼲个⼦图。连接不同⼦图
的边的权重尽可能⼩,⼦图内部边
权重尽可能⼤。
从数据集构造图
核⼼问题是图构造
图论概念
度矩阵
度矩阵: 为⼀个对⻆矩阵。将邻接
矩阵各⾏元素累加⾄对应的主对⻆
元素,可得到度矩阵 D。
实际问题
拉普拉斯矩阵
性质:每⾏=0
实际问题 性质
拉普拉斯矩阵的数学性质
为什么使⽤最⼩特征值对应的特征
向量能够进⾏划分?能够进⾏数据
降维?此时矩阵特征值和特征向量
的含义是什么?
势
等于其所包含的顶点个数。
体积
等于其中所有顶点的度之和。
边割
⼦图相似度
⼦图之间的切割
最⼩⼆分切割 (Minimum
bipartitional cut
如何构造图中的边
全连接 局部连接
k - 近邻
存在不对等问题:A是B的邻居,B
不是A的邻居。
解决不对称问题
- 半径
点对相似度矩阵
计算点的相似度
还有可以使⽤余弦距离等衡量点对
相似度
谱聚类算法
求出k个特征向量之后⽤特征向量
进⾏聚类
为什么有HH^T=I
做⼴义特征值分解
讨论
UCAS_机器学习导论
_06_降维与度量学
习
维数灾难
缓解维数灾难的⼀个重要途径是降
维(dimensionality reduction),即
通过某种数学变换将原始⾼维特征
空间变换⾄某个低维“⼦空间”。在
该⼦空间中,样本密度⼤幅度提⾼,
距离计算也变得更为容易
为什么降维
稀疏性对于任何要求“具有统计学
意义的⽅法”⽽⾔都是⼀个问题。
但是,为了获得在统计学上正确并
且有可靠的结果,⽤来⽀撑这⼀结
果所需要的数据量通常随着维数的
增加⽽呈指数级增⻓。
降维⽅法
主成分分析
可重构性观点 可区分性观点 计算
多维缩放
零中⼼化假设
6.4 流形学习
定义
定义:流形上的每⼀个点的开邻域,
与欧⽒空间的开集同胚
⼏何:流形是⼀块⼀块欧⽒空间拼
装⽽成的弯曲空间。
直观:流形是欧⽒空间的⼀种推⼴,
是在低维空间来表达⾼维空间所难
以表达的空间结构。
在数学上,流形⽤于描述⼀个⼏何
形体,它在局部具有欧⽒空间的性
质。即可以应⽤欧⽒距离来描述局
部区域, 但在全局部欧⽒距离不成
⽴。
⽅法
为什么LTSA和LSE都将结果聚类
成正⽅形,但是Isomap还保持了
⻓⽅形的结构?
统⼀的学习模型
流形学习中的⼀些挑战性问题
LLE (Locally linear embedding)
临近点的加权表示
Isomap ( isometric feature
mapping)
Laplacian Eigenmapping(LE)
点对亲和度保持
局部切空间对⻬(LTSA)
基本思想:对每⼀个数据,在局部引
⼊⼀个线性变换,将其近邻点映射
到低维坐标系中的对应近邻点
“数学表示⾮常简洁优美”
6.5 局部保持投影
6.6 距离度量学习
UCAS_机器学习导论
_04_神经⽹络
前向神经⽹络和BP
多层结构
单层内容
激励函数
符号函数⽤来⼆分类
Sigmoid函数⽤来输出概率
双曲正切函数⽤来回归。(-1,+1)可
以建⽴到(-∞,+∞)的映射,因此可
以⽤来回归
ReLU
2012 Hinton在ImageNet上引⼊,
多在深度学习⽹络中使⽤
优点:1 避免梯度消失;2 计算快
速 3 x<0 f(x)=0 相当于此神经元没
有连接下⼀层神经元。有实验表明
稀疏连接有利于增强⽹络的泛化能
⼒。
⼀般在中间层使⽤ReLU函数
模型
误差反向传播算法
δ规则
单个样本的误差J
输出层的误差调整
δj
注意到对权重的更新是累计了k个
样本的误差
δ规则确定了⼀个神经元如何调整
⾃⼰的参数误差:分两步,先计算
这个神经元的误差δ,再分配到各
个w
δ就是经导数缩放的误差
正向计算过程 误差
原始思路⼀层层迭代,缺点是变量
太多计算复杂
其它层的误差δ规则
链式法则
具体推导
j是下⼀层节点,对所有下⼀层节
点的误差做求和,其中δj是下⼀层
节点的误差,这样就实现了误差的
逐层传播
4.2 卷积神经⽹络
Pooling 也算在⼀层⾥
基本操作:卷积、pooling
1 卷积操作
⼆维卷积
卷积举例—滤波器
隐层有m个节点,全相连时的情况
三维卷积
优点:局部连接、权值共
享
极⼤地减少了需要训练的参数
降低⽹络权重数量-局部连接
每个神经元其实没有必要对全局图
像进⾏感知,只需要对局部进⾏感
知。
图像空间相关性: 对图像⽽⾔,局部
邻域内的像素联系较紧密,距离较
远的像素相关性则较弱。
降低⽹络权重数量-权值共享
这⼀机制是:“从图像任何⼀个局部
区域内连接到同⼀类型的隐含结
点,其权重保持不变”。
2 图像区域内关于某个特
征的统计聚合-pooling
卷积操作的结果依然是⼀个很⼤的
特征,使⽤pooling减少参数。
训练
反向传播
4.3 卷积神经⽹络新模型及其应⽤
图像语义分割
⾼等数学 第7版 下册
同济⼤学
UCAS_机器学习导论
_07_集成学习
个体与集成
定义
通过构建并结合多个学习器来完成
学习任务,⼜称多第3⻚– 通过构建
并结合多个学习器来完成学习任
务,⼜称多分类器系统(multi-
classifier system)、基于委员会的
学习(committee-based learning)
等
优势
将多个学习器进⾏结合,常可获得
⽐单⼀学习器显著优越的泛化性能
Bagging 和 Boosting两类
集成学习算法
Bagging算法
个体学习器之间不存在强依赖关
系、可同时⽣成的并⾏化⽅法
Bagging是Bootstrap
aggregating的缩写,采⽤⾃助采样
法(bootstrap sampling)来构造基
学习器
训练数据不⼀样
训练数据:⾃助采样法
⾃助采样法(bootstrap sampling)
有放回抽样的好处是什么呢?
对基训练器的要求 训练结果
随机森林(Random Forest)
随机
“样本集扰动”+“属性集扰动”
增加扰动的⽬的是增加基学习器之
间的差异,这样组合之后性能提升
可能增加
样本集扰动
bagging 的⾃助采样法
属性集扰动
森林:多棵决策树
以决策树为基学习器
⽐ bagging 的优势
Boosting算法
个体学习器之间存在强依赖关系、
必须串⾏⽣成的序列化⽅法
Boosting是⼀族可将弱学习器提升
为强学习器的算法,其中最具代表
性的是AdaBoost算法
强可学习、弱可学习
强可学习与弱可学习是等价的,即:
在PAC学习框架下,⼀个概念是强
可学习的充要条件是它是弱可学习
的
强可学习
在概率近似正确(probably
approximately correct, PAC )学习
框架中,⼀个概念,若存在⼀个多项
式的学习算法可以学习它,并且正
确率很⾼,则称这个概念是强可学
习的;
弱可学习
如果存在⼀个多项式的学习算法能
够学习它,学习的正确率仅⽐随机
猜测略好,则称这个概念是弱可学
习的;
前向分步算法
前向分步算法
优化⽬标和求解⽅法
Adaboost
例⼦ 算法
AdaBoost训练误差分析
指数损失函数
G(x) 就是 sign(f(x))
前向分步算法与AdaBoost
AdaBoost:指数损失函数的
前向分步算法
AdaBoost算法是前向分步算法的
特例。其中,模型是由基本分类器
组成的加法模型,损失函数是指数
函数。
Adaboost 的损失函数是?
Gradient Boosting算法
Gradient Boosting算法流程
1 输⼊ 2 经验⻛险最⼩化
使⽤前向分步算法
3
对函数F求梯度得到伪残差
伪残差=梯度⽅向(对函数求梯
度?)
找到⼀个基分类器逼近伪残差
为什么不直接⽤伪残差来计算呢?
伪残差的函数形式和基分类器的
形式不同,这⾥要求在基分类器的
函数空间中找到⼀个能够逼近伪残
差函数的基分类器。
Gradient Boosting基本思想
选择梯度下降导致结果不⼀定是全
局最优解
选择最优步⻓(最优化⽅法)
因为使⽤梯度下降
函数空间的梯度下降?
例⼦:提升树
提升树
提升树是以分类树或回归树为基本
分类器的提升⽅法;
不同的问题有不同的提升树学习⽅
法,其主要区别在于采⽤的损失函
数不同
被认为是统计学习中性能最好的⽅
法之⼀
分类问题:指数损失函数 回归问题:平⽅误差函数
训练数据集
回归问题,y属于R
基本形式
这个树就是处在不同区域的样本分
⽚常值函数之和
为什么要划分成区域,在每个区域
上选择⼀个常数?
集成学习算法分析
UCAS_机器学习导论
_08_特征选择与稀
疏学习
特征选择与稀疏学习
特征选择
定义
给定⼀个学习任务,对于给定的数
据属性(特征)集,从中选出与任务相
关(对学习任务有利)的特征⼦集的
过程
特征集是属性集,特征是属性
特征选择涉及两个关键环节
⼦集评价
对特征⼦集的分类性能进⾏评价
通常基于类别可分性来进⾏特征⼦
集评价
常⽤的判定准则包括:信息增益、
信息熵等
特征⼦集评价判据
直接判据
分类器的分类错误率(通常很难计
算)
因为直接判据很难计算所以我们才
需要间接判据
间接判据
与分类器的分类性能存在⼀定关系
的判据,例如:不同类别数据的可分
程度、不同类别的概率,例如:不同
类别数据的可分程度、不同类别的
概率分布的差异性、特征对于分类
的不确定性程度。
⼦集搜索
⽬标
从给定的含有特征数⽬D的特征集
合中选择最优的特征⼦集
搜索策略
根据⼦集搜索策略不同
前向搜索策略:在特征选择的迭代
过程中,每次只加⼊⼀个新特征,并
对得到的特征⼦集进⾏评价,直到
增加特征不会优于增加特征之前的
⼦集为⽌。
后向搜索策略:从完整特征集合开
始,每次迭代去掉⼀个⽆关特征,直
到去掉特征后会导致剩余特征⼦集
的性能显著减少
双向搜索策略:将前向特征选择和
后向特征选择相结合。
随机搜索策略:使⽤随机策略进⾏
⼦集搜索,然后对得到的特征⼦集
进⾏评价
包裹式选择
包裹式特征选择直接把最终将要使
⽤的学习器的性能作为特征⼦集的
评价准则
简单来说就是选择特征,实际验证
的过程。包裹就是指把特征选择的
过程和训练的过程打包到⼀起。
⽐如分类问题,先选特征,再训练
分类器,根据分类结果评价特征选
择的好坏
通常采⽤交叉验证来评价选取的特
征⼦集的好坏
留⼀法是指只留⼀个样本进⾏验证
(为了充分利⽤数据⽤于训练)
留出法是留⼀法的拓展,多留⼏个
样本
K折交叉验证是将样本分成k份,
进⾏k轮循环,每轮使⽤⼀份验证
其余k-1份进⾏训练
算法
例⼦
把基分类器 h_t 当作特征。
关于基分类器 h_t : 只⽤⼀维特征
构造基分类器
包裹式选择分析
效果好是因为直接⽤分类任务作为
评价指标
启发式⽅法,⽆法保证得到最优⼦
集
需频繁调⽤学习算法进⾏候选特征
⼦集的评价• 通常特征选择效果很
好,但计算量很⼤
针对计算量⼤的问题有了过滤式特
征选择
过滤式选择
基本思想
过滤式选择先对数据集进⾏特征选
择,然后再训练学习器。特征选择
过程与后续学习器⽆关
定义⼀个评价函数,来度量某个给
定特征与类别标签之间的相关度;
最后选取具有最⼤相关度的k个特
征作为选择结果
启发式特征选择⽅法,⽆法获得最
优⼦集;
⽅法
单独特征选择法
“装袋”法
分⽀定界法(Branch and Bound)
嵌⼊式选择
基本思路:在学习w的时候,对w进⾏
限制,使得w不仅能满⾜训练样本的
误差要求,同时使得w中⾮零元素尽
可能少
使⽤L0范数是最直接的,但是由
于L0范数是不可导的所以不能直
接⽤
分类器训练过程⾃动完成了特征选
择。
基于L1范数的特征选择
LASSO
⽐较
稀疏表示与字典学习
字典学习
基本思想
数据表示 为什么要稀疏表示 算法
具体例⼦
K-SVD算法
K-SVD算法是K-means聚类算法的
推⼴形式
和 K-means 算法⽐较
编码:⽤⼀个聚类中⼼表示这个点
字典:聚类中⼼
字典学习与压缩感知
UCAS_机器学习导论
_09_半监督学习
定义
半监督学习研究如何让学习器基于
少量的标记样本,⾃动地利⽤未标
记样本来提升学习性能。
优势
为什么未标记样本会有助于提升学
习性能?
半监督学习的划分
纯半监督学习与直推学习
主动学习(Active Learning)
不是半监督学习
引⼊了额外的专家知识,通过与外
界的交互来将部分未标记的样本转
变为有标记样本
半监督学习
纯半监督学习(或归纳学
习,Inductive Learning)
直推学习(Transductive Learning)
基本假设
基本假设:相似的样本拥有相似的
输出
连续假设 聚类假设 流形假设
连续假设
连续假设(Continuity assumption)
Points which are close to each
other are more likely to share a
label
聚类假设
聚类假设(Cluster assumption)
假设数据存在簇结构,同⼀个簇的
样本属于同⼀个类别– 同⼀个类别
的样本可能跨越多个簇
“簇结构”假设样本聚堆,由连续性
假设,⼀个堆的样本⼀定属于同⼀
类;同⼀类样本可能包括好⼏堆
流形假设
流形假设(Manifold assumption)
数据点位于⾼维空间中⼀个低维流
形上,邻近的样本拥有相似的输出
从流形的⻆度描述样本聚类成⼀簇
的特性
语⾳和⼈脸数据都是在⾼维空间中
的⼀个低维流形
半监督学习描述
启发式⽅法
⾃学习与协同学习
⾃学习(Self-training)
特征学习和度量学习
基于单学习器
⽣成式⽅法
基于⽣成式模型的⽅法
⽣成式模型
该假设使得我们可通过潜在模型的
参数将未标记数据与学习⽬标关系
起来,⽽未标记数据的标记可看作
模型的缺失参数,从⽽可通过极⼤
似然或EM算法进⾏估计。
基本思想 基于⾼斯混合模型的⽣成式⽅法
半监督SVM
半监督⽀持向量机(Semi-
supervised Support
Vector Machine, S3VM)
直推式SVM (TSVM)
针对⼆分类问题的半监督直推学习
⽅法
图半监督学习
构造图
标记
构图过程仅考虑训练样本集,难以
判知新样本在图中构图过程仅考虑
训练样本集,难以判知新样本在图
中位置,因此,对新样本进⾏判定时,
常需要引⼊额外的预测机制,如利
⽤标记样本和标记传播得到的样本
重新训练⼀个SVM。
基于多学习器
基本思想
通过多学习器相互提供伪标记样本
的⽅式来提升泛化性能
协同训练(co-training)
基于分歧的⽅法的代表
多视图学习(multi-view learning)
数据来源
多视图数据
协同训练
协同训练本质是产⽣具有显著分
歧、且性能尚可的多个学习器。
基本假设
数据拥有两个充分且条件独⽴视图
条件独⽴
“条件独⽴”指在给定类别标记条件
下两个视图独⽴
理论证明:若两个视图充分且条件
独⽴,则可利⽤未标记样本通过协
同训练将弱分类器的泛化性能提升
到任意⾼。
实际中视图的条件独⽴性很难满
⾜,因此性能提升幅度不会太⼤,但
即便在更弱的条件下,协同训练仍
可有效地提升弱分类器的性能。
充分
“充分”指每个视图都包含⾜以产⽣
最优学习器的信息;
算法描述 其他⽅法
半监督聚类
监督信息
两个典型算法
约束k均值算法 Constrained k-
means
利⽤样本的必连和勿连约束信息进
⾏聚类
算法 例⼦
约束种⼦k均值 constrained seed
k-means
思路
给定了少量的有标记样本
UCAS_机器学习导论
_10_概率图模型1
概率图模型
机器学习任务常可归结为计算变量
的概率分布
优点
可实现概率模型结构的可视化,进
⽽能够改进现有模型或设计新的模
型
涉及模型推断或学习的复杂数学计
算问题,常可通过图上的操作或运
算来隐式的实现
从图上能够直接观察得到概率模型
的某些重要性质, 如条件独⽴性等
顶点(nodes, vertices):⼀个顶点对
应⼀个随机变量
边(links, edges, arcs):随机变量之
间的概率依赖关系
常⻅的概率图模型
隐⻢尔可夫模型
⽤于标注问题的统计学模型,描述
由隐藏的⻢尔可夫链随机⽣成观测
序列的过程,属于⽣成式模型
序列数据的处理,包括语⾳识别、
⾃然语⾔处理等
关于时序的概率模型– 描述由⼀个
隐藏的⻢尔可夫链随机⽣成不可观
测的状态随机序列,再由各个状态
⽣成⼀个观测⽽产⽣观测随机序列
的过程
两个基本假设
条件随机场
⽣成式模型(Generative models)
如何采样
只有叶⼦结点可以被观测到⽤来采
样
线性⾼斯模型
⽤概率图模型来表示多元⾼斯分布
函数
有向图模型(Directed graphical
models) • ⻉叶斯⽹络(Bayesian
network)
⻉叶斯⽹络
⽤于表示联合概率分布的有向图必
须是有向⽆环图(directed acyclic
graphs, DAGs)
⽆向图模型(Undirected graphical
models) • ⻢尔可夫随机场
(Markov random fields)
⻢尔可夫随机场
也可将⼀个概率分布函数进⾏因⼦
分解,然后表示成⼀个⽆向图模型
例⼦
把集合C顶点从图中去掉,A和B不
联通就说明AB条件独⽴
最⼤团和这⾥的联合概率分布有什
么关系?
联合概率分布以最⼤团为单位进⾏
分解
势函数和最⼤团的顶点变量是什
么?
能量观点
Hammersley-Clifford定理
Hammersley-Clifford定理指
出:UI=UF
类似地,可从滤波器的⻆度来看待
⽆向图
转化
D-separation
将条件独⽴性推⼴到⼀般情形
条件独⽴性
C发⽣的条件下a发⽣与b⽆关
条件独⽴性可直接从⼀个给定的有
向概率图模型上“读”出来
在c未作为条件时,ab不是条件独
⽴的
Block 阻塞:相关性被中断。当c
被观测到时a和b的相关性被阻
塞,变为独⽴(属于“c被观测”条件
下的独⽴)
当c被观测到时a和b是不是条件独
⽴的;
如果c没有被观测到,a和b就是独
⽴的
亮灯场景
如何理解阻塞?
ABC:没有公共顶点的集合
图 a 说明
c 节点是 head-to-head 节点 e 的
后代,c被观察到,所以 e 节点不
阻塞
图模型的两个视⻆
分解成条件概率连乘积的形式就是
因⼦分解
Filter
什么是因⼦分解
UCAS_机器学习导论
_11_概率图模型2
图模型的学习与推断
若将模型参数看作待推测的变量,
则模型参数估计或参数学习问题与
模型推断⼗分类似,可“吸收”到推断
问题中
基于概率图模型定义的联合概率分
布,能对⽬标变量的边际分布
(marginal distribution)或以某些可
观测变量为条件的条件分布进⾏推
断
概率图模型上的精确推断⽅法
变量消去法
求和之后变成 x_2 的函数
m_12 :把 x_1 求和留下 x_2
多个变量计算时的冗余计算:计算
⼀个变量的中间结果不能够给另⼀
个变量使⽤
信念传播算法
将变量消去法中的求和操作看作⼀
个消息传递过程,解决了求解多个
边际分布时的重复计算问题
正⽐于: 前⾯的系数是归⼀化因⼦
1/Z
引⼊⼀个新的节点,后⾯讲
Sum-Product算法
链
因⼦图
因⼦图和之前的⽆向图与有向图有
什么区别?
理解 sum-product 递归计算的⽅
式和原理
因⼦节点向变量节点传递
消息的过程
F_s(x,X_s) 是⼀组中所有 f_s 的乘
积
因⼦节点 f_s 如何确定?
变量节点向因⼦节点传递
消息的过程
变量节点只做累乘
消息传递的好处
视⻆1:相当于变量节点向变量节
点直接传递消息,和BP算法相
同。
视⻆2:计算图,因⼦节点的操作
是累加再累乘,变量节点的计算操
作是累乘。消息从叶⼦节点传⼊。
消息的值:
应⽤ 计算⽆向图上的规范
化因⼦
只需要针对⼀个变量求和,原来需
要对整个图上的所有变量求和
举个例⼦
隐⻢尔可夫模型的学习与推断 概率图模型上的近似推断⽅法
UCAS_机器学习导论
_12_强化学习
⻢尔可夫决策过程与⻉尔曼⽅程
状态的⻢尔可夫性
基于模型的⽅法(Model-based)
规划 动态规划
策略评估 策略提升
⽆模型⽅法
⽆模型⽅法(Model-free)
Monte-Carlo策略评估
得到⼀条完整轨迹之后更新G_t
时间差分⽅法策略评估
与Monte-Carlo⽅法不同,时间差分
⽅法(Temporal- Difference,TD)不
要求采样轨迹的完整性
⼀步⽅法
只需要知道当前状态的动作回报和
两个状态的价值函数即可更新
策略提升
之所以替换是因为⽆模型时不知道
状态价值回报R_s^a,也不知道状
态转移概率 P_{ss’}^a,只知道某个
状态下的动作能带来的回报,和据
此估计的动作价值函数。
贪婪法最终可以收敛
探索和利⽤之间的平衡
异策略(Off-policy)学习
为什么要采⽤两个不同的策略?
可从观察其他Agents或⼈类的⾏
为进⾏学习
⾏动策略不需要是⾃⼰现有的垃圾
策略,可以是⼀个更好的策略
这样相当于模仿学习
可从重复利⽤旧策略所获得的采样
轨迹数据
⾏动策略专⻔⽤于探索,从⽽能够
学到最优策略
可同时学习多个策略,⽽仅⽤⼀个
策略进⾏探索
训练多个智能体
S状态下的A是⾏动策略决定的
(epsilon-greedy),和sarsa的不
同之处在于,评估Q(S’,A’)时采
⽤的动作A’是⽬标策略产⽣的
Note:Q-learning 的 target policy
的策略和 behavior policy 不⼀样
x轴:采样轨迹的⻓短
Y轴:利⽤样本的数量 (每⼀层利
⽤多少个样本)
UCAS_机器学习导论
_13_深度学习基础
与前沿
表示问题
万能逼近定理
结论:神经⽹络的表示能⼒很强,
表示不是问题
学习问题
⽹络的学习
: – 参数学习: • 给定数据对(X, Y),学
习参数W
如何调整⽹络参数?(梯度下降法等)
如何判断⽹络实际输出和期望输出
的差别?(损失函数)
结构学习: • 给定数据,学习最优的
⽹络结构
强化学习NAS
经典卷积神经⽹络
Resnet解决了梯度消失和梯度爆
炸的问题从⽽可以训练任意深的⽹
络
⽹络结构
AlexNet
AlexNet 在LeNet 基础上进⾏了更
宽更深的⽹络设计,⾸次引⼊了
ReLU、Dropout和 Local
Response Normalization (LRN)等
技巧。
呈现的新特征
VGGNet
VGGNet呈现的新特点
对卷积核和池化⼤⼩进⾏了统
⼀:3×3卷积和2×2最⼤池化操作。
采⽤卷积层堆叠的策略,将多个连
续的卷积层构成卷积层组。(⽽不
是卷积之后⻢上池化)
更⼩的参数防⽌过拟合:两个堆叠
的3*3卷积核的参数2*(3*3+1) =
20;⼀个5*5卷积核:5*5+1=26
GoogLeNet
Inception 模块
1*1卷积:在第三个维度上进⾏卷
积。
⽹络更宽
ResNet
单位映射:输⼊=输出
W_s⽤于维度匹配
右:bottleneck 结构,特征维数先
减少再增加。
梯度不衰减才能让⽹络层数很多,
引⼊加节点能够让⽹络的梯度保持
Intro:LSTM中也存在加节点,
ResNet是LSTM在空间上的表现
视觉⽬标检测⽹络
Objectness ⽬标性 即判断是否是
⽬标
proposal:候选区域
两个输出 1. 识别问题:分类问题
2. 定位问题 回归问题
R-CNN
⽬标定位的⽬的是原始的⽬标检测
可能不准确
Fast R-CNN Faster R-CNN
图像语义分割⽹络
物体检测只需要⽤包围盒检测,语
义分割需要确定边界,物体分割需
要划分物体,精细度逐渐增强
没有考虑多尺度信息:使⽤固定⼤
⼩的图像块的问题
前端处理
总结
全卷积⽹络 FCN
Fully Convolutional Networks特
点
全连接层需要输⼊图像的像素固
定。Q:全连接层在整个⽹络结构
的最后也需要固定输⼊维度?
VGGnet的参数不变改变最后的全
连接层,结果变成输出 heatmap
采⽤跨层连接,引⼊底层特征补充
上采样信息
对最后⼀层上采样会导致边缘信息
丢失
改进⽅案将最后⼀层的输出和上⼀
层的pooling输出结合,因为上⼀
层的pooling包含了更多的边缘信
息,所以效果更好
以此类推与上层pooling结合
DeconvNet
Unpooling⽤来补偿丢失的位置信
息
把卷积表示成对象量X执⾏矩阵乘
法,卷积核K对应⼀个矩阵。反卷
积操作就是K^T=X ?卷积核正交?
U-Net
Encoder decoder 结构
中间的灰线表示特征拼接
RefineNet
将unet中的拼接模块换成refinenet
模块
后端处理
CRF 条件随机场
资源评论

- 航知道2023-07-24这篇文件不仅介绍了机器学习的基本概念,还涵盖了一些进阶的内容,对于想进一步学习的人来说是很好的资料。
- MsingD2023-07-24文中提供了一些实际案例,帮助读者更好地理解机器学习的应用。
- VashtaNerada2023-07-24该文件对机器学习的导论课程进行了总结,可以给学习者提供一个全面的概览。
- 学习呀三木2023-07-24文件中的内容简洁明了,不会让人感到晦涩难懂,适合初学者阅读。
- 陈游泳2023-07-24这篇文件很全面地介绍了机器学习的知识图谱,对初学者来说非常友好。

whuKK
- 粉丝: 0
- 资源: 6
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


安全验证
文档复制为VIP权益,开通VIP直接复制
