没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
第
34
卷第
3
期
2014
年
6
月
惠州学院学报(自然科学版)
JOURNAL
OF
HUIZHOU
UNIVERSITY
主动学习在标记传递算法中的应用
兰
i
主东
(惠州学院
计算机科学系,广东惠州
I
516007)
Vo
l. 34.
No.
3
Jun.2014
摘要:为了提升标记传递算法的分类精度,提出了结合主动学习的标记传递算法。在标记传递算法中,通过
主动学习挑选能最大程度提升分类性能的未标记数据给领域专家标记。在主动学习过程中,依据估计风险最小化
原则挑选待标记样本。在
UCI
数据集上的实验表明:结合了主动学习的标记传递算法,可以减少对己标记样本数量
的要求,力口快学习速度和改善学习质量。
关键词:主动学习;半监督学习;机器学习;分类
中图分类号
:TP319
.4
文献标识码
:A
文章编号:
1671 -
5934
(2014)
03 - 0071 -
08
1
引言
半监督学习自诞生以来,受到了国际机器学习和数据挖掘界的高度重视[口]。无论在理论还是实际应用
中半监督学习都得到了长足的发展,并被广泛应用于各领域,如文本分类,网页检索,数据挖掘,视频和图像
检索,语音识别,生物结构预测等。半监督学习介于监督学习和无监督学习之间,在半监督学习中数据集
X=(
以
ε[
叶
(i
E[n]:
=(l
,...,
n})
分为两部分:已标记数据
X1:=(Xj
,...,
X
1
)
,
其标记为
Y
1
:
=(yl'…
'Yl)
未标记数据
xu:=(ZI+lv·-
州
+u)
[
飞本文使用
L
来表示己标记数据
,
U
来表示未标记数据。
基于图的半监督学习是众多半监督学习类型中的一种,同其他半监督学习算法一样,它能利用未标记
数据所带来的信息,以提高学习的性能,获得更好的分类器。常见的基于图的半监督学习算法有:
(1)最小
割,Bl
um
和
Chawla
将半监督学习看作是一个图最小分割
(MinCu
t)问题[叫。考虑二元分类问题,将正例样本
看作是"源
"(Source)
,反例样本看作"阱"
(Sink)
。学习的目的是寻找从"源"到"阱"之间所有连接的一个最
小割集,这个过程可以用图论中的最大流
CMax-flow)
算法来实现。
(2)
调和函数[到
(Harmonic
Function)
,通过
定义调和函数保证对已标记数据的输出与标记样本的真实标记一致,对于未标记数据,须满足权值平均特
性。
(3)
标记传递
(Label
Propagation,
LP)
算法
[6]
使用数据(包含巳标记样本和未标记样本)来创建一个全连
图,标记从图上的已标记结点传递到其近邻结点,其传递过程主要依赖表示结点之间相似性的边权值。
在标记传递算法中,已标记数据对算法的分类精度影响较大。如果在算法执行过程中,只是随机选择
数据予以标记,不能获得很好的分类效果。因此本文在选择未标记数据予以标记的过程中,采用了主动学
习。主动学习允许学习算法挑选未标记数据给"专家"予以标记。得到"专家"标记的数据,可以作为标记样
本加入到训练集中。换言之,在半监督学习中,如果必须标记少量的样本来参与训练,可以让主动学习算法
挑选出对分类性能有帮助的样本来进行标记,而不是随机选择。
2
标记传递算法及其收敛性
标记传递
(Label
Propagation,
LP)
算法是一种基于图的半监督学习方法,使用数据(包含已标记样本和
未标记样本)来创建一个全连图,标记从图上的已标记结点传递到其近邻结点,其传递过程主要依赖表示结
收稿日期
:2014
-
02
-
20
基金项目:惠州市科技计划项目
(No.201
1 B020006002 ,
20
J3
w lO)
;惠州学院校立自然科学基金
(No.2012YB14)
作者简介:兰远东
(1975-
),男,贵州桐梓人,讲师,博士,研究方向为模式识别与机器学习。
.72.
志州学院学报(自然科学版)
2014
年第
34
卷
点之间相似性的边权值
[6J
。
IIX
i
-xjW
Vij
=exp(-
一
2
一(1)
dα
其中,
α
是超参数。通过上面的权值计算,可以得到样本相似矩阵
[WL"
(n
是给定训练集中的样本数
量
)0
LP
算法定义了一个
nXn
的概率转移矩阵
P
.:í
m
下:
P
ij
=P(i•
lhJL(2)
Lk=I
Wik
其中,
Pu
是结点
i
将标记传递到
j
的概率。定义一个
1
X
c
(
1
是训练集中标记样本的数量,
C
是拥有的类
别数量)的矩阵儿和一个
UXc
(
u
是训练集中未标记样本的数量)的矩阵儿,其元素
fij
为:
[1
,
j=c
叫
εL
儿
=i
O
,
j
乒
C
叫
εL
IE[O
,
l]
,
X
i
εL
(3)
寸
ltJllt
川
14
日
M
--
f
fJ
(4)
在
LP
算法中,其标记按照下面的方法从标记结点传递到其近邻结点。
fiL)=PXfii-l)
(5)
综上所述,
LP
算法的具体步骤如下:
(1)设置循环变量
i
=
0
,初始化刀
=0;
(2)
根据公式
(2)
计算概率转移矩阵
P;
(3)i
=
i+l
,并根据公式
(5
)t十算
jjz);
(4)
重复
(2)-(3)
,直到矿
=jfl);
(5)
使用
Yi
=
arg
maxkhk
来标记抖。
从
LP
算法可以看出,未标记数据在不断的被更新。从己标记数据点开始,标记首先传递到离其最近的
未标记数据,然后再传到次近邻。
此外,
ZhuX
在文献
[6J
中还给出了标记传递算法的收敛解,其结果如下:
fu
=
limll_.
",
((P
uu)"fJ
Ü
)
+(L.
(P
uuf
1)
)p
udJ
(6)
=lim
…(立
(P
uut
1
)P
川
=(1
-
Puuf1pudL
其中
,
I
是一个
UXu
的单位矩阵。这样就可以直接求解
LP
算法,而不需要迭代求解气
剩余7页未读,继续阅读
资源评论
weixin_38565480
- 粉丝: 5
- 资源: 927
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功