改进特征引导消歧的偏标记学习算法.docx资源-CSDN文库

版权申诉

137 浏览量 2022-12-15 14:16:17 上传评论收藏 1.1MB DOCX 举报

资源推荐

资源详情

资源评论

监督学习是机器学习中被研究的最为广泛的一种学习框架

[1]

，在这种学习框架下，每

个学习示例都有明确的标记信息，是使训练得到的模型具有强泛化性能的前提。而真实世

界的情景更为复杂，由于标记成本高、真实标记难以获得等原因，常常无法得到明确的标

记信息。如何在弱监督条件下进行学习，已经成为机器学习领域的热门研究问题

[2]

。

偏标记学习属于弱监督学习的一种，属于不准确监督，即给定的标签不总是真

[3-5]

。在

偏标记学习领域，每个训练示例与一系列的候选标签集相关联，其中只有一个标签是真实

的标签，其余的标签为伪标签

[6-7]

。偏标记学习算法是通过有干扰的数据训练来习得分类模

型，在现实生活中许多场景都存在类似情况，所以该领域具有很高的研究价值

[8]

。如在互

联网搜索引擎中，对一个关键词进行搜索时，会出现许多相关程度不高的图片，这是由于

该图片的标签不止一个

[9-10]

，这种场景就适于用偏标记学习算法来解决

[11]

，通过对带有干扰

的标签进行学习，最终得到更高的识别精度，减少了在不考虑伪标签干扰情况下所带来的

损失。偏标记学习是对传统分类学习的一种延伸扩展，具有非常广阔的发展空间和应用前

景，在图像分类、医疗诊断、文本挖掘、医学图像处理等领域也有相应的应用。

1. 理论分析与设计

1.1 特征引导消歧

文献[12]提出了一种基于特征感知消歧的偏标记学习算法，利用特征空间的潜在信

息，将偏标记学习问题转换成多输出回归问题。该算法分为 2 个阶段：第一阶段是消歧，

通过对样本在特征空间的流形结构进行学习得到结构信息，并利用结构信息在候选标记集

合上生成归一化的标记置信度信息；第二阶段是预测模型的生成归纳，利用第一阶段的信

息来学习一个基于正则化的多输出回归模型，最终得到回归模型在多个标记中输出值最大

的一个所对应的标记。

1.2 改进特征引导消歧方法

以往的消歧策略是把学习的重心放在标签信息空间

[13]

，忽视了特征信息与标签之间的

联系，未对已有的信息进行充分利用。作为一种将样本特征之间的相关性充分利用和结合

的方法，改进特征引导消歧方法弥补了特征信息欠拟合的弱点，使偏标记学习过程中消歧

的效果得到了改善

[14-15]

。但是在衡量样本相关度的过程中，仅采用一种最小二乘法来计算

权重矩阵，使相关度的计算过程存在单一性。因此，将示例的相似性进行综合考量，对特

征引导消歧方法做出改进，并采用集成学习的方法对分类模型的生成进行优化，提出了改

进特征引导消歧的集成学习偏标记算法，简称 PL-FGD。

1.2.1 构建特征相似度矩阵

每个样本 x

都由对应的特征空间 y 和拥有多个标签集合的空间 l 组成，偏标记学习系

统的目标是获得一个输出正确标签的多分类器 h。消歧思想第一步是构造一个样本关联度

矩阵，获得特征空间的结构信息，为了得到不同示例特征之间的关联度，首先要生成一个

置信度矩阵，其能够反映出第 j 个样本和第 i 个样本的相似度。对于偏标记样本，假设当

样本间的特征相似度越高，样本间具有相同标签的可能性就越高。基于此假设，用特征权

重矩阵来定义示例样本之间的特征关联性。样本特征空间 X{x

, x

, …, x

}中的每个样本 x

都有一个基于 K

构建的 k 近邻样本矩阵 N

，用于存放第 i 个样本的紧邻样本序号，近邻

样本数由参数 k 控制，通过计算最小二乘式得到样本之间的权重矩阵，权重矩阵的计算可

表示为

minw∑j=1m‖xi−∑(xi,xj∈X)wijxj‖,

(1)

为了保证矩阵 W 是严格的对称矩阵, 需满足

。W=W+WT。

(2)

x 从样本的特征空间分布中获得，权重矩阵中的 w

表示示例 x

与示例 x

之间的相似

度，该值越大，则对应的 2 个样本之间相似度越高。与已有的消歧算法不同的是，考虑到

权重矩阵在构建不同样本的特征关联过程中尤为重要，为了使权重矩阵在算法中具有更好

的表现，用加权最小二乘法对权重矩阵进行优化处理。首先将通过加权最小二乘法得到的

权重矩阵视为迭代初值，回代计算后求出初始残差，将初始残差标准化；然后将标准残差

代入权重初值进行迭代计算，返回以上步骤，并依次进行迭代；当相邻两步的回归系数差

值的绝对值满足临界条件时，迭代结束。

1.2.2 构建标签相似度矩阵

偏标记学习领域存在标签信息利用不充分的问题

[16]

，而在提出的假设中，不同示例标

签之间可以利用的信息也对解决该领域问题起重要作用。标签作为对样本特征的一种描述

和定义，也反映了样本之间的联系，利用标签信息进行相似度计算能够一定程度缓解数据

稀疏性问题。考虑到标签信息之间也存在与样本特征之间相似的关联性，用一个相似度矩

阵度量候选标签集之间的相似度，以此达到在消歧阶段对标签信息充分利用的目的。为了

获得可以将标签个体联系起来的相似度矩阵，用皮尔逊相关系数度量标签集合间的相关

度，相关系数越大，表示二者间的关联性越强，反之则关联性越弱。

2 个样本标签间的皮尔逊相关系数定义为 2 个变量之间的协方差与标准差的商，可表

示为

ρX,Y=cov⁡(X,Y)σXσY=E[(X−μX)(Y−μY)]σXσY,

(3)

通过估算样本的协方差和标准差得到皮尔逊相关系数，可表示为

。sim⁡(L,Lk)=∑i=1s(Li−L¯)(Lki−L¯k)∑i=1s(Li−L¯)2×∑i=1s(Lki−L¯k)2。

(4)

皮尔逊相关系数可用于计算 2 个向量之间的相对距离，反映标签之间的线性相关度。

通过计算每个标签与近邻样本标签之间的皮尔逊相关系数，可得到一个矩阵，存放能够代

标标签相似度的数值，取值范围为(-1，1)，当 2 个样本之间呈正相关时，数值为正；否则

为负。L 表示某样本标签，L

表示某样本的近邻样本标签，L

表示该样本标签中的第 i 个标

签，L

表示该样本的第 k 个近邻样本标签集中的第 i 个标签，L 表示该样本的平均标签

数，L

表示第 k 个近邻样本的平均标签数。根据式(5)对相关系数进行标准化处理，使其最

终结果在区间(0，1)，

。sim⁡(L,Lk)=sim⁡(n,j)−min1⩽n⩽m1⩽j⩽k{sim⁡(n,j)}max1⩽n⩽m1⩽j⩽k{sim⁡(n,j)}−min1⩽n⩽m1⩽j⩽k{sim⁡(n,j)}。

(5)

通过特征信息和标签信息得到的样本之间的相似度可作为消歧的重要参考依据，将样

本之间的相似度定义为 S，样本之间的综合相似度系数可表示为

S=αminw∑j=1m‖xi−∑(xi,xj∈X)wijxj‖+(1−α)sim⁡(L,Lk),

(6)

其中，α 为模型参数，用于调节特征权重和标签相似度之间的比例，使样本之间的相

似程度更符合真实样本集的情况。用显信度矩阵得到的最终计算结果为 F= [f

n, j

]

m×k

, 每行

=[f

n, 1

, f

n, 2

, …, f

n, k

]表示各个标记作为示例 x

的真实标记的置信度，可表示为

。minF,W∑j=1mα‖xi−∑(xi,xj∈X)wijxj‖∑j=1,j≠im‖Fi−Fj‖+(1−α)sim⁡(L,LK)∑j=1,j≠im‖Fi−Fj‖。

(7)

基于同类样本之间的相似度越高，置信度的差异应当越小这一原则，可根据置信度矩

阵得到最终消歧后的训练数据集 D^={(Xi,yi)∣1⩽i⩽m},y

为消歧后示例 x

的标记。

1.2.3 生成预测模型

为了提高模型的分类精度，PL-FGD 在学习框架中利用了集成学习中的 bagging 策

略，使用 CART 树

[17]

来实现分类决策树的构建。

集成学习是由多个分类器组成的学习系统，通过将多个学习器进行结合，常可获得比

单一学习器显著优越的泛化性能，从而得到更好的结果

[18]

。一般集成学习方法可分为 2

种，一种是个体学习器间存在着强依赖的 Adaboost 算法，另一种是单个学习器之间相互独

立，同时可并行运算，如随机森林算法

[19]

。PL-FGD 采用的集成方法是多个学习器的结合

策略，学习器的结合具有如下好处：首先，多个学习器的结合比单个学习器有更好的泛化

性能

[20]

，可通过多个学习器共同发挥作用来解决过拟合的问题，且参数很少，对于回归和

分类都适用；其次，通过多次运行可降低陷入局部极小点的风险，也无需事先做特征选

择，每次只随机选取几个特征来训练；最后，通过学习器的结合，样本相应的假设空间有

所扩大，实现了对数据的最大化利用，有效性更高。图 1 为所建立的分类模型的流程示意

图。

剩余15页未读，继续阅读

评论收藏

内容反馈

版权申诉

罗伯特之技术屋

粉丝: 3895
资源: 1万+

改进特征引导消歧的偏标记学习算法.docx

基于成对约束的偏标记数据消歧算法.docx

论文研究-基于近邻加权及多示例的多标记学习改进算法.pdf

基于标记特定特征和相关性的ML-KNN改进算法

基于自考生自主学习特征及引导的研究.docx

论文研究-用于多标记学习的K近邻改进算法.pdf

课程设计-磁盘调度算法.docx

(机器学习作业)基于稀疏表示的数据缩减算法.docx

学习笔记5：数据预处理与数据挖掘十大经典算法.docx

特征特定标记关联挖掘的类属属性学习.docx

一种基于先验标记特征的精准图像配准算法.docx

数学建模竞赛中应当掌握的十类算法.docx.pdf

十大必须掌握的机器学习算法.docx

7 算法图解十大经典的机器学习算法.docx

基于关联规则和协同过滤的混合图书推荐算法.docx

一种缓解推荐偏好的协同过滤TopN算法.docx

文献综述-餐饮电子商务个性化推荐系统推荐算法.docx

书作文之基于个性化图书推荐的协同过滤算法.docx

一种基于项目的混合显性隐性反馈的协同过滤推荐算法.docx

实验四死锁避免的算法.docx.docx

实验--编程实现请求分页存储管理页面Optimal、FIFO、LRU置换算法.docx

一种基于改进遗传算法的神经网络优化算法研究.docx

基于优化PSO-BP的多特征融合图像识别算法研究.docx

异源遥感影像特征匹配的深度学习算法.docx

相关实用应用程序（Windows可用）

李飞飞自传 我看见的世界 The World I see

ChatGPT使用总结：150个ChatGPT提示词模板（完整版）

最新资源

李飞飞自传我看见的世界 The World I see