论文研究-基于压缩编码的迁移学习算法研究.pdf

所需积分/C币:11 2019-09-08 00:14:55 910KB .PDF
9
收藏 收藏
举报

在生产实际中,一个新的任务通常和已有任务存在一定的联系。迁移学习方法可以将已有数据集中的有用信息,迁移到新的任务,以减少重新建模过程中大量的时间和费用消耗。然而,由于任务之间的分布差异,在异构环境下如何避免负面迁移问题,仍未得到有效的解决。除了要衡量数据间的相似性,还需要衡量实例间的相关性,而大多数传统方法仅在一个层面进行操作。提出了基于压缩编码的迁移学习方法(TLCC),建立了两个层面的算法模型,具体来说,在数据层面,数据间的相似性可以表示为超平面分类器的编码长度,而在实例层面,通过进一步挑选出有价值的实例进行迁移,提升算法性能,避免负面迁移的发生。实验结果表明,提出的算法相比其他算法具有明显的优势,在噪声环境下也有较高的准确度。
l442018,54(3) Computer Engineering and4 pplications计算机工程与应用 验值。在本文中,两个基本的编码方法定义如下。首先提升分类器的准确性。算法中的核心是权重的设计和 是在信息发遂框榘下,发送个字符串a的编码长度。计算,通过每个迭代过程屮的权重改变,可以将更接 a中包括b个"1”和(a-b)个"0”。第一步是传送数字近冂标数据分布的数据挑选出来并进行迁移。文献[s b,也就是“1”的数量,需要的编码长度为1ba+1),其次提出了一个半监督学习模型,通过计算实例的权重,将 是传送在盛个学中的位置也是(2,计2有价的来的罗团把出 公式如下: 的信息。但是,这种方法仅限于线性函数,而且目标数 ⊙(a,b)=b(a+1)+bl 据中的数据含量必须远小于源数据。在文献[7中,作 者扩展了PLSA( Probabilistic Latent Semantic Analysis) 举例来说,字符串“00010000100010010”可以通过 方法,尝试同时获取源数据和目标数据之间的差异部分 传送数字4来表示的数量编码长度为b19=425bt,和相同部分。在文献[6中,作者提#了一个基于高斯 然后传送“的位挫,所需编码长度为助18)=1586心过程的核函数方法可以衡量两个实例之间的相似度 因此,相比直接传送字符串所需的18bit,本方法只需要但其只能处理单个的源数据。在文献[13中,作者结合 (184)=1583b就能传送所有的信息。在数据量较了个动学习方法ERS上 rror Reduction Sampling 大并且数据具有可压缩性的时候压缩编码方法的性能并设计了一个启发式相似性函数,但在实验中,作者设 将大大提高。 定问询专家的概率不小于50%,而且,专家的可靠性也 没有体现。本文中所提出的算法,是基于属性的方法 通过两个层面的相似度衡量,可以将有价值的信息从源 3相关研究 数据迁移到目标数据,并且避免负面迁移的发生 和本文的相关研究,主要从两个方面进行阐述,首 先是归纳迁移学习其次是负面迁移的相关工作。本文4TLCC算法框架 中所提出的TICC算法属于有监督的归纳迁移学习,其 中源数据和目标数据都含有类标数据。现有的归纳 本部分将详细阐述TICC算法的主要框架和编码 方法。一般来说,如果从溟数据抽取一个数据子集并加 迁移学习方法主要可以分为两类,第一类是基于实例的 入到目标数据屮,而不去考虑其分布的差异性,很有可 法中,需要对源数据中的每个实例进行衡量,判断能会导致负面迁移的发生:负面迁移产生,有两个基本 是否可以加入到且标数据中。代表性算法有文献[45] 这两种方法都采用了权重方法来判断源数据中的实例 直接进行迁移会导致算法整体性能的降低。第二,即使 对目标数据的影响。而基于属性的方法则尝试在所有 源数据和目标数据的分布差异较小,也并非所有源数据 相关属性中找到一个子集,并且将属性信息从源数据中的数据都可以迁移到目标数据中,些数据子集和目 移到目标数据,从而提升目标数据屮的分类效果。但标数据分布接近,同时也会存在一部分数据子集和目标 是,大多数方法都包含大量的参数设置,并且对噪声较 数据的差异较大。因此,为了解决这两个问题,本文提 为敏感。文献[中提出了一个基于图的学习方法出的算法将分为两个层面:数据层面和实例层面。在数 据层面中,算法将衡量目标数据和源数据的整体分布差 过源数据来加速在目标数据上的模型学习,文献提异,在实例层面中,算法将抽取数据中的数据子集 出了一个基于KL距离的学习方法。在文献[12]中,作 补充到∏标数据。从而通过选择吏为相似的实例,来避 者提出了一个自适应迁移学模型 Auto tL,通过自动 免负面迁移的发生,而在迭代过程中,将分布差异较大 训练数据选择米进行短文本分析,而且不需要任何数据的实例排除出考虑范围。 的先验知识。在文献[14中,作者提出」一个属性标签 具体来说,算法的两个层面可以表示为 学习模型,通过属性标签的学习,避免了在不同数据集 (1)数据层面:根据S和T之间的相似性,将S依 中对于标注范围的衡量。本文中提出的方法可以避免 降序排列。 大规模的参数调整。在属性选择方面,基于MDL的方 (2)实例层面:从和T相似的S2中选择具有信息含 量的实例,并传送到T中。 法間可以对属性的先验值进行学习 而为了避免负面迁移问题的发生现有的方法主要4.1数据层面 集中在衡量数据之间以及实例之间的相似性11。其 本目标是将源数据S;按照和T之问的相似程度 中文献[4]将 adaboost算法扩展到迁移学习,提出了进行降序排列。但是,在目标数据仅有少量已标注数据 TrAdaboost算法,通过改变源数据中每个实例的权重来的情况下衡量源数据和目标数据之间的相似程度比较 邵浩:基于压缩编码的迁移学习算法研究 2018,54(3)145 困难。假设现有两个源数据S1和S2,以及一个目标数 通过取负log值,可以得到 据T如表1所示。m和x分别代表两种属性名称,方L=-DPmn)-bPo)- lb P(Tw), 而y代表类标。三个数据中的超平面权重矩阵分別是 和公式(1)不同的是,本文所需要计算的编码长度 U,U和v,其屮={,1,-3},w={1,0,-1},以及包含三个部分。通过压缩编码,可以衡量待选模型屮和 vo={1,0.-2 目标数据最为符合的最佳模型e。因此,对于一个源 表1三个人工数据集 数据S,其和T之间的相似度可以通过公式(5),使用 进行表 公式(5)中的前两项代表的是模型复杂度,而最后 项代表的是使用模型进行编码的数据的似然度。此 6 公式在数据层面用于衡量不同模型之间距离,因此,在 计算中,由于相似度是使用减法进行判断,从而可以避 0 0 免计算第二项-1bP()(在减法过程屮被消去)。需要 计算的编码长度为: 1-1-1-1 Li=-lb P(w un-lb P(lu 以下详细介绍编码长度的计算过程。对于第一项 直观上来说,如果将v和m应用到T中都只得来说,首先定义,在x=最有可能的情况下,对个实 到一个错误的分类结果因此,在没有附加信息的情况数x进行编码所需要的编码长度,其中p也是一个实 下,无法判断哪一个源数据和目标数据更为相似。为了数。假设f是一个连续概率函数,在这里,本文假设其 解决这个问题,本文提出了一个基于压缩编码的衡量机为高斯函数,因此 制,用于判断超平面分类器之间的距离。 =1/(2x3)2exp(-(x-p)3 在传统的MDL模型框架中,模型空间包含所有待 卜一步需要确定的是方差值a 选模型,而最奷的模型是通过计算公式(1)中的编码长 在精度ε下x的概率值可以表示为" 度来得到的。更符合数据分布的模型获取的编码长度 往往更短。考虑到模型空间中包含℃,℃,…;"k,山 U)t≈E (7) 于每一个w,都是从源数据S中获取的,因此PcS) 为了获取方差o,假设x=的概率是q(<q<1), 为源数据S上的后验概率,而对于压缩数据更好的 那么 T;,P(ve|S)更高。通过用T来代替S;,可以得到,如 果PmT的值比较高,那么可以判断;吏加贴合数 P(r=u=e (8 据T。在这种情况下,可以说S和T是相似的。囚 通过公式(8),可以计算出 此,P(wT)可以用于衡量S;和T之间的相似程度 =e(2Tq) 通过取负og值,在T中最仹的模型v,可以使得模型 在计算过程中,需要设定和q的值。其中q值应 编码和数据编码之和最小。因此,可以通过PαT)来该较高,因为在本文的编码理论中,x更有可能取附 对m1,me,…;mk进行降序排刎 近的值。因此,设定ε=0.01,g=0.8。注意到,精度∈ P(will lw) P(wi) 的取值计算过程中并不会对算法整体性能带来大的变 或者可以表示为按照编码长度,之和的升序排列 Ib P(ze -Ib P(toil 动,因为相同的∈情况下,所有的编码长度都是统一的。 设Ax,u)为在已知g的情况下发送x的编码长 注意到对超平面进行编码等同于对高维向量进行度,那么 编码,其中维度等于数据的属性数量。在本文提出的算 法中,采用v作为目标数据的一个估值,可以帮助衡量 rl r-4"q" A(x,u)=-1blE 源数据和月标数据之间的相似度,并且在迭代过程中 不断更新。w1可以通过以下后验概率公式进行降序 接下来考虑在已知v,的情况下如何计算-lbP(zur) 排列。 的加入是为∫尽可能多地将目标数据中存在的已标 (w lT, v,oc,wiiP(w; (3)注数据的信息加以利用。注意到c;和v都包含m个 在公式(3)中,假设v和T是独立的,可以变为:属性值,因此v=(eb,x2,…,e),v=(n2,v2,…,v) P(u T,o)ocP(Tvp(ulw ) P(o) 同样,在发送者和接收者的问题框架下,发送者和接收 P(Tw)P( lu)p(u,) (4)者都掌握v,的全部信息、。因此,为了发送w假设vn 1462018,54(3) Computer Engineering and4 pplications计算机工程与应用 的每一个属性值都是对应U上属性值的概率估计,那4.3算法描述 么,基于v的-bP(wu的编码长度就可以写为 TLCC的伪代码如下,其中TR表示分类任务中的 P(m7)=>A (10) 练数据 ul: S,i=1, 2, K) from the source donain, T roIn 对于公式(6)中第二个部分,可以将数据的类标看) the target domain. The initial hyperplane i;(=0)on 做是一个二进制字符串,因此,在计算过程中,仅需要将 Output: hyperplane v of the target data set w在字符串屮分类错误的类标进行编码即可。定义 1. for i=1 tok do v,T)为T上分类错误的实例 2: calculate I, for each S; by( 12),obtain Lin lP(7m)k=7,v27) 3: sort S, based on the ascending order of I 将公式(10)和公式(11)结合,就得到了对应m在 4 TR-T T上的编码长度L end for 6: for i=1 to k do L=N()+⊙T,o(xe,T) (12 7: sclect an instance r fromS 通过公式(12),可以将源数据按照编码长度的升序 8:TR=TR∪x,S=Sr 排列,并定义Lm为最小的编码长度 9. if formula (15) is satisfied then 回到表1中的例了,计算每个超平面分类器的编码 10: TR= TRr) 长度 12. cls L1=6(70m,T)+>A(1,)=587.31 13: obtain TR=TR\r by SVM on TR and obta 12=7o67m2,T7)+2Na22)=297.22 14: calculate L'--Ib P(w -lb P(tr w) 15:.=1 通过以上编码长度可以看出,相比1,w2和v更 为相似。因此,源数据S2在一定程度上更适合进行知 17: f++l, goto line 7 识迁移。下一·步就是针对不同的源数据,进行实例层面 18: end if 上的知识迁移。 19. cnd for 4.2实例层面 20: output v 在实例层面的知识迁移中,源数捃已经按照和目标 数据的相似性进行了排序,序号从1到K。举例来说,5实验结果与分析 在对S1中的信息进行知识迁移的过程中,需要判断其 本文中的实验数据采用UCI机器学习数据库中的 屮哪些是有价值的,那些是对结果可能产生负面影响三个数据集, mushroom、 splice和 I kr vs kp,通过预处理 的。本节中所介绍的方法,主要是在实例层面来判断哪过程+3,可以将这些数据分成源数据和目标数据。同 些数据是可以迁移,哪些数据是不能迁移的。 时,也在文本数据20 Newsgroup上做了算法测试和性 对于目标数据T和其超平面分类器v来说,如果能比较。 在T屮加入一个实例x变成T,相应的超平面分类器 UCI的 mushroom数据包含8124个实例,22个属性 变成41,在MDLP的框架下,如果以下情况发生时就值。 splice数据包含3190个数据和60个属性值,krvs 会产生负面迁移 kp数据包含31%6个实例和36个属性值。在 mushroom lbP)-bP(1)<-bP(0+1)-lbP(0-1)(13)上,通过stak- shape进行数据拆分,源数据包含所有 在实际中,加入一个更为严格的限制条件,让公式 stalk-shape属性为 tapering的数据,而目标数据则包含所 的计算更为合理 有stak- shape属性值为 enlarging的数据。 splice数据通 lbP(v)-bP(1)<-P(v+)-hP(wn)(14)过第个属性值进行拆分,源数据屮包含所有属性值为 通过合并以上两个式子,可以得到一个获取有价值A”和“G”的数据,剩下的数据则归为目标数据。同样 实例的规则。一个实例如果会产生负面迁移,那么其满 kr vs kp数据按照第l1个属性值进行拆分。在文献[45 足如下公式: 中,阐述了这种预处理方法的合理性,可以保证源数据 lb(17)-bw)<-lP(1+1)-lb+1)(15)和目标数据之间的分布差异性。在实验屮,除了分析不 在算法中,通过以上公式,可以选择最具有迁移价同数量的源数据对算法的影响之外,还分析了不同噪声 值的实例,从而在实例层面避免了负面迁移的发生。 环境下的算法性能。噪声的添加方法,是以一定概率将 邵浩:基于压缩编码的迁移学习算法研究 2018,54(3)147 目标数据中正确的类标反转为错误类标。 构建分类器。因此,迁移学习在此过程中所带来的优势 对文本数据20 Newsgroup的预处理方法也与文献并不明显。在图3和图4中的 kr vs kp数据集中,ILCC [4]相同,选择的三种数据包括 rec vs talk、 rec vS SCl,以在多效情况下都要优于其他方法。在图5和图6中的 及 sci vs talk。举例来说,在 rec vs talk数据中,所有 splice数据集上,本文提出的方法是所有方法中最优的 的正例都来自于类,所有的反例都来自mk力方法即使是在15%噪音的情况下仍然能取得良好结 源数据和口标数据的选择也是基于这些子类在实验果,而且具有10%左右的性能提升。在实验可以发 中,三种数据分别作为H标数据,而其他数据集作为源现,m的质量在噪声较高的时候变化较大,在 splice数 数据。 据集中,这种情况较为缓和,而TLCC可以通过知识迁 作为对比,ILCC将和 COITL, TrAdaboost进行 mC也和美吗1及N进行请第法 SVM TLCO 0.3 采用的是kNN,其中k=3。在实例层面上,本文采用了 Tr boost k- Means作为聚类方法。通过大量实验在 mushroom, 悲02 KNN COITL spie和 kr vs kp数据集上,k设置为4,而在其他数据 0.1 AT 集上,k设置为2。所有的实验都运行10次并取平均结 果。超平面分类器通过基于多项式核函数的CSVC来 噪声比率 获取 图21=100条件下 mushroom数据测试结果 对于UCI数据, mushroom, splice和 kr vs kp都只 包含一·个源数据和一·个目标数据,因此TLCC主要是进 行实例层面的选择。而对于文本数据,数据层面和实例 0.4 SVM TLCC 层面都会进行衡量。在实验中主要测试两种参数,第 册0.3 ---- Adaboost 是标数据中包含的已标注数据的数量包括50和100:022-= KNN 两种设置。另一个是噪声的比率,从0%到15%。举例 COIT D. …AT 说明,但=50的时候,如果噪声比率为15%,那么仪有 极少数样本是被正确标注的,因此,可以很好地衡量迁 移学习在算法中所表现的性能 喋声比率/ 图1和图2给出 mushroom数据上的运算结果。图3 371-50条件下 splice数据测试结果 和图4为 splice数据的运算结果, kr vs kp上的运算结 果为图5和图6。整体趋势上,错误率随着噪声的増加 0.4 -SVM 也在线性増加。并且,如果给定更多的已标注数据,例 TLCC 督0.3 如7-100,结果会显然提升。通过图可以看出,本文提 E --- TrAda bouse 0.2 -. KNN 出的算法在大多数情况下要优于现有方法。对于图1 - COITL 和图2中的 mushroom数据结果,在少数情况下,LCC 0. AT 并非最优结果,比如说在7=50,噪音比率为15%。个 可能的原因在于, mushroom数据具有良好结构的数据, 噪声比率 即使已标注实例较少,也能够很好地归纳出数据分布并 图41=100条件下 splice数据测试结果 0.5 0.5 0.4 SVM 0.4 TLCO TLCO TrAdaboost 0.3 TrAdaboost 0.2 -.-KNN 0.2 三于 -E--COITI --COIT 0.1 …AT AT 691215 声比率% 噪声比率/% 图17=50条件下 mushroom数据测试结果 图57=50条件下 kr vs kp数据测试结果 l482018,54(3) Computer Engineering and4 pplications计算机工程与应用 移得到大量有价值的信息,从而提升目标数据集上超平加,其他方法也可以很睿易地得到较好的超平面分类 面分类器的性能 器。但是在7=50的情况下,本文提出的算法是所有 方法中最优的。这也证实了在目标数据仅有少量标注 数据的情况下,TLCC的稳健性。同时也要注意到,当 SVM TLCC sci vs talk数据作为目标数据时,错误率要稍高于其他 0.3 TrAdaboo 两种情况。原因在于,在这种情况下,源数据和目标数 KNN 据之间的分布差异要更高。因此,迁移学习的效果就 -- COITL AT 会降低。 0.5 03691215 噪声比率 SVM 图671100条件下 kr vs kp数据测试结果 TI --- Tr Ada boost 实验也测试了不同数量的源数据以及源数据中不 0.2 同数量的子集对迁移学小带来的影响。表2给出了在 COITL 学习过程中,不同源数据中的子集数量。例如,在kr AT vskp和 splice数据集中,有更多的子集信息被迁移到目 03691215 标数据中。原因在于,在这两个数据集中,属性的数量 噪声比率/ 要高于 mushroon的属性数量,目标数据屮的已标注数 图871=100条件下 rec vs talk数据测试结果 据不足以归纳出很好的超平面分类器。因此,本文提出 的方法可以尽可能多地将有用信息从源数据迁移到目 0.5 SVM 标数据中。 0.4 TLCO Tr AdaBoost 表2UCI数据中子集的迁移数量 噪声比率 0.2~ KNN ---COITL 数据集 0%3%6%9%12%15% 0.1 AT 50 mushroom 1002 2 2 2 噪声比率 licc 1001 图97=50条件下 rec vs sci数据测试结果 50 10022 0.5F 图7和图8给出 rec vs talk数据上的运算结果。 04 TLCC 图9和图10为 rec vs scl数据的运算结果, sci vs talk -- Tr Adaboost KNN 上的运算结果为图11和图12。们的取值分別为50和 0.2 COITL 100。可以从这三个表中看出,本文提出的方法,即使 在噪音环境下,仍然能够比其他方法取得更好的效 果。在极少数情况下, COITL和 Tradaboost的性能要 噪声比/ 优亍TIC℃,原因在亍,随着已标注数据的数量的增 图10|7-100条件下 rec vs Sc1数据测试结果 0.5 0.5 0.4 - SVM TLCO TLCC 0.3 TrAdaboost 0.3 ---- TrAdaBoost 0.2 -. KNN 0.2 KNN --COITI --COITI ……4T AT 喉声比率‰ 噪声比率/% 图7|71=50条件下 rcc vs talk数据测试结果 图117=50条件下 sci vs talk数据测试结果 邵浩:基于压缩编码的迁移学习算法研究 2018,54(3)149 0 避免负面辽移的问题。通过结合基本SVM方法,在目 0.4 标数据仅含有极少已数标注数据的情况下,TLCC仍然 0.3 TLCC 可以取得良好的效果,并且通过大量的实验,证明了 --- TrAdaboost TLCC算法的有效性 0.2 L KN -- COITL 参考文献: 03691215 [1] Rosenstein M T, Marx Z, Kaelbling L P To transfer or 噪声比率 not Lo transfer[Cl/Conlerence and Workshop on Neural 图121-=100条件下 sci vs talk数据测试结果 o Information Proccssing Systems 2005 Workshop on Transfer 在表3中,本文进行了实例层面不同数量的源数据 Learning, 2005 以及数据子集米的影响。其中S.S2和S分别代 2 rgyriou A. Maurer, n algorithm for transt 表 rec vs talk、 rec vs sci以及 sci vs talk上的源数据 learning in a heterogeneous environment[C]/The European Conference on Machine Learning and Principles and 表中的整数值代表实例层面每个源数据中不同的子集 Practice of Knowledge Discovery in Databases, 2008 数量。显然,TLCC可以较好地选出更具有迁移价值的 71-85 子集。举例来说,在 rec vs talk作为目标数据的情况31caoB,Pans, Yang Q Adaptive transfer learning[c// 下,通过分析算法的学习过程可以发现,在数据层面, AAAl Conference on Artificial Intelligence, 2010 TLCC将源数据以S3、S2和S1的顺序进行排序,因此[4] Dai w y. Yang C., Xue G R, et al. boosting for transfer TLCC更倾向于选择S3和S2中的数据子集进行知识迁 learning[c]//International Conference on Machine Leaming 移。这也证明了本文提出的算法可以自适应地从源数 2007:193-200 据中挑选合适的子集进行迁移,从而避免负面迁移的 5 Shi Y, Lan zz.LiuW,etal. Extended semi- supervised 发生。 Learning mcthods for inductive transfer learning[C]/ 表320 Newsgroup数据中子集的迁移数量 IEEE International Conference on Dala Mining Series 数据集71源数据 0%3%6%9% 15% [6 Shao H, Tong B. Suzuki E Extended MDL principle for S0001 12% 0 feature-based inductive transfer learning[j Knowledge 0 and Information Systems, 2013, 35(2): 365-389 [7 Shao H, Tao F, Xu RTransfer active learning by querying ec ys talk 000 0 0 committee[J]Journal of Zhejiang University: Science C 2014,15(2):107-118 10 [8 Shao H, Suzuki EFeature-based inductive transfer learning 50 s through IniniImuIn encoding c]/sIAM Conlerence on Data Mining 2011, Phoenix/Mesa, Arizona, April 2011 rec vs 1 [9 Shannon C A mathematical theory of communication[J] 000 Bell Systcm Technical Journal, 1948, 27: 379-423 S1 0 [10 Pan S, Yang Q. A survey on transfer learning[j] IEEE Transactions on Knowledge and Data Engineering, 2010 0000 S 1 0 (10):1345-1359 sci vs talk [Il Farzaneh S, Asadpour M Graph based skill acquisition 0000 and transfer learning for continuous reinforcement s[J.Pattern Recognition L 87:104-116 6结束语 [12] Yan CTransfer learning in large scale short text analy 木文提出了一个基于压缩编码的归纳迁移学习方 sis[C]/International Conference on Knowledge Scicncc 法TLCC,通过两个层面的相似度分析,不仅可以衡量 Engineering and Managenent S.I.: Springer Interna 源数据和目标数据之间的分布差异也可以通过编码长 度,从源数据屮选择有价值的实例进行知识迁移,从而 (下转183页)

...展开详情
试读 8P 论文研究-基于压缩编码的迁移学习算法研究.pdf
立即下载 低至0.43元/次 身份认证VIP会员低至7折
一个资源只可评论一次,评论内容不能少于5个字
您会向同学/朋友/同事推荐我们的CSDN下载吗?
谢谢参与!您的真实评价是我们改进的动力~
关注 私信
上传资源赚钱or赚积分
最新推荐
论文研究-基于压缩编码的迁移学习算法研究.pdf 11积分/C币 立即下载
1/8
论文研究-基于压缩编码的迁移学习算法研究.pdf第1页
论文研究-基于压缩编码的迁移学习算法研究.pdf第2页

试读结束, 可继续读1页

11积分/C币 立即下载 >