论文研究-基于字典学习的跨媒体检索技术.pdf

所需积分/C币:8 2019-07-22 23:00:54 1.09MB .PDF
收藏 收藏
举报

在研究跨媒体信息检索时,对于不同模态数据的异构性提出了挑战,针对如何更好地克服异构问题以提高多模态数据之间的检索精度,提出了一种基于字典学习的跨媒体检索新技术。首先,通过字典学习方法学习两个不同模态数据之间的稀疏系数;然后,通过特征映射方案由两个不同的投影矩阵分别把它们投入共同的特征子空间;最后,通过标签对齐同一类来增强不同模态之间的相关性。实验结果表明,与传统的同构子空间学习方法相比,基于字典的算法分类性能优越,该实验方法在两个数据集上优于几种最先进的方法。
第4期 戚玉丹,等:基亍字典学习的跨媒体检索技术 1267 学习图像和文本的两个投影矩阵,利用投影矩阵将两个模态的 b)在字典D1和投影矩阵Wn不变的情况下来求解稀疏 稀疏表示A,和Ar投影到一个共同的特征空间中。描述的框系数。由式(2)可得 架表述如下 minx1-A1D1‖2+141W1-Y‖2+ X-ADp‖l+‖Xy-A7Dr12+ Dv, DT,AT.AT, WVi WTI a1‖Ay‖1+‖AWn-ArWn AW1-Y)‖+a1(‖A1‖1+‖Ar‖1) 通过分析,求偏导可得 A7Wn‖+a2‖Wn2+a3|Wn‖F Av=(X Di+YWn+ArWrWT1)-(D, Df+(,E+2Wm WI 其中:x-A,D,‖为通过字典学习图像的稀疏系数A1; 同理可得 X7-A,D,‖k为通过字典学习文的稀疏系数A;‖A1Wn A,=(XDI-ALWY WnI)-(D, DT +a,E-Wnwnu) Y作为线性回归项,通过投影矩阵W1将稀疏系数矩阵投影 c)更新投影矩阵W,固定字典D和稀疏系数A1。分析 到谙义空间,使得具有相同语义的多媒体数据聚集在一起;参数由式(2)可得 0≤α≤1,为均衡参数;‖A;‖1和‖A,‖1用来控制稀疏; minA w-Y‖2+‖AWn1-AWn|2+a2‖Wn2(7) W12和‖Wn‖2用来控制投影矩阵Wn和Wn复杂度避 同理,可求解得 免过拟合;‖A1Wn-4Wn‖2为相关分析项,目的是使同一 Wn=(2ATAy +a,E)-(AFY+AArWn) 类的数据吏相近,增强不同模态之冋的相关性。本文的模型 Wn=AvAyWy(AVA +a3E) 中,不同模态的数据相关性得以表示。 综上所述,木文设计的日标函数在各部分均为凸函数,因 2.2.2文本检索图像 本节讨论跨媒体检索中文本检索相一纹的图像。I2∫此有最优解。为了获得最终结果,需要不断地重复上述步骤, 线性回归术语是一个从文本空间到语义空间的回归操作,与图方法可以应用到文本检索图像。 像检索类似。 算法1LT的交替迭代优化过程 定义X=[v1,2,…,n]∈R为维度为p、个数为n的图 输入:图像的特征矩阵x,文本的特征矩阵Xr,以及图像和文本 像数据集;x=[t12,…,tn]∈R"为维度为q个数为n的文相一致的语义y。 本数据集;A1∈Rx是图像的稀疏系数;ArcR"“是文本的稀疏 a)初始化字典D1、D和稀疏系数A,4r靠FDDL”,设Wn 系数;D∈R是学习图像字典;D∈R是学习文本的字Wn为单位矩阵 典;Y”=y1,2,…,yn∈Rx是公共语义子空间,与Y)可以 )如果不收敛则继续执行 近似地看做个公共语义子空间。这里设两个与图形检索文本影矩阵Wn、Wn。 e)更新字典D;、Dr,出式(4)(5)得出,固定稀疏系数A;、Ar和投 不同的投影矩阵W2∈R和Wn2∈Rx,描述的框架表述 d)更新稀疏系数Av、Ar,由式(6),固定字典Dv、Dr和投影矩阵 如下 WH、W ‖x-A,Dr‖2+‖x-A1D1‖2 e)更新投影矩阵W1、Wm,口式(7)得出.固定字典D1、Dr和系 ‖ArWn2-Y0)‖2+a1(‖A,‖1+|Ar11)+ 数A f)直到收敛为止 ‖AvW 7 十 (3) 输出:字典D1、Dr和投影矩阵Wm、Wn 与图像检索文本原理相同,其中‖AW2-Y‖P为通过 投影矩阵Wn将稀疏系数矩阵投影到关键词子空间,使得具有4实验 相同语义的多媒体数据聚集在一起;‖W2‖和‖W2‖,控 制其复杂度避免过拟合;‖A,WB-A,Wn,‖2作为相关分析 为验证本文提出的跨媒体检索性能,进行了以下实验:首 项使同类的数据更相近,提高它们的相关性。同样地,在本先阐述实验设置和本文采用的评估指标然后将本文提出的方 文模型中,不同模态的数据相关性被表示。 4.1实验设计 3优化 本文在两个公共图像一文本数据集上对该方法进行评估 T和T2I的优化问题是两个矩阵的无约束优化问题。因 Wikipedia文本图像数据集"和 Pascal Sentence F数据集 此,式(2)和(3)是非凸优化问题,并有许多局部最优解。为解 实验针对两个检索任务进行:a)图像数据库中的文本査询;b) 决这个题,设计一个算法来寻找固定点。可以注意到,当固文本数据库中的图像查询。 定其他两项时,式(2)对另一项是凸面的。相似地,式(3)在固 a) Wikipedia数据集。数据集包含有10个类的2866个图 定另外两个的情况下,也可以是凸面的。分别通过固定D 像一文本对,随机地将数据集分为2173个训练集和693个测 (Dn)A1(A7)或者Wm(Wn2)中的其中两个,用迭代更新来完试集。 成对另一个的最小化。具体优化策略如下 b) Pascal sentence数据集。数据集包含了1000个图像 a)更新字典D,固定稀疏系数A和投影矩阵Wu: 文本对,由20个语义类别的标签标注(每个类别有50对),对 min‖xy-A,D‖ 于每类,随机选择30个图像一文本对作为训练集,其余的作 s.t.‖d‖≤1yi∈[1:K] (4)为测试集。 对于两个数据集,每个图像一文本对的真实标签用来构造 这是一个二次约束的二次规划问题(QCQP),求解可以通过拉 语义向量〔用于 Wikipedia数据集的10维,用于 Pascal Sentence 格朗日对偶技术得到20。 数据集的20个维度)被用于语义表示。具体地,本文利用了 冋理,对于字典Dr的求解相似,可以由下式得出: 40y6维CNN视觉特征表示图像和由文献[17]所公开提供的 ‖Xr-A2Dr‖l2 00维LDA来表示文本 s.L.‖d;‖≤1i∈[I:K] (5) 在本文中,使用归一化相关的系数(NC)来测量变换子室 1268· 计算机应用研究 第36卷 间中不同媒体对象特征之间的相似度,通过召回率(PR)曲线种最先进的方法。 和平均精度均值(mAP)来评估检索的性能。mAP是每个查询 0.9 一钟M 0.8 的平均精度(AP)的平均值。分别地,定义平均精度为AP 0.6 0.5 ∑Pr)(n),其中:T是属于同类别的检索数据数量;P()01 表示第r个检索数据的精度。如果第r个检索的数据与查询01 0.2 具有相同的标号,则δ(r)-1,否则δ(r)=0。在实验中,设置 0 0102030405060708091 0102030405060.708091 N=50。耷询所有的平均精度AP的值以获得平均精度的平均 ecall 值mAP,其中mAP的值越大,算法的准确性越高。 bITe 图3 Wikipedia数据集上召回率比较 4.2性能比较 在 Pascal sentence数据集上,设置p=0.02,=10-,a1= 为了客观地评价本文提出的方法,将本文所提出的方法与0.01,a2=0.5a30.5,用于优化T和T2I。比铰结果如表2 其他几种要算法进行比较。其中包括典型相关性分析CA所示,本文提出的方法平均精度mAP平均改善为2.4% 算法深度典型相关性分析DCCA、语义匹配SM算法2、1,7%。图像查询文本任务和文本查洵图像任务的精确范围 语义关联匹配SCM算法2、三视图CA(ICCA)31、广义多曲线在图4中,在实验中,本文方法对两个任务都得到∫更好 视角线性判别分析( GULDA)、广义多视图边缘Fhr分析的结果。 ( MMFA),以及模态独立的跨媒休检索(MDCR)1。在本 文的实验中,所有的比较方法都使用相同的特性和训练集进行 0.8 比较。 Wikipedia及 Pascal sentence数据集的跨媒体检索性能 比较如表1、2所示。 三0. 表1 Wikipedia数据集的跨媒体检索性能比较 02 平均精度均值(mAP) 方法 图像检索文本文本检索图像 平均值 0.l020304050607080910.10.20304050.6708091 recall 0.236 DCCA 0.288 0.298 图4 Pascal sentence数据集上召回率比较 0.403 0.357 0.380 SCM 0.351 0.324 0.337 5结束语 T-VCCA 0.310 0.316 0.313 GMLDA 0.372 0.322 0.347 木文设计了一个冇效的跨媒休检索模型,通过字典学习生 GMMFA 0.371 0.322 0.346 成稀疏系数,并将不同形式的数据投射到公共∫空间,利用标 MDR 0.420 签对齐方式增强不同模式之间的相关性,在这个空间中可以很 本文算 0.438 0.401 0.420 好地发挥模式之间的内在联系;另外,本文将图像搜索文本与 表2 PHsc'al Serlerice数据集的跨媒体检索性能比较 文本搜索图像分开来训练,分别来学习两对投影,允分发挥了 平均精度均值(mAP 们各自的特征优势。在 Wikipedia数据集和 Pascal sentence 方法 图像检索文本文本检索图像 平均值 两个数据集上大量的实验证明,提出的方法不仅提高了多模态 之间的检索效率,而且对于单模念数据的识别也是有效的,为 CCA 0.261 DCCA 0.322 0.344 字典学习扩展了稀疏表小,对于求解最小化问题提出了有效的 0.426 467 0.446 迭代算法。实验结果表明,本文提出的方法是有效的。 SCM 0.369 0.372 参考文献 T-VCCA 0.33 0.439 0.388 T I Hardoon D, Szedmak S, Shawe-Taylor J Canonical correlation anal GMLDA 0.456 0.462 sis: an overview with application to learning methods [J]. Neural MmFA 0.455 0.447 0.451 Computation,2004,16(12):2639-2664 MDCR 0.448 0.475 0.462 [2 Rasiwasia N, Pereira J, Coviello E, et al. A new approach to cross-mo- ↑文算法 0.483 0.486 dal multimedia retrieval C//Proe of the 18th ACM International 在实验中,是交替更新过程中的步长,ε是收敛的条件, Conference on multimedia. New york, ACM Press 2010. 251-260 因此,设它们为0~1。它们的值越小,则交替更新的结果越准[3] Hwang S, Grauman K. Learning the relative importance of objects from 确。在测试集上进行实验的参数是根据训练集的交叉验证结 tagged images for retrieval and cross-modal search J| International 果确定,而不是任意诜择。 Journal of Computer Vision, 2012, 100(2): 134-153 在 Wikipedia数据集上,在测试了不同的参数设置后,首先 4 Ballan L, Lricchio T, Seidenari L, et al. A CIOss-media model for auto- 确定了μ=0.02,6=10-2。为了进一步验证实验效率,选用 matic image annotation [C//Proc of International Conference on 4096维CNN的图像特征和100维LDA的文本特征。实验屮 Multimedia Retrieval. New York: ACM Press, 2014:73 设置α1=0.1、a2=0.5、a3=0.5,用于优化T和①2I。比较结 [5 Rosipal I, Kramer N Overview and recent advances in partial least squares[C]//Proc of Intemational Conference on Subspace 果如表1所示,可以看出本文提出的方法平均精度均值mAP Structure and Feature Selection. Berlin: Springer-Verlag, 2005: 34-51 从19%平均改善至184%。图像查询文本任务和文本查询[61 Chen Yongmin, Wang Lian,wagw,.tal. Continuum regressi 图像任务的精确范围曲线显示在图3中,范围是检索到的顶级 for cross-modal multimedia retrieval[ C//Proc of IEEE International 数据的数量。可以观察到,本文方法有更好的结果,它优于几 inference or Image Processing. Piscataway, NJ: IEEE Press, 2013 第4期 戚玉丹,等:基亍字典学习的跨媒体检索技术 1269 1949-1952 2088-2095 [7 Sharma A, Kumar A, Daume H, et al. Generalized multiview analysis: [19 Putthividhy D, Attias H T, Nagarajan SS Topic regression multi-mo a discriminative latent space[ C]//Proc of IEEE Conference on Com- dal latent Dirichlet allocation for image annotation[C]//Proc of IEEE uter Vision and Pattern Recognition. Piscataway, NJ IEEE Press Internal ional Conference un Computer Vision and Pal lern Recogni 2012:2160-2167 tion. Piscataway, NJ: IEEE Press, 2010: 3408-3415. [8 Yu Zhou, Wu Fei, Yang Yi, el al. Discriminative coupled dictionary has- [20] Schalkopf B, Platt J, Hofmann T. Efficient sparse coding algorithms hing for fast cross-media retrieval c //Proc of International ACM SI LG//Advances in Neural Information Processing Systems. 2006 GIR Conference on Research Development in Information Retrieval 80l-808 New York. ACM Press 2014. 395-404 [21 Wu Fei, Han Y ahong, Liu Xiang, et al. The heterogeneous feature se [9] Ardrew G, Arora R, Bilmes J A, el u/ Deep canonical corT lection with structural sparsity for multimedia annotation and hashing analysis.C]//Proc of the 30th International Conference on Machine a survey[J]. International Journal of Multimedia Information Re- Learning.2013:1247-1255. trieval,2012,1(1):3-15 L 10J Wang Wei, Yang Xiaoyan, Ooi B C, et aL. Effective deep learningbased [22] Yang Meng, Zhang Lci, Feng Xiangchu, et al. Fisher discrimination multi-modal retrieval L I. The VLDB Journal, 2016, 25(1): 79- dictionary learning for sparse representation[ C//Pioc of IEEE Inter national Conference on Computer Vision. Piscataway, NJ: IEEE Press [ll Jiang Bin, Yang Jiachen, Lyu Zhihan, et al. Internet cross-media re 20l!:543-550. rieval based on deep learning[ J. Journal of Visual Communica 23] Rasiwasia N, Mahajan D, Mahadevan V, et al. Cluster canonical corre- tion &Image Representation, 2017, 48(10): 356-366 lation analysis C ]//Proc of the 17th International Conference on Ar [12] Wang Shenlong, Zhang Lei, Liang Yan, et al. Semi-coupled dictionary tificial Intelligence and Statistics. 2014 823-831 learning with applications Lo image super-resululion and pholu-skelch [24 Wang Y anfci, Wu Fei, Song Jun, et al. Multi-modal mutual topic synthesis[C//Proe of IEEE Conference on Computer Vision and force modeling for cross-media retrievals [C//Proc of the Pattern Recognition. Piscataway, NJ: IEEE Press, 2012: 2216-2223 CM International Conference on Multimedia. New York: ACM Press 13 I Zhuang Yueting, Wang Yanfei, Wu Fei, et al. Supervised coupled dic- 2014:307-316. tionary learning with group structures for multi-modal retrieval[ C]// Proc of the 27th AAai Conference on Artificial Intelligence. Palo 25 Gong Yunchao, Ke Qifa, Isard M, et al. A multi-view embeddin Alto. Ca: AAAl Press. 2013: 1070-1076 space for modeling Internet images, tags, and their semantics[ J]. In- 14 Huang D A, Wang Y C F. Coupled dictionary and feature space lear ternational Journal of Computer Vision, 2014, 106(2): 210-233 ning with applications to cross-domain image synthesis and recognition [26] Cao Yue, Long Mingsheng, Wang Jianmin, et ai. Decp visual-scmantic [C//Proc of IEEE International Conference on Computer Vision hashing for cruss-Imr dal retrieval[ C //Pmc of ACM SIGKDD Interna- Piscataway, NJ: IEEE Press, 2013: 2496-2503 tional Conference on Knowledge Discovery and Data Mining. New 15] Xu Xing, Y ang Yang, Shimada A, et al. Semi-supervised coupled dic York:. ACM Press. 2016: 1445-1454 tionary learning for cross-modal retrieval in Internet images and texts L 27 Ngiam J, Khosla A, Kim M, et al. Multimodal deep learning LC/ [CI//Proc of ACM International Conference on Multimedia. New Proe of International Conference on Machine Learn 011 York, ACM Press, 2015: 847-850. 696 [16]Xu X S Dictionary learning based hashing for cross-modal retrieval [28 Shang X, Zhang H, Chua ts Deep learning generic features for cross- [C//Proe of ACM on Multimedia Conference. New York: ACM media retrieval[ M]//MultiMedia Modeling. Berlin: Springer Interna- Press,2016:177-181 tional Publishing, 2016: 264-275 [17] Wei Yunchao, Zhao Yao, Zhu Zhenfeng, et al. Modality-dependent [29] Feng Fangxiang Li Ruifan. al retrieval with cross-media retrieval[ J. ACM Trans on Intelligent Systems and correspondence alloeneoder[ C ]//Proc of Inlernalional Confererce on Technology, 2016, 7(4): 57 Multimedia. New York: ACM Press 2014: 7-16 L 18] Wang Kaiye, Ile Ran, Wang Wei, et al. Learning coupled feature [30 1 Cao Yue, Long Mingsheng, Wang Jiamin, et al. Correlation hashing spaces for cross-modal matching[ C]//Proc of IEEE International network for efficient cross-modal retrieval L EB/OL.(2017-02-20) Conference on Computer Vision. Piscataway, NJ IEEE Press, 2013 https://arxiv.org/abs/1602.06697 (上接第1246页 442-448, [20] Ezra e, Sharir M, EfratΔ. On the performance of the ICP algorithm[25]魏大刚,唐常杰,段磊,等.基于最优投影和动态值的最近邻搜 LJ. Computational Geometry, 2008, 41(3): 77 索算法LJ.四川大学学报:自然科学版,2006,43(4):777-782 [21 Godin P, Boulanger G. Range image registration through viewpoint in- (Wei Dagang, Tang Changjie, Duan Lei, et al. An optimal projection ariant computation of curvature[ C]//International Archives of Pho and dynamic threshold bascd nearest neighbor scarch algorithm[ J] Inyrammelry and Rernole Sensing 1995: 170-175 Journal of sichuan University Natural Science Edition, 2006, 43 22 Binder T, Kostina E Robust parameter estimation based on Huber es- (4):777-782.) timator in systems of differential equations「M]′/ Modeling, Simula-「26]刘瑞禎,谭铁牛.基于奇异值分解的数字图像水印方法「J.电子 tion and Optimization of Complex Processes. Berlin: Springer, 2012 *#a, 2001, 29(2): 168-171.( Liu Ruizhen, Tan Tieniu SVD based digital watermarking method J]. Acta Electronica Sinica, 2001, 29 23] Bergstrom P, Edlund O. Robust registration of point scts using itera- 2):168-171.) tively reweighted least squares L J」. Computational Optimization27」王可,岳东杰,王性猛.基于单位四元敬的三维坐标转换新方法 and Applications, 2014, 58(3): 543-561 [冂].测绘与空间地理信息,2014,37(11):216-218.( Wang Ke [24 Greenspan M, Yurick M. Approximate K D tree search for efficient wei, Yue Dongjie, Wang xingmeng. A new method of three-dimensio ICPIC]//Proc of the 4th International Conference on 3D Digital Ima nal coordinate transformation based on unit quaternion[. Geomat- ging and Modeling. Washington DC: IEEE Computer Society, 2003 ics Spatial Information Technology 2014, 37(11): 216-218)

...展开详情
试读 5P 论文研究-基于字典学习的跨媒体检索技术.pdf
立即下载 低至0.43元/次 身份认证VIP会员低至7折
    抢沙发
    一个资源只可评论一次,评论内容不能少于5个字
    img

    关注 私信 TA的资源

    上传资源赚积分,得勋章
    最新推荐
    论文研究-基于字典学习的跨媒体检索技术.pdf 8积分/C币 立即下载
    1/5
    论文研究-基于字典学习的跨媒体检索技术.pdf第1页
    论文研究-基于字典学习的跨媒体检索技术.pdf第2页

    试读已结束,剩余3页未读...

    8积分/C币 立即下载 >