Journal of Computer Applications ISSN 1001-9081 2019-02-27
计算机应用 CODEN JYIIDU http://www.joca.cn
收稿日期: 2018-12-05; 修回日期: 2019-01-21; 录用日期: 2019-01-22。
作者简介: 税留成(1992-),男,四川成都人,硕士研究生,主要研究方向为计算机视觉、图像标注;刘卫忠(1972-),男,
湖北荆州人,副教授,博士,主要研究方向为多媒体信源编码、机器学习;冯卓明(1970-),男,湖北荆州人,博士,主要
研究方向为无线通信。
文章编号:1001-9081(****)**-0000-00 doi:10.11772/j.issn.1001-9081.2018112400
基于生成式对抗网络的图像自动标注
税留成* 刘卫忠 冯卓明
(华中科技大学 光学与电子信息学院,湖北 武汉 430074)
(597799047@qq.com)
摘 要: 针对基于深度学习的图像标注模型输出层神经元数目会与标注词汇量成正比,导致模型结构会因词汇量的变化而
改变的问题,提出了结合生成式对抗网络(GAN)和 word2vec 的新标注模型。首先,通过 word2vec 将标注词汇映射为固定
的多维词向量;其次,利用生成式对抗网络构建一个神经网络模型(GAN-W),使输出层神经元数目与多维词向量维数相等,
与词汇量不再相关;最后,通过对模型多次输出的排序结果来确定最终标注。模型分别在 Corel 5K 和 IAPRTC-12 图像标注数
据集上进行实验,在 Corel 5K 数据集上,模型准确率、召回率和 F1 值比卷积神经网络回归方法(CNN-R)分别提高 5 个百分点、
14 个百分点、9 个百分点;在 IAPRTC-12 数据集上,模型准确率、召回率和 F1 值比两场 K 最邻近模型(2PKNN)分别提高 2
个百分点、6 个百分点、3 个百分点。实验结果表明,GAN-W 模型可以解决输出神经元数目随词汇量改变的问题,同时每幅
图像标注的标签数目自适应,使得模型标注结果更加符合实际标注情形。
关键词: 图像自动标注;深度学习;生成式对抗网络;标注向量化;迁移学习
中图分类号: TP 391.41 文献标志码: A
Automatic image annotation based on Generative Adversarial
Network
SHUI Liu-Cheng LIU Wei-Zhong FENG Zhuo-Ming
School of Optical and Electronic Information, Huazhong University of Science and Technology,Wuhan, 430074, China
Abstract: In order to solve the problem that the number of output neurons in deep learning-based image annotation model was
directly proportionate to the labeled vocabulary,a new annotation model combining the Generative Adversarial Network (GAN) and
word2vec was proposed . Firstly, the labeled vocabulary was mapped to the multidimensional word vector through word2vec; Secondly
a neural network model (GAN-W) using GAN was established and the number of neurons in the model output layer was equal to the
dimensions of the word vector, no longer relevant to vocabulary; Finally, the annotion result was determined by sorting the multiple
output of the model.Experiments are conducted on the image annotation datasets Corel 5K and IAPR TC-12. The experimental results
show that on the Corel 5K dataset, accuracy rate, recall rate, and F1 value of the proposed model have increased by 5 percentage points,
14 percentage points and 9 percentage points respectively,compared with the Convolutional Neural Network Regression (CNN-R); On
the IAPRTC-12 dataset, accuracy rate, recall rate and F1 value are 2 percentage points, 6 percentage points and 3 percentage points
higher than those of the Two-Pass K-Nearest Neighbor (2PKNN). The results show that the GAN-W model can solve the issue caused
by the change of neuron number in the output layer. Meanwhile, it is self-adaptive to the number of label in each image, which is more
suitable for actual annotion situation.
Keywords:
Automatic image annotation;Deep learning;Generative adversarial network ; Label vectorization;Migration learning
0 引言
随着图像数据的快速增长,通过人工对图像进行标注已
经变得不可取,迫切需要对图像内容进行自动标注,以实现
对图像的有效管理与检索,更加高效利用庞大的图像信息。
目前,主要的标注方法是通过机器学习构建一个图像标注模
型,通过学习图像与其对应标注之间的潜在联系,给未知图
像添加描述其内容的关键词,实现对未知图像的标注。
基于机器学习的图像标注模型大致分为 3 类:生成模型、
最邻近模型及判别模型。生成模型首先提取图像特征,然后
计算图像特征与图像标签之间的联合概率,最后根据测试图
像的特征计算各标签的概率,确定图像对应的标签。代表方
法有:多贝努利相关模型(Multiple Bernoulli Relevance
网络出版时间:2019-02-27 12:37:32
网络出版地址:http://kns.cnki.net/kcms/detail/51.1307.TP.20190227.1237.002.html
评论0
最新资源