从图像生成自然语言描述是计算机视觉,自然语言处理和人工智能(AI)交叉处的一
个新兴的跨学科问题。 这项任务通常被称为图像或视觉字幕/描述(captioning),它构成了许
多重要应用的技术基础,如语义视觉搜索,聊天机器人的视觉智能,社交媒体中的照片和视
频分享以及帮助视障人士感知周围环境视觉内容。由于最近深度学习的发展,人工智能研究
界近年来在可视字幕方面取得了巨大的进步。在本文中,我们将首先总结这个令人兴奋的新
兴视觉描述(captioning :给图片照片等加描述文字)领域。 然后,我们将分析社区的关键
发展和主要进展,其对研究和产业部署的影响,以及未来突破的未来。