针对视频自动描述任务中的复杂信息表征问题,提出一种多维度和多模态视觉特征的提取和融合方法。首先通过迁移学习提取视频序列的静态和动态等多维度特征,并采用图像描述算法提取视频关键帧的语义信息,完成视频信息的特征表征;然后采用多层长短期记忆网络融合多维度和多模态信息,最终生成视频内容的语言描述。实验仿真表明,所提方法与目前已有方法相比,在视频自动描述任务中取得了较好的效果。
评论星级较低,若资源使用遇到问题可联系上传者,3个工作日内问题未解决可申请退款~