收稿日期 : 2003212213 ; 修返日期 : 2004202205
基金项目 : 国家“863”计划资助项目
(
2001AA115123
)
视频摘要技术研究
3
谢毓湘 , 栾悉道 , 吴玲达 , 老松杨
(
国防科学技术大学 多媒体研究开发中心 , 湖南 长沙 410073
)
摘 要 : 对视频摘要技术进行了研究 ,将视频摘要按其表现形式分为以标题、关键帧和故事板为代表的静态视
频摘要以及以缩略视频为代表的动态视频摘要 ,并对其中涉及的关键技术进行了探讨 ,最后对视频摘要技术未
来的发展方向进行了总结与展望。
关键词 : 视频摘要 ; 故事板 ; 缩略视频 ; 关键帧
中图法分类号 : TP391 文献标识码 : A 文章编号: 100123695
(
2004
)
1120001204
Research on Video Abstraction Techniques
XIE Yu2xiang , LUAN Xi2dao , WU Ling2da , LAO Song2yang
(
Multimedia Research & Development Center , National University of Defense Technology , Changsha Hunan 410073 , China
)
Abstract : Video abstract is defined as a sequence of moving images ,extracted from a longer video ,much shorter than the original ,and
preserving the essential message of the original. It is based on the automatic or half2automatic analysis of the video structure and content.
Video abstract techniques are studied ;emphasizing the static video abstract techniques represented as title ,key frame and storyboard
etc. ,and dynamic video abstract technique ,such as video skim. Some associated key techniques are also discussed here. In the end ,pro2
gresses in the field of video abstract techniques are summarized and prospected.
Key words : Video Abstract ; Storyboard; Video Skim; Key Frame
1 引言
随着网络以及多媒体技术的迅速发展 ,涌现出了大量的数
字视频 ,如新闻、广告、监控视频 、家庭视频等。数字视频的大
量涌现引发了许多新的技术 ,包括视频存档、编目、索引以及有
效存取等。在众多的研究领域中有一个重要的问题 ,即如何快
速浏览大容量的视频数据 ,如何获取和表现视频的内容。为了
解决这个问题 ,近年来出现了视频摘要技术。视频摘要 ,即以
自动或半自动的方式对视频的结构和内容进行分析 ,从原视频
中提取出有意义的部分 ,并将它们以某种方式进行组合 ,形成
简洁的、能够充分表现视频语义内容的概要。它是对长视频内
容的简短总结 ,通常用一段静态或者动态的图像序列来表示 ,
并对原始信息予以保留
[1]
。
有关视频摘要技术的研究最早可以追溯到 CMU 大学开发
的 Informedia 工程
[4 ,11]
,其目标在于通过抽取重要的视/ 音频信
息生成视频摘要 ,其研究重点是新闻视频。他们运用了熟知的
TF2IDF 方法 ,从语音文档以及字幕中抽取文字并对其进行重要
度排序 ,与查询文本相关的重要的音频片段将生成音频缩略 。
接下来 ,选择满足下列条件的视频帧生成图像的缩略 ,即包含
人脸或字幕的帧、摄像机运动后的静止帧、包含摄像机运动以
及人脸或文本的帧、场景的开始帧 ,这些帧的优先权从高到低
呈递减趋势 ,得到视频帧的集合 ,最终通过综合分析文本、音频
以及图像缩略来生成完整的视频缩略。
德国曼海姆大学的 MoCA 系统
[3]
对电影的摘要进行了研
究 ,它抽取了电影片段中最有代表意义的场景来自动生成电影
的预告片。通过寻找最大对比度的帧来探测包含重要对象或
人物的场景 ,通过选取具有最大帧差的帧来提取高潮场景。同
时 ,与电影的平均颜色类似的场景也被用于摘要中以表达原视
频的某种基调。最后选择出来的所有场景
(
结局场景除外
)
通
过时间顺序进行组织 ,得到电影的预告片。
Minnesota 大学的 Nam 等人
[17]
提出了一种动态采样的缩略
方法。首先将连续的视频源分割成“子镜头”序列 ,对每个子镜
头计算其运动强度并将之量化 ,不同的量化区间赋予不同的采
样率 ,最后根据指定的采样率从每个子镜头中选取关键帧。在
缩略回放时 ,使用线性插值得到动态的故事板。这种方法避免
了使用文本信息 ,但没有讨论如何处理伴音的问题。
西门子研究院的 Toklu 等人
[18]
使用融合视觉、声音以及文
本等多线索信息来生成缩略视频。首先 ,通过识别“说话者改
变”和“主题改变”自动地将镜头分组为故事单元 ,与故事单元
相关的音频和文本也将被抽取出来。每个故事单元有一个代
表图像。最终生成的缩略包含声音和文本信息 ,通过一个交互
接口 ,允许用户进行反馈以得到满意的缩略视频。该工作也非
常依赖于文本。其他的视频摘要研究关注于特定的领域。如
Xerox PARC 中心研制的 VidSum 系统
[19]
为其每周论坛服务 ,用
于将底层信号事件映射到有意义的语义事件 ,从而生成概要。
Intel 公司的 Lienhart
[20]
主要研究对家庭视频的摘要 ,它的摘要
基于使用模型而不是基于内容。为得到所需的剪辑 ,采用了计
算声压的方法 ,认为在重要的事件中声音会很清晰。哥伦比亚
大学的 Sundaram
[13]
对于视/ 音频的摘要问题 ,提出了一种新颖
的实体 —效用
(
Entity2Utility
)
方法。该方法的思想在于 :多媒体
·1·
2004 年第 11 期 谢毓湘等 :视频摘要技术研究