OpenAI Sora 的发布震撼了 AI 界,标志着自 ChatGPT 引发的
GenAI 热潮以来 OpenAI 的又一里程碑式进展。Sora 的宣布揭示了
OpenAI 对于视频生成模型作为虚拟世界模拟器的宏大愿景。我原本
计划在春节前整理对 Google Lumiere 视频生成技术的见解,但因多
种因素推迟。两者虽然都采用了扩散模型作为技术核心,但在许多
关键的技术细节上存在差异。利用 OpenAI 的技术概述作为引领,
本文将探讨为何 Sora 的更新具有史诗意义。
首先,Sora 通过采用 Spacetime Latent Patches(时空潜变量碎
片)来构建视觉语言系统,这一点与 ChatGPT 首创的 Token
Embedding 方法相似。视觉数据的这种建模方法已被证明能高效地
表征不同类型的视频和图像,通过将视频数据压缩至低维潜变量空
间并将其解构为时空碎片,Sora 在时空建模上迈出了关键一步,为
多种能力的解锁奠定了基础,包括自然语言理解和图像视频编辑
等。
其次,Sora 被定义为一个 Diffusion Transformer,这一概念源自伯
克利学者关于扩展扩散模型与变压器的工作。扩散模型通过向数据
添加噪声并逆转这一过程来学习数据的恢复,而 Sora 的架构通过结
合扩散模型与 Transformer 技术,实现了强大的信息提取能力。
再次,Sora 的 Diffusion Transformer (DiT)架构被用于学习海量视
频中时空碎片的动态关联,类似于语言模型通过 Transformer 提取
语言结构的方式,Sora 观察并提取时空碎片之间的丰富关联。
最后,Sora 与 Google Lumiere 在视频学习与生成技术的实现原理
背后,展示了对视频内容的深层理解和创新处理。Sora 的技术综述
让人联想到它可能在时空潜变量碎片的学习上达到了一种可视化的
状态空间模型(SSM),显示出在视频生成上的强大潜力。