
Sora,美国人工智能研究公司 OpenAI 发布的人工智能文生视频大模型(但 OpenAI 并未单
纯将其视为视频模型,而是作为“世界模拟器” [10]),于 2024 年 2 月 15 日(美国当地
时间)正式对外发布 [1] [3]。
Sora 这一名称源于日文“空”(そら sora),即天空之意,以示其无限的创造潜力。其背
后的技术是在 OpenAI 的文本到图像生成模型 DALL-E 基础上开发而成的。 [50-51] [56]
Sora 可以根据用户的文本提示创建最长 60 秒的逼真视频,该模型了解这些物体在物理世界
中的存在方式,可以深度模拟真实物理世界,能生成具有多个角色、包含特定运动的复杂场
景。继承了 DALL-E 3 的画质和遵循指令能力,能理解用户在提示中提出的要求 [1-2] [4]。
Sora 对于需要制作视频的艺术家、电影制片人或学生带来无限可能,其是 OpenAI“教 AI
理解和模拟运动中的物理世界”计划的其中一步 [4],也标志着人工智能在理解真实世界场
景并与之互动的能力方面实现飞跃 [2]
OpenAI 在大模型领域的成功
2022 年底,OpenAI 正式推出 ChatGPT,这款由人工智能技术驱动的自然语言处理工具能够
通过学习和理解人类的语言来进行对话 [26]。ChatGPT 是 OpenAI 迈出的第一步,这款让所
有人都能体会到人工智能潜力的现象级产品,展现出了文字对于过去人工智能的理解力和逻
辑能力的超越。随后,OpenAI 的开发重点逐步过渡到图像的生成,Dall-E 模型在生成图像
方面也获得了重大突破 [25]。
视觉算法的进步
视觉算法近年来的突破在泛化性、可提示性、生成质量和稳定性等方面均取得了进展,这预
示着技术拐点的临近以及爆款应用的涌现。特别是在 3D 资产生成和视频生成领域,由于扩
散算法的成熟,这些领域受益匪浅。然而,与图像生成相比,3D 资产和视频生成在数据和
算法方面面临的难点更多 [21]。
尽管如此,考虑到大型语言模型(LLM)对人工智能各领域的加速作用以及已经出现的优
秀开源模型,2024 年该行业有望实现更大的发展。在 2023 年末至 2024 年初,Pika、HeyGen
等人工智能生成的视频应用逐渐受到关注,这验证了多模态技术的持续进步与成熟 [21]。
但与此同时,民主倡导者和人工智能研究人员警告说,这些工具已经被用来欺骗和欺骗民众
[22]。
在过去的几年里,人工智能技术取得了令人瞩目的进步.其中最为引人注目的便是 AI 生成的
内容质量的提升.而最近,一个名为 Sora 的人工智能系统再次刷新了人们对 AI 能力的认知.
那么,Sora 究竟有何神奇之处呢?本文将为您详细解析.
首先,让我们来看看 Sora 所创造的视频内容.这些视频的时长更长了,画质也更为清晰.然而,
这并非 Sora 之所以惊人的全部原因.事实上,OpenAI 已经超越了过去的所有 AIGC 能力,生
成了与真实物理世界紧密相关的视频内容.这一突破性成果使得人们开始重新审视 AI 在未
来可能发挥的作用.
Sora 的成功可以归因于其强大的算法和大量的数据训练.通过深度学习和自然语言处理技术
的结合,Sora 能够理解和生成复杂的语义信息.此外,Sora 还利用了大量的现实世界的数据
进行训练,使其能够在各种场景下生成逼真的视频内容.