事项:
当地时间2月15日,OpenAI在官网正式发布Sora,根据OpenAI官网信息,
Sora是一个人工智能模型,能够通过文本提示生成逼真且富有想象力的视频。
平安观点:
Sora文生视频功能强大,能够通过文本提示生成长达1分钟的视频。根
据OpenAI官网介绍,作为文生视频大模型,Sora可以在保持视觉质量和
遵循用户的文本提示的情况下,生成长达1分钟的视频。在OpenAI的官
网页面,OpenAI展示了通过以下文本提示词生成的1分钟视频:一位时
尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色
皮夹克、红色长裙和黑色靴子,拿着黑色手提包。她戴着太阳镜,涂着
红色口红。她走路自信又随意。街道潮湿且反光,在彩色灯光的照射下
形成镜面效果。许多行人走来走去。Sora生成的这1分钟的视频体现了文
本提示的精确主题和背景细节的复杂场景,准确展现了角色和视觉风
格。以往的图像和视频的生成方法,通常会通过调整大小、裁剪或修剪
等方法将视频调整为标准尺寸,比如分辨率为256X256的4秒视频。相比
以往的视频生成方法,Sora的文生视频能力显然更加强大,Sora可以采
样宽屏1920x1080视频、垂直1080x1920视频以及介于两者之间的所有
视频,这使得Sora 可以直接以原生宽高比为不同设备创建内容。另外,
Sora目前能够生成的视频时长可长达1分钟,遥遥领先于以往的视频生成
时长。
Sora呈现良好的多模态能力,不仅支持文本生成视频,还具备图像生成
视频等能力。另外,Sora 还有生成图像的能力。Sora是一个扩散模型,
与OpenAI的GPT模型类似,Sora也是使用transformer的架构。OpenAI
将视频和图像表示为称为补丁的较小数据单元的集合,每个补丁类似于
GPT中的令牌。通过统一表示数据的方式,OpenAI可以在比以前更广泛
的视觉数据上训练Sora,涵盖不同的持续时间、分辨率和纵横比。Sora
建立在OpenAI过去对DALL·E 和GPT模型的研究之上。因此,Sora能够
在生成视频时更忠实地遵循用户的文本提示。Sora表现出良好的多模态
能力,不仅支持文本生成视频,还能够根据提供的图片作为输入来生成
视频。在OpenAI官网,OpenAI演示了根据DALL·E2和DALL·E3的图片
生成的视频。Sora还能够扩展生成的视频,在时间上向前或向后扩展,
并具有连接视频等视频编辑的能力。另外,Sora还有生成图像的能力,
Sora可以生成不同尺寸大小的图像,分辨率最高可达2048X2048的水
平。
Sora在理解和模拟物理世界方面取得了积极进展。在OpenAI官网发布的
信息中,OpenAI并不止于将Sora定位为一个文生视频的大模型,OpenA
请通过合法途径获取本公司研究报告,如经由未经许可的渠道获得研究报告,请慎重使用并注意阅读研究报告尾页的声明内容