没有合适的资源?快使用搜索试试~ 我知道了~
Sora 关键架构和技术介绍,及Sora视频生成流程 LDM 就是 Stable Diffusion 使用的模型架构。扩散模型的一大问题是计算需求大,难以拟合高分辨率图像。为了解决这一问题,实现 LDM 时,会先训练一个几乎能无损压缩图像的自编码器,能把 512x512 的真实图像压缩成 64x64 的压缩图像并还原。接着,再训练一个扩散模型去拟合分辨率更低的压缩图像。这样,仅需少量计算资源就能训练出高分辨率的图像生成模型。
资源推荐
资源详情
资源评论
Sora 生成视频的流程
那 Sora 是怎么做的呢?接下来我们通过一张图来了解下 Sora 的工作流程,
大概可以简化为三个部分:
简单来说,Sora 就是依赖了两个模型 Latent Diffusion Model (LDM) 加上
Diffusion Transformer (DiT)。我们先简要回顾一下这两种模型架构。
LDM 就是 Stable Diffusion 使用的模型架构。扩散模型的一大问题是计算需求
大,难以拟合高分辨率图像。为了解决这一问题,实现 LDM 时,会先训练一
个几乎能无损压缩图像的自编码器,能把 512x512 的真实图像压缩成 64x64
的压缩图像并还原。接着,再训练一个扩散模型去拟合分辨率更低的压缩图像。
这样,仅需少量计算资源就能训练出高分辨率的图像生成模型。
LDM 的扩散模型使用的模型是 U-Net。而根据其他深度学习任务中的经验,相
比 U-Net,Transformer 架构的参数可拓展性强,即随着参数量的增加,
资源评论
染不尽的流年
- 粉丝: 1823
- 资源: 129
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功