Nvidia公布新文本转视频模型 基于Stable Diffusion开发!

Nvidia公布了其文本转视频模型——Nvidia Video LDM,该模型是基于稳定扩散模型开发的。Nvidia通过对现有模型进行微调,大大减少了生成视频的过程和时间。

该模型增加了一个时间维度,可以在多个帧上实现时间对齐的图像合成。该团队训练了一个视频模型,以生成几分钟的汽车驾驶视频,分辨率为512×1024像素,在大多数基准测试中达到了SOTA的水平。

Nvidia公布新文本转视频模型 基于Stable Diffusion开发!

注:图片来自英伟达视频LDM项目截图。

除了这个与自动驾驶研究特别相关的演示,研究人员还展示了如何将现有的稳定扩散模型转换为视频模型。

在微调步骤中,团队用视频数据短时间训练稳定扩散,然后在网络中每个已有的空夹层后面增加一个额外的时间层,用视频数据训练。此外,该团队还训练了一个时间稳定的放大器,根据280×2的提示生成分辨率为280×2,048的视频。

有了稳定的扩散作为视频模型的基础,团队可以从现有的能力和方法中受益,而无需从头开始训练新的模型。例如,虽然使用的WebVid-10M数据集只包含真实世界的视频,但是基于底层的稳定扩散模型,该模型也可以生成艺术视频。所有视频的长度都在3.8到4.7秒之间——取决于帧速率。

研究团队还应该展示如何使用Dreambooth来个性化视频模型。以生成包含不属于原始训练数据的对象的视频。这为内容创作者开辟了新的可能性,他们可以使用DreamBooth创建视频。

注:Dreambooth调整整个神经网络各层的权重,将输入图像训练成稳定扩散模型。其本质是先复制源模型,在源模型的基础上进行微调,独立形成新模型。

在英伟达视频LDM项目页面上有更多的例子,但该模型尚未向公众开放。

项目网站:https://research.nvidia.com/labs/toronto-ai/VideoLDM/

本文内容及图片均整理自互联网,不代表本站立场,版权归原作者所有,如有侵权请联系admin#jikehao.com删除。
(0)
极客号的头像极客号
上一篇 2023年 4月 20日
下一篇 2023年 4月 20日

相关推荐

合作联系:1152QQ041010