在视频生成领域,多数模型生成超长视频效果欠佳。本文介绍的微软亚洲研究院研发的 NUWA-XL,带来全新突破。它采用创新的 diffusion over diffusion 架构,通过 “从粗到细” 过程并行生成视频。全局扩散模型生成关键帧,局部扩散模型递归填充中间帧,消除训练 - 推理差距,支持并行推理。实验表明,NUWA-XL 能生成高质量长视频,相比其他模型,生成 1024 帧时平均推理时间从 7.55 分钟锐减至 26 秒 ,为超长视频生成开辟新路径。
NUWA-XL

技术原理

  • NUWA-XL 采用了创新的 diffusion over diffusion 架构,这种架构为视频生成带来了全新的思路。在视频生成过程中,它通过 “从粗到细” 的独特方式并行生成视频。首先,利用全局扩散模型生成整个时间范围内的关键帧。这些关键帧就像是视频故事中的重要节点,为整个视频奠定了基础框架。随后,局部扩散模型发挥作用,它会递归地填充附近关键帧之间的内容。通过这种协作方式,不仅能够生成连贯且自然的视频内容,还巧妙地消除了训练和推理之间的差距,让视频生成更加高效和准确。

核心优势

  • 高效的并行推理:NUWA-XL 支持并行推理,这一特性极大地提升了视频生成速度。在相同硬件设置下,当生成 1024 帧的视频时,其平均推理时间从传统模型的 7.55 分钟锐减至 26 秒,这种速度上的飞跃,让创作者能够更快速地看到自己的创意转化为实际的视频内容,大大提高了创作效率。

  • 高质量长视频生成:许多视频生成模型在生成超长视频时,往往会出现质量下降的问题。然而,NUWA-XL 却表现出色,随着视频长度的增长,其生成的视频质量下降幅度更慢。这意味着,无论是制作几分钟的短视频,还是长达数小时的长视频,NUWA-XL 都能保持较高的质量水准,为用户提供稳定可靠的视频生成服务。

应用场景

  • 影视创作领域:对于电影和电视剧的制作,NUWA-XL 可以帮助创作者快速生成故事板和初步的视频素材。导演可以根据这些素材进行创意的调整和完善,节省大量的前期制作时间。同时,在特效制作方面,NUWA-XL 也能发挥重要作用,生成高质量的特效视频片段,为影视作品增添视觉冲击力。

  • 游戏开发行业:游戏开发者可以利用 NUWA-XL 生成动态的游戏过场动画和剧情视频。这些高质量的视频内容能够丰富游戏的叙事性和沉浸感,提升玩家的游戏体验。而且,快速的生成速度也能让开发者在游戏开发过程中及时调整和优化视频内容,提高开发效率。

  • 教育与培训行业:在在线教育和企业培训领域,NUWA-XL 可以帮助制作生动有趣的教学视频。教师和培训师可以根据教学内容快速生成相关的视频素材,使教学过程更加直观、形象,提高学员的学习兴趣和学习效果。

NUWA-XL使用教程

获取使用权限:目前,NUWA-XL 可能还未全面开放使用,你需要关注微软亚洲研究院的官方发布渠道,了解获取使用权限的方式。比如留意研究院官网、官方社交媒体账号等,看是否有申请入口或相关通知。

准备输入内容

  • 文本描述:如果你想根据文字生成视频,那么需要撰写清晰、具体的文本描述。比如你想制作一个科幻主题的视频,就可以描述 “在遥远的未来,宇宙飞船穿梭在璀璨的星系间,前往神秘的星球探索,星球表面有奇异的生物和发光的晶体” 。尽量详细地描述场景、角色、动作等元素,帮助模型更精准地理解你的需求。

  • 图像(可选):如果有指定的起始图像,确保图像格式符合平台要求,一般常见的如 JPEG、PNG 等格式。例如你有一张自己画的未来城市草图,想以此为基础生成视频,就可以将其准备好上传。

选择生成参数

  • 视频长度:根据自己的需求设定视频的时长或帧数。如果是制作短视频,可设置较少的帧数;若是制作长视频内容,如电影片段或动画剧集,就需要设置较多的帧数。

  • 视频分辨率:从平台提供的选项中选择合适的分辨率,较高的分辨率能带来更清晰的画质,但也可能需要更多的计算资源和更长的生成时间。

  • 其他参数(若有):可能还会有一些其他参数,如视频风格、帧率等,根据实际情况和创作需求进行选择。比如你想制作复古风格的视频,就可以选择相应的风格参数。

  • 提交生成任务:将准备好的输入内容和选择好的参数提交给 NUWA-XL,等待模型生成视频。在生成过程中,耐心等待,不要频繁操作或中断任务。生成时间会受到视频长度、分辨率以及服务器负载等因素的影响,一般来说,生成较长、分辨率较高的视频会花费更多时间。

检查与调整

  • 初步检查:生成完成后,首先快速浏览视频,查看整体内容是否符合预期,比如场景、角色等是否与输入描述一致。

  • 细节调整:若发现有不满意的地方,比如某个场景的过渡不自然、角色动作不符合预期等,根据平台提供的调整功能进行修改。有些调整可能需要重新生成部分视频内容,这也需要一定的时间。

  • 导出与使用:确认视频无误后,将其导出到本地设备。导出格式通常也有多种选择,如 MP4 等常见视频格式,选择适合自己后续使用场景的格式。导出后的视频就可以用于影视创作、游戏开发、教育教学等各种用途,比如将其剪辑进电影作品中,或者作为游戏的过场动画,亦或是用于在线课程的教学视频。

相关网址