Vidu 是北京生数科技联合清华大学于 2024 年 4 月 27 日发布的一款视频大模型,它的诞生标志着中国在视频大模型领域的重大突破。Vidu 采用 Diffusion 与 Transformer 融合的创新架构 U-VT,此架构由团队于 2022 年 9 月提出,早于 Sora 采用的 DiT 架构,是全球首个此类融合架构。它支持一键生成长达 16 秒、分辨率为 1080P 的高清视频内容。不仅能模拟真实物理世界,生成符合真实物理规律的场景,如合理的光影效果、细腻的人物表情等,还拥有丰富的想象力,能创造出超现实主义的虚构画面。此外,Vidu 具备多镜头生成、时空一致性高等特点,能实现长镜头、追焦、转场等效果,理解多镜头语言,还能生成熊猫、龙等中国元素。作为全栈自主创新的成果,Vidu 性能全面对标国际顶尖水平,在影视、广告、游戏等多个行业都有广阔的应用前景。
Vidu

技术优势和创新点

  • 架构创新:采用 Diffusion 与 Transformer 融合的 U-VT 架构,是全球首个此类融合架构,早于 Sora 采用的 DiT 架构,该架构结合了 Diffusion 模型的生成能力和 Transformer 模型的感知能力。

生成能力卓越

  • 长时高清:可一键生成长达 16 秒、分辨率为 1080P 的高清视频。

  • 一步到位:从文本到视频直接且连续生成,基于单一模型端到端,无中间插帧等多步骤处理。

  • 主体参照:全球首个支持 “主体参照” 功能的视频大模型,能锁定上传的主体照片,生成一致性高的视频,保持主体在不同场景下的高度一致性。

  • 语义理解精准:能准确理解并生成提示词中的文字,包括字母、数字等,还能精准表达第一人称、延时摄影等镜头语言。

  • 运动表现出色:支持大幅度、精准的动作生成,可创造超现实主义内容,实现不同镜头的切换及长镜头、追焦、转场等效果。

应用场景和案例

  • 影视制作:能快速生成影视片段,如生成特定风格的奇幻场景片段,为导演和编剧提供创意参考,还能辅助制作一些成本较高的特效场景,降低制作成本。

  • 动漫创作:可以生成各种风格的动漫视频,如古风动漫、科幻动漫等,为动漫创作者提供新的创作思路和素材,加速创作进程。

  • 广告营销:广告制作人员通过它快速生成个性化广告视频,如生成产品在不同场景下的展示广告,突出产品特点,提升广告制作效率和创意性。

  • 艺术创作:艺术家利用其创作独特的艺术作品,如生成融合现实与幻想元素的视频艺术作品,在艺术展览等场合展示。

与其他视频大模型的简单对比

  • 生成能力:相比部分只能生成短时长、低分辨率视频的模型,Vidu 能生成 16 秒 1080P 的视频具有优势。与同样能生成较长视频的模型相比,Vidu 的 “一步到位” 生成方式和 “主体参照” 功能是独特亮点。

  • 架构技术:区别于一些基于传统 CNN 架构或单一 Transformer 架构的视频大模型,Vidu 的 U-VT 融合架构使它在处理视觉任务时更为高效和强大。

  • 语义理解和运动表现:部分模型在语义理解上可能存在偏差,或难以实现精准的大幅度动作生成和多镜头切换,Vidu 在这些方面表现出色。

相关网址