Vidu

Vidu 是北京生数科技联合清华大学于 2024 年 4 月 27 日发布的一款视频大模型

视频工具 2 个月前

Vidu 是北京生数科技联合清华大学于 2024 年 4 月 27 日发布的一款视频大模型，它的诞生标志着中国在视频大模型领域的重大突破。Vidu 采用 Diffusion 与 Transformer 融合的创新架构 U-VT，此架构由团队于 2022 年 9 月提出，早于 Sora 采用的 DiT 架构，是全球首个此类融合架构。它支持一键生成长达 16 秒、分辨率为 1080P 的高清视频内容。不仅能模拟真实物理世界，生成符合真实物理规律的场景，如合理的光影效果、细腻的人物表情等，还拥有丰富的想象力，能创造出超现实主义的虚构画面。此外，Vidu 具备多镜头生成、时空一致性高等特点，能实现长镜头、追焦、转场等效果，理解多镜头语言，还能生成熊猫、龙等中国元素。作为全栈自主创新的成果，Vidu 性能全面对标国际顶尖水平，在影视、广告、游戏等多个行业都有广阔的应用前景。
Vidu

技术优势和创新点

架构创新：采用 Diffusion 与 Transformer 融合的 U-VT 架构，是全球首个此类融合架构，早于 Sora 采用的 DiT 架构，该架构结合了 Diffusion 模型的生成能力和 Transformer 模型的感知能力。

生成能力卓越

长时高清：可一键生成长达 16 秒、分辨率为 1080P 的高清视频。
一步到位：从文本到视频直接且连续生成，基于单一模型端到端，无中间插帧等多步骤处理。
主体参照：全球首个支持 “主体参照” 功能的视频大模型，能锁定上传的主体照片，生成一致性高的视频，保持主体在不同场景下的高度一致性。
语义理解精准：能准确理解并生成提示词中的文字，包括字母、数字等，还能精准表达第一人称、延时摄影等镜头语言。
运动表现出色：支持大幅度、精准的动作生成，可创造超现实主义内容，实现不同镜头的切换及长镜头、追焦、转场等效果。

应用场景和案例

影视制作：能快速生成影视片段，如生成特定风格的奇幻场景片段，为导演和编剧提供创意参考，还能辅助制作一些成本较高的特效场景，降低制作成本。
动漫创作：可以生成各种风格的动漫视频，如古风动漫、科幻动漫等，为动漫创作者提供新的创作思路和素材，加速创作进程。
广告营销：广告制作人员通过它快速生成个性化广告视频，如生成产品在不同场景下的展示广告，突出产品特点，提升广告制作效率和创意性。
艺术创作：艺术家利用其创作独特的艺术作品，如生成融合现实与幻想元素的视频艺术作品，在艺术展览等场合展示。

与其他视频大模型的简单对比

生成能力：相比部分只能生成短时长、低分辨率视频的模型，Vidu 能生成 16 秒 1080P 的视频具有优势。与同样能生成较长视频的模型相比，Vidu 的 “一步到位” 生成方式和 “主体参照” 功能是独特亮点。
架构技术：区别于一些基于传统 CNN 架构或单一 Transformer 架构的视频大模型，Vidu 的 U-VT 融合架构使它在处理视觉任务时更为高效和强大。
语义理解和运动表现：部分模型在语义理解上可能存在偏差，或难以实现精准的大幅度动作生成和多镜头切换，Vidu 在这些方面表现出色。

文章标题：Vidu
文章链接：https://www.url111.com/post-979.html
免责声明：我们致力于为用户提供丰富且有价值的跨境电商相关信息，但由于内容收集渠道众多，可能存在个别文章内容侵犯他人知识产权的情况，文中所涉跨境电商相关内容仅供参考，观点建议非决策依据，如有侵权，请联系我们（ipiaoyang@aliyun.com）进行删除。