Vidu 是北京生数科技联合清华大学于 2024 年 4 月 27 日发布的一款视频大模型,它的诞生标志着中国在视频大模型领域的重大突破。Vidu 采用 Diffusion 与 Transformer 融合的创新架构 U-VT,此架构由团队于 2022 年 9 月提出,早于 Sora 采用的 DiT 架构,是全球首个此类融合架构。它支持一键生成长达 16 秒、分辨率为 1080P 的高清视频内容。不仅能模拟真实物理世界,生成符合真实物理规律的场景,如合理的光影效果、细腻的人物表情等,还拥有丰富的想象力,能创造出超现实主义的虚构画面。此外,Vidu 具备多镜头生成、时空一致性高等特点,能实现长镜头、追焦、转场等效果,理解多镜头语言,还能生成熊猫、龙等中国元素。作为全栈自主创新的成果,Vidu 性能全面对标国际顶尖水平,在影视、广告、游戏等多个行业都有广阔的应用前景。
长时高清:可一键生成长达 16 秒、分辨率为 1080P 的高清视频。
一步到位:从文本到视频直接且连续生成,基于单一模型端到端,无中间插帧等多步骤处理。
主体参照:全球首个支持 “主体参照” 功能的视频大模型,能锁定上传的主体照片,生成一致性高的视频,保持主体在不同场景下的高度一致性。
语义理解精准:能准确理解并生成提示词中的文字,包括字母、数字等,还能精准表达第一人称、延时摄影等镜头语言。
运动表现出色:支持大幅度、精准的动作生成,可创造超现实主义内容,实现不同镜头的切换及长镜头、追焦、转场等效果。
影视制作:能快速生成影视片段,如生成特定风格的奇幻场景片段,为导演和编剧提供创意参考,还能辅助制作一些成本较高的特效场景,降低制作成本。
动漫创作:可以生成各种风格的动漫视频,如古风动漫、科幻动漫等,为动漫创作者提供新的创作思路和素材,加速创作进程。
广告营销:广告制作人员通过它快速生成个性化广告视频,如生成产品在不同场景下的展示广告,突出产品特点,提升广告制作效率和创意性。
艺术创作:艺术家利用其创作独特的艺术作品,如生成融合现实与幻想元素的视频艺术作品,在艺术展览等场合展示。
生成能力:相比部分只能生成短时长、低分辨率视频的模型,Vidu 能生成 16 秒 1080P 的视频具有优势。与同样能生成较长视频的模型相比,Vidu 的 “一步到位” 生成方式和 “主体参照” 功能是独特亮点。
架构技术:区别于一些基于传统 CNN 架构或单一 Transformer 架构的视频大模型,Vidu 的 U-VT 融合架构使它在处理视觉任务时更为高效和强大。
语义理解和运动表现:部分模型在语义理解上可能存在偏差,或难以实现精准的大幅度动作生成和多镜头切换,Vidu 在这些方面表现出色。