VideoPoet 是谷歌团队于 2023 年推出的全新视频生成大型语言模型,在 2023 年 12 月 19 日正式对外发布。它集成了多种先进技术,拥有强大的功能。模型主要包含预训练的 MagViT V2 视频 tokenizer 和 SoundStream 音频 tokenizer,能将图像、视频和音频剪辑转换成离散代码序列,与文本型语言模型兼容,便于多模态结合。同时,它采用自回归语言模型,可在视频、图像、音频和文本之间跨模态学习,以自回归方式预测序列中下一个视频或音频 token。
VideoPoet

核心组件

  • 预训练 tokenizer:包含预训练的 MagViT V2 视频 tokenizer 和 SoundStream 音频 tokenizer,可将图像、视频和音频剪辑转换成离散代码序列,便于与文本等其他模态结合。

  • 自回归语言模型:能在视频、图像、音频和文本之间跨模态学习,以自回归方式预测序列中下一个视频或音频 token。

技术原理

  • 多模态输入处理:接收并处理图像、视频帧、文本和音频波形等输入信号,通过特定分词器转换为离散标记后由模型处理。

  • 解码器架构:采用仅解码器的 Transformer 架构,可处理多模态输入,根据输入标记序列预测输出序列,实现连续视频帧生成。

  • 预训练与任务适应:训练分预训练和任务适应两阶段。预训练阶段通过多模态生成目标在自回归变换器框架内训练,为适应各种视频生成任务打基础;任务适应阶段可微调以提高特定任务生成质量或执行新任务。

  • 多模态词汇表:构建统一的多模态词汇表,包含图像、视频和音频标记,使模型能理解和生成跨模态内容。

  • 自回归生成:生成视频时采用自回归方法,生成每一帧时会考虑之前所有帧信息,保持视频连贯性和一致性。

  • 分辨率模块:引入空间超分辨率变换器模块,在语言模型输出基础上,通过局部窗口注意力机制提高计算效率,生成更高分辨率视频。

主要功能

  • 文本到视频转换:能根据文本描述生成相应视频内容。

  • 图像到视频动画:可根据静态图像生成动态视频。

  • 视频风格化:能够改变现有视频风格,如转换成油画风格、卡通风格等。

  • 视频编辑和扩展:支持对视频进行编辑,如改变视频中物体动作或添加新元素,还能扩展视频内容,生成更长片段。

  • 视频到音频转换:可以从视频中生成音频,为无声视频配上音效或音乐。

优势特点

  • 零样本生成:能处理训练数据分布之外的新文本、图像或视频输入,生成一致且逼真的视频,泛化能力强。

  • 多任务集成:将多种视频生成能力集成于一个模型,而非针对每个任务分别训练组件,通过任务链式组合,能执行新的、训练中未明确教授的任务。

  • 高质量生成:在生成具有大范围和高保真度动作的视频方面达到先进水平,可生成长达 10 秒的连贯视频,在生成有趣且高质量的动作方面表现优异。

相关网址