Waver 1.0 – 字节跳动推出的AI视频生成模型

Waver 1.0是什么

Waver 1.0 是字节跳动推出的新一代视频生成模型,基于修正流 Transformer 架构,支持文本到视频(T2V)、图像到视频(I2V)和文本到图像(T2I)生成,可在单一框架内完成,无需切换模型。支持高达 1080p 的分辨率和 2-10 秒的灵活视频长度,擅长捕捉复杂运动,生成的视频在运动幅度和时间一致性上表现出色。在 Waver-Bench 1.0 和 Hermes 运动测试集上,Waver 1.0 的表现优于现有的开源和闭源模型。支持多种艺术风格的视频生成,包括极致现实、动画、粘土、毛绒等。

Waver 1.0

Waver 1.0的主要功能

  • 一体化生成:支持文本到视频(T2V)、图像到视频(I2V)和文本到图像(T2I)生成,无需切换模型。
  • 高分辨率与灵活长度:支持最高 1080p 分辨率和 2-10 秒的视频长度,可灵活调整分辨率和宽高比。
  • 复杂运动建模:擅长捕捉复杂运动,生成的视频在运动幅度和时间一致性上表现出色。
  • 多镜头叙事:能生成多镜头连贯叙事视频,保证核心主题、视觉风格和整体氛围的高度一致性。
  • 艺术风格支持:支持多种艺术风格的视频生成,如极致现实、动画、粘土、毛绒等。
  • 性能优势:在 Waver-Bench 1.0 和 Hermes 运动测试集上,性能优于现有开源和闭源模型。
  • 推理优化:采用 APG 技术,减少伪影,提高生成视频的真实感。
  • 训练策略:通过低分辨率视频训练,逐步增加分辨率,优化运动生成能力。
  • 提示标签:通过提示标签区分不同类型的训练数据,提升生成效果。

Waver 1.0的技术原理

  • 模型架构:Waver 1.0采用混合流DiT(Hybrid Stream DiT)架构,使用Wan-VAE获取压缩视频潜在变量,采用flan-t5-xxl和Qwen2.5-32B-Instruct提取文本特征,基于修正流Transformer构建DiT模型。视频和文本模态通过双流+单流的方式融合。
  • 1080p生成:Waver-Refiner采用DiT架构,通过流匹配方法训练。先将低分辨率视频(480p或720p)上采样到1080p,再添加噪声,以噪声低分辨率视频为输入,输出高质量1080p视频。使用窗口注意力机制,减少推理步骤,显著提高推理速度。
  • 训练方法:在低分辨率视频上训练对学习运动至关重要。投入大量计算资源在192p视频上训练,然后逐渐增加分辨率到480p和720p。遵循SD3中的流匹配训练设置,逐渐增加480p和720p视频训练时的sigma shift值。
  • 提示标签:采用提示标签方法区分不同类型的训练数据,根据视频风格和视频质量为训练数据分配不同标签。在训练时,将描述视频风格的提示添加到标题前,将描述视频质量的提示添加到训练标题末尾。在推理时,将描述不良质量的提示(如低清晰度或慢动作)纳入负提示。
  • 推理优化:将APG扩展到视频生成中,以增强真实感并减少伪影。APG将CFG中的更新项分解为平行和正交分量,并降低平行分量的权重,以实现高质量生成而不过度饱和。

Waver 1.0的项目地址

  • 项目官网:http://www.waver.video/
  • Github仓库:https://github.com/FoundationVision/Waver
  • arXiv技术论文:https://arxiv.org/pdf/2508.15761

Waver 1.0的应用场景

  • 内容创作:可用于故事创作、广告、短剧等,将文本描述转化为生动的视频。
  • 产品展示:能将产品图片转化为动态展示视频,适用于电商直播、产品展示和虚拟试穿等。
  • 教育与培训:可以将教学内容或培训文档转化为互动视频,提升学习体验。
  • 社交媒体:快速生成适合社交媒体发布的视频内容,吸引用户关注。
  • 动画制作:将静态图片转化为动画,适用于动画制作、角色驱动和特效生成。
  • 游戏开发:为游戏生成动态场景和角色动画,增强游戏的沉浸感。
© 版权声明

相关文章

暂无评论

暂无评论...