tool

字节跳动:Video-As-Prompt 模型开源,视频当指令,让静态图秒变动画!

October 24, 2025
Updated Oct 24
1 min read

AI 视频生成领域迎来全新突破!字节跳动(ByteDance)正式开源其创新的 Video-As-Prompt (VAP) 模型。这项技术允许用户直接用一段参考视频作为“提示”,就能让任何静态图片动起来,并且完美复制参考视频的语义和动态风格。本文将深入解析 VAP 的核心理念、两种模型的差异,以及它为何能在效能上媲美 Kling、Vidu 等顶尖商业模型。


AI 视频生成的新玩法:不再只是文字游戏

你是否曾想过,如果能让一张静态的照片,像某个视频里的主角一样跳舞、奔跑,甚至做出各种细腻的表情,那该有多酷?过去,我们习惯用文字(Text-to-Video)来指挥 AI 生成视频,但文字描述往往难以精准传达我们脑海中复杂的动态和情感。

现在,这一切都将改变。

字节跳动(ByteDance)最近开源了一项名为 Video-As-Prompt (VAP) 的全新技术,彻底颠覆了传统的视频生成模式。它的核心概念非常直观:直接拿一段视频当作指令,去驱动一张静态图片。

这就像你指着一段迈克尔·杰克逊的舞蹈视频,然后对一张蒙娜丽莎的画像说:“嘿,让她像这样跳舞!”VAP 就能理解舞蹈的“语义”——不仅仅是动作轨迹,还包括节奏、风格和力量感——并将其应用到蒙娜丽莎的身上。

Video-As-Prompt 的核心理念是什么?

简单来说,VAP 的任务是:给定一段带有特定语义的参考视频(Video Prompt),它能让一张参考图片(Reference Image)以和参考视频完全相同的语义动起来。

这背后是一种名为“情境生成”(in-context generation)的全新范式。它不再需要复杂的文字描述或多个条件控制,而是直接从范例视频中学习,理解其中的动态精髓,然后进行模仿和迁移。这使得视频生成变得前所未有的直观和灵活。

两种模型,两种选择:Wan2.1 vs. CogVideoX

为了满足不同用户的需求,字节跳动贴心地提供了 VAP 的两种版本,它们在能力和稳定性之间做出了不同的取舍。

1. Wan2.1-I2V-14B:更强大、更懂人类

  • 优势: 这个 140 亿参数的大模型,得益于其强大的基础模型能力,在人类动作和新颖概念的生成上表现极其出色。无论是复杂的舞蹈动作,还是《鱿鱼游戏》这类特定文化概念,它都能精准捕捉并还原。
  • 限制: 因为模型体积太大,在有限的计算资源下,它的训练步数相对较少。这也导致在某些语义条件下,稳定性会略逊一筹,有时可能会出现预期之外的结果。

2. CogVideoX-I2V-5B:更稳定、更可靠的选择

  • 优势: 作为一个 50 亿参数的模型,它更轻量,这让开发团队能在同样的资源下进行更长时间的训练。结果就是,它在绝大多数语义条件下都表现出极高的稳定性。对于常规的动画生成任务,它几乎是个不会犯错的优等生。
  • 限制: 受限于其骨干网络的能力,它在处理以人类为中心的生成任务时稍显逊色。同时,对于预训练数据中不常见的概念(例如 ladudu、Minecraft 等),它的理解和生成能力也比较弱。

该如何选择? 结论很简单:如果你需要生成的是复杂的人类动作或小众、新潮的内容,那么 Wan2.1 是你的首选;如果你追求的是在各种常见场景下的高稳定性和可靠性,那么 CogVideoX 会是更稳妥的选择。

技术揭密:VAP 是如何运作的?

VAP 的架构设计相当聪明。它并不是从零开始打造一个全新的模型,而是巧妙地站在了巨人的肩膀上。

整个系统的核心是一个被“冻结”的视频扩散模型 Transformer(Video DiT)。你可以把它想象成一个已经非常擅长生成视频的通用大脑。所谓“冻结”,就是锁定它的参数,确保它不会在学习新任务时忘记自己原本强大的能力,这有效避免了 AI 领域常见的“灾难性遗忘”问题。

那么,如何让这个通用大脑听懂“视频指令”呢?答案是一个即插即用的混合专家模型(Mixture-of-Transformers, MoT)。这个 MoT 专家就像一个翻译官,专门负责解读参考视频中的动态语义,然后将这些指令传达给核心的 DiT 模型,引导它生成符合要求的动画。

此外,VAP 还采用了一种**时间偏置位置嵌入(temporally biased position embedding)**技术,这能帮助模型更准确地从参考视频中抓取上下文关联,而不会产生错误的时序对应。

效能惊人!VAP 能否挑战商业巨头?

说了这么多,VAP 的实际表现究竟如何?答案是:非常惊人

根据官方公布的数据,VAP 作为一个统一的、可泛化的语义控制视频生成模型,其效能已经超越了所有现存的开源模型。更重要的是,它在用户偏好度上的得分,几乎与 Kling、Vidu 等顶尖的闭源商业模型持平!

模型Clip Score (⬆)动作流畅度 (⬆)动态程度 (⬆)美学品质 (⬆)对齐分数 (⬆)用户偏好率 (⬆)
VACE (原始)5.8897.6068.7553.9035.380.6%
VACE (深度)22.6497.6575.0056.0343.350.7%
VACE (光流)22.6597.5679.1757.3446.711.8%
CogVideoX-I2V22.8298.4872.9256.7526.046.9%
CogVideoX-I2V (LoRA)23.5998.3470.8354.2368.6013.1%
Kling / Vidu24.0598.1279.1759.1674.0238.2%
Video-As-Prompt24.1398.5977.0857.7170.4438.7%

从表格中可以清楚看到,Video-As-Prompt 在多项关键指标上都取得了最高分,特别是 38.7% 的用户偏好率,这意味着在与其他模型的盲测比较中,有接近四成的用户认为 VAP 生成的视频是最好的。对于一个开源模型来说,这是一个里程碑式的成就。

未来展望:通往通用视频生成的下一步

VAP 的出现,不仅仅仅是为开发者和创作者提供了一个强大的新工具,更重要的是它展示了 AI 视频生成技术的巨大潜力。其强大的零样本泛化能力(zero-shot generalization),意味着它能处理许多从未在训练中见过的任务,这标志着我们正朝着通用、可控的视频生成目标迈出坚实的一步。

从社交媒体的动态迷因制作,到艺术家让静态画作栩栩如生,再到影视产业的动画原型设计,VAP 的应用前景无限。随着社区的参与和迭代,我们有理由相信,AI 将会以前所未有的方式,赋静态图像全新的生命力。

相关资源

分享到:
Featured Partners

© 2026 Communeify. All rights reserved.