字節跳動:Video-As-Prompt 模型開源,影片當指令,讓靜態圖秒變動畫!

AI 影片生成領域迎來全新突破!字節跳動(ByteDance)正式開源其創新的 Video-As-Prompt (VAP) 模型。這項技術允許使用者直接用一段參考影片作為「提示」,就能讓任何靜態圖片動起來,並且完美複製參考影片的語義和動態風格。本文將深入解析 VAP 的核心理念、兩種模型的差異,以及它為何能在效能上媲美 Kling、Vidu 等頂尖商業模型。


AI 影片生成的新玩法:不再只是文字遊戲

你是否曾想過,如果能讓一張靜態的照片,像某個影片裡的主角一樣跳舞、奔跑,甚至做出各種細膩的表情,那該有多酷?過去,我們習慣用文字(Text-to-Video)來指揮 AI 生成影片,但文字描述往往難以精準傳達我們腦海中複雜的動態和情感。

現在,這一切都將改變。

字節跳動(ByteDance)最近開源了一項名為 Video-As-Prompt (VAP) 的全新技術,徹底顛覆了傳統的影片生成模式。它的核心概念非常直觀:直接拿一段影片當作指令,去驅動一張靜態圖片。

這就像你指著一段麥可·傑克森的舞蹈影片,然後對一張蒙娜麗莎的畫像說:「嘿,讓她像這樣跳舞!」VAP 就能理解舞蹈的「語義」——不僅僅是動作軌跡,還包括節奏、風格和力量感——並將其應用到蒙娜麗莎的身上。

Video-As-Prompt 的核心理念是什麼?

簡單來說,VAP 的任務是:給定一段帶有特定語義的參考影片(Video Prompt),它能讓一張參考圖片(Reference Image)以和參考影片完全相同的語義動起來。

這背後是一種名為「情境生成」(in-context generation)的全新範式。它不再需要複雜的文字描述或多個條件控制,而是直接從範例影片中學習,理解其中的動態精髓,然後進行模仿和遷移。這使得影片生成變得前所未有的直觀和靈活。

兩種模型,兩種選擇:Wan2.1 vs. CogVideoX

為了滿足不同使用者的需求,字節跳動貼心地提供了 VAP 的兩種版本,它們在能力和穩定性之間做出了不同的取捨。

1. Wan2.1-I2V-14B:更強大、更懂人類

  • 優勢: 這個 140 億參數的大模型,得益於其強大的基礎模型能力,在人類動作和新穎概念的生成上表現極其出色。無論是複雜的舞蹈動作,還是《魷魚遊戲》這類特定文化概念,它都能精準捕捉並還原。
  • 限制: 因為模型體積太大,在有限的計算資源下,它的訓練步數相對較少。這也導致在某些語義條件下,穩定性會略遜一籌,有時可能會出現預期之外的結果。

2. CogVideoX-I2V-5B:更穩定、更可靠的選擇

  • 優勢: 作為一個 50 億參數的模型,它更輕量,這讓開發團隊能在同樣的資源下進行更長時間的訓練。結果就是,它在絕大多數語義條件下都表現出極高的穩定性。對於常規的動畫生成任務,它幾乎是個不會犯錯的優等生。
  • 限制: 受限於其骨幹網路的能力,它在處理以人類為中心的生成任務時稍顯遜色。同時,對於預訓練數據中不常見的概念(例如 ladudu、Minecraft 等),它的理解和生成能力也比較弱。

該如何選擇? 結論很簡單:如果你需要生成的是複雜的人類動作或小眾、新潮的內容,那麼 Wan2.1 是你的首選;如果你追求的是在各種常見場景下的高穩定性和可靠性,那麼 CogVideoX 會是更穩妥的選擇。

技術揭密:VAP 是如何運作的?

VAP 的架構設計相當聰明。它並不是從零開始打造一個全新的模型,而是巧妙地站在了巨人的肩膀上。

整個系統的核心是一個被「凍結」的影片擴散模型 Transformer(Video DiT)。你可以把它想像成一個已經非常擅長生成影片的通用大腦。所謂「凍結」,就是鎖定它的參數,確保它不會在學習新任務時忘記自己原本強大的能力,這有效避免了 AI 領域常見的「災難性遺忘」問題。

那麼,如何讓這個通用大腦聽懂「影片指令」呢?答案是一個即插即用的混合專家模型(Mixture-of-Transformers, MoT)。這個 MoT 專家就像一個翻譯官,專門負責解讀參考影片中的動態語義,然後將這些指令傳達給核心的 DiT 模型,引導它生成符合要求的動畫。

此外,VAP 還採用了一種**時間偏置位置嵌入(temporally biased position embedding)**技術,這能幫助模型更準確地從參考影片中抓取上下文關聯,而不會產生錯誤的時序對應。

效能驚人!VAP 能否挑戰商業巨頭?

說了這麼多,VAP 的實際表現究竟如何?答案是:非常驚人

根據官方公布的數據,VAP 作為一個統一的、可泛化的語義控制影片生成模型,其效能已經超越了所有現存的開源模型。更重要的是,它在使用者偏好度上的得分,幾乎與 Kling、Vidu 等頂尖的閉源商業模型持平!

模型Clip Score (⬆)動作流暢度 (⬆)動態程度 (⬆)美學品質 (⬆)對齊分數 (⬆)使用者偏好率 (⬆)
VACE (原始)5.8897.6068.7553.9035.380.6%
VACE (深度)22.6497.6575.0056.0343.350.7%
VACE (光流)22.6597.5679.1757.3446.711.8%
CogVideoX-I2V22.8298.4872.9256.7526.046.9%
CogVideoX-I2V (LoRA)23.5998.3470.8354.2368.6013.1%
Kling / Vidu24.0598.1279.1759.1674.0238.2%
Video-As-Prompt24.1398.5977.0857.7170.4438.7%

從表格中可以清楚看到,Video-As-Prompt 在多項關鍵指標上都取得了最高分,特別是 38.7% 的使用者偏好率,這意味著在與其他模型的盲測比較中,有接近四成的使用者認為 VAP 生成的影片是最好的。對於一個開源模型來說,這是一個里程碑式的成就。

未來展望:通往通用影片生成的下一步

VAP 的出現,不僅僅是為開發者和創作者提供了一個強大的新工具,更重要的是它展示了 AI 影片生成技術的巨大潛力。其強大的零樣本泛化能力(zero-shot generalization),意味著它能處理許多從未在訓練中見過的任務,這標誌著我們正朝著通用、可控的影片生成目標邁出堅實的一步。

從社群媒體的動態迷因製作,到藝術家讓靜態畫作栩栩如生,再到影視產業的動畫原型設計,VAP 的應用前景無限。隨著社群的參與和迭代,我們有理由相信,AI 將會以前所未有的方式,賦予靜態圖像全新的生命力。

相關資源

分享至:

© 2025 Communeify. All rights reserved.