影片生成新紀元？Phantom 框架登場，角色不再「變臉」！

發佈於: 2025-04-29 • 更新於: 2025-04-29 • 1 分鐘閱讀

還在煩惱 AI 影片裡人物變來變去嗎？來認識 Phantom：一個整合了文字轉影片、圖像轉影片的統一框架，特別強化了主角一致性，讓你的影片創作更穩定、更逼真。

欸，你有沒有玩過 AI 生成影片？是不是常常覺得，哇，畫面很酷炫，但裡面那個人，怎麼好像每隔幾秒就長得不太一樣？這真的是個頭痛的問題，尤其當你想講一個連貫的故事，或是需要特定角色貫穿全場時，主角一直「變臉」真的讓人很出戲。

這就是為什麼今天要來聊聊一個叫做 Phantom 的專案。它不是要從零打造一個全新的模型，而是更聰明地想辦法解決這個「一致性」的難題。

Phantom 是什麼？一個「整合大師」框架

簡單來說，Phantom 是一個統一的影片生成框架。你可以把它想像成一個整合平台，它巧妙地把現有的文字轉影片（Text-to-Video）和圖像轉影片（Image-to-Video）技術架構融合在一起。

它的核心目標很明確：就是要解決單一主題，甚至是多個主題在影片生成過程中，如何保持參考對象（尤其是人物！）樣貌一致的問題。聽起來是不是很對味？

那 Phantom 是怎麼做到更好的效果，尤其是在「認人」這件事上？關鍵就在於它的「跨模態對齊」能力。

專案團隊重新設計了聯合文字-圖像注入模型。聽起來有點技術性？別擔心，白話來說，就是他們利用了包含文字描述、對應的圖像、以及相關影片這樣的三元組數據來訓練模型。

想像一下，模型不只看文字和圖片，還把影片也拉進來一起學習，這樣它就能更深刻地理解文字、圖像和連續的影片畫面之間的關聯。這對於生成既符合文字描述，又能保持參考圖像特徵（比如人物長相）的影片來說，至關重要。

這就帶到了 Phantom 最讓人眼睛一亮的地方：主角一致性！

這一直是 AI 影片生成的痛點。過去的模型可能生成了很棒的場景，但影片裡的人物卻像是隨機生成的路人，跟你一開始指定的參考圖像差了十萬八千里。

Phantom 特別針對這點進行了強化。它不僅要生成影片，更要確保影片中的人類主體能保持一致，並且**增強了保留原始 ID（你可以理解為角色的身份特徵）**的影片生成能力。

這意味著什麼？意味著你用一張特定人物的照片作為參考，生成的影片裡，這個人物的樣貌、特徵會更加穩定，不會隨便「走山」。這對於需要角色連貫性的應用場景，比如短劇、故事敘述、甚至個人化影片創作，都是一大福音啊！不再是「欸，這是我剛剛指定的那個演員嗎？」的尷尬場面。

而且啊，Phantom 團隊最近動作頻頻，超活躍的！看看他們最近更新了什麼：

2025 年 4 月 10 日： 他們更新了完整的 Phantom 論文，裡面有更詳細的模型架構和數據集處理流程說明。想深入了解技術細節的朋友可以去挖寶。
2025 年 4 月 21 日： 👋 Phantom-Wan 來了！這是將 Phantom 框架應用到 Wan2.1 影片生成模型的成果。更棒的是，推斷代碼和模型檢查點（Checkpoint）都已經釋出！想動手玩的朋友可以準備了。
2025 年 4 月 23 日： 😊 社群力量大！感謝 ComfyUI-WanVideoWrapper 的開發者，現在 ComfyUI 也支援 Phantom-Wan-1.3B 了。對於喜歡用 ComfyUI 這個強大視覺化 AI 工具流的朋友來說，這絕對是個好消息！大家可以更方便地去體驗 Phantom 的威力了。