影片生成新紀元?Phantom 框架登場,角色不再「變臉」!

還在煩惱 AI 影片裡人物變來變去嗎?來認識 Phantom:一個整合了文字轉影片、圖像轉影片的統一框架,特別強化了主角一致性,讓你的影片創作更穩定、更逼真。


欸,你有沒有玩過 AI 生成影片?是不是常常覺得,哇,畫面很酷炫,但裡面那個人,怎麼好像每隔幾秒就長得不太一樣?這真的是個頭痛的問題,尤其當你想講一個連貫的故事,或是需要特定角色貫穿全場時,主角一直「變臉」真的讓人很出戲。

這就是為什麼今天要來聊聊一個叫做 Phantom 的專案。它不是要從零打造一個全新的模型,而是更聰明地想辦法解決這個「一致性」的難題。

Phantom 是什麼?一個「整合大師」框架

簡單來說,Phantom 是一個統一的影片生成框架。你可以把它想像成一個整合平台,它巧妙地把現有的文字轉影片(Text-to-Video)和圖像轉影片(Image-to-Video)技術架構融合在一起。

它的核心目標很明確:就是要解決單一主題,甚至是多個主題在影片生成過程中,如何保持參考對象(尤其是人物!)樣貌一致的問題。聽起來是不是很對味?

跨模態對齊:讓模型更懂「你」的意思

那 Phantom 是怎麼做到更好的效果,尤其是在「認人」這件事上?關鍵就在於它的「跨模態對齊」能力。

專案團隊重新設計了聯合文字-圖像注入模型。聽起來有點技術性?別擔心,白話來說,就是他們利用了包含文字描述、對應的圖像、以及相關影片這樣的三元組數據來訓練模型。

想像一下,模型不只看文字和圖片,還把影片也拉進來一起學習,這樣它就能更深刻地理解文字、圖像和連續的影片畫面之間的關聯。這對於生成既符合文字描述,又能保持參考圖像特徵(比如人物長相)的影片來說,至關重要。

主角一致性大突破:告別路人臉!

這就帶到了 Phantom 最讓人眼睛一亮的地方:主角一致性

這一直是 AI 影片生成的痛點。過去的模型可能生成了很棒的場景,但影片裡的人物卻像是隨機生成的路人,跟你一開始指定的參考圖像差了十萬八千里。

Phantom 特別針對這點進行了強化。它不僅要生成影片,更要確保影片中的人類主體能保持一致,並且增強了保留原始 ID(你可以理解為角色的身份特徵)的影片生成能力。

這意味著什麼?意味著你用一張特定人物的照片作為參考,生成的影片裡,這個人物的樣貌、特徵會更加穩定,不會隨便「走山」。這對於需要角色連貫性的應用場景,比如短劇、故事敘述、甚至個人化影片創作,都是一大福音啊!不再是「欸,這是我剛剛指定的那個演員嗎?」的尷尬場面。

🔥 熱騰騰的最新消息!

而且啊,Phantom 團隊最近動作頻頻,超活躍的!看看他們最近更新了什麼:

  • 2025 年 4 月 10 日: 他們更新了完整的 Phantom 論文,裡面有更詳細的模型架構和數據集處理流程說明。想深入了解技術細節的朋友可以去挖寶。
  • 2025 年 4 月 21 日: 👋 Phantom-Wan 來了!這是將 Phantom 框架應用到 Wan2.1 影片生成模型的成果。更棒的是,推斷代碼和模型檢查點(Checkpoint)都已經釋出!想動手玩的朋友可以準備了。
  • 2025 年 4 月 23 日: 😊 社群力量大!感謝 ComfyUI-WanVideoWrapper 的開發者,現在 ComfyUI 也支援 Phantom-Wan-1.3B 了。對於喜歡用 ComfyUI 這個強大視覺化 AI 工具流的朋友來說,這絕對是個好消息!大家可以更方便地去體驗 Phantom 的威力了。

想試試看?這裡請!

聽到這裡,是不是有點心動,想自己玩玩看?

Phantom 專案的主要資訊和資源都放在他們的 GitHub 上。你可以直接前往:

➡️ Phantom GitHub 儲存庫

在 GitHub 頁面上,你可以找到關於如何下載 Phantom-Wan 模型、設置環境,以及使用單一 GPU 或多 GPU 進行推斷(也就是生成影片)的詳細說明。

結語:影片生成的新可能

總之,Phantom 這個專案,對於所有在影片生成領域打滾,或是對 AI 創作有興趣的朋友來說,都值得密切關注。

它不僅提供了一個整合性的框架,更重要的是,它正試圖解決影片生成中那個讓人頭痛不已的「一致性」問題,特別是在人物主體的呈現上。隨著 Phantom-Wan 的釋出和 ComfyUI 的支援,我們可以期待未來有更多穩定、逼真、且角色連貫的 AI 生成影片出現。

這是不是讓你對未來的 AI 影片創作,又多了幾分想像空間呢?

Share on:
Previous: 告別付費牆?Step1X-Edit:挑戰 GPT-4o 的開源 AI 圖像編輯神器來了!
Next: OpenAI 震撼彈:輕量版 Deep Research 開放免費,研究利器全民共享!
DMflow.chat

DMflow.chat

廣告

全能 DMflow.chat:多平台整合、持久記憶與靈活客製欄位,無需額外開發即可連接資料庫與表單。更支援真人與 AI 的無縫切換,網頁互動加 API 輸出,一步到位!

AI影片新革命!騰訊混元HunyuanCustom:一鍵生成、口型同步,影片創作從此大不同!
14 May 2025

AI影片新革命!騰訊混元HunyuanCustom:一鍵生成、口型同步,影片創作從此大不同!

AI影片新革命!騰訊混元HunyuanCustom:一鍵生成、口型同步,影片創作從此大不同! 騰訊混元推出開源AI影片工具HunyuanCustom,只需一張圖就能生成生動影片,更能實現...

LTX-Video 震撼登場:即時高畫質影片生成,開啟創作新紀元
14 May 2025

LTX-Video 震撼登場:即時高畫質影片生成,開啟創作新紀元

LTX-Video 震撼登場:即時高畫質影片生成,開啟創作新紀元 探索 LTX-Video,一款基於 DiT 架構的強大影片生成模型,能即時產出令人驚豔的高畫質影片。了解其多樣功能與應用...

KeySync:告別尷尬「對嘴」,打造完美唇形同步!
8 May 2025

KeySync:告別尷尬「對嘴」,打造完美唇形同步!

KeySync:告別尷尬「對嘴」,打造完美唇形同步! 厭倦了影片中人物嘴形與聲音對不上的窘境嗎?開源專案 KeySync 帶來革命性唇形同步技術,解決表情洩漏、嘴部遮擋等難題,實現高畫質...

FlexiAct:AI影片生成新境界,讓人物動作自由穿梭!
8 May 2025

FlexiAct:AI影片生成新境界,讓人物動作自由穿梭!

FlexiAct:AI影片生成新境界,讓人物動作自由穿梭! 想像一下,任何圖片裡的人物都能跟著你指定的影片動作「活」起來嗎?探索 FlexiAct 如何突破傳統影片生成限制,實現跨佈局、...

告別算力焦慮!FramePack 如何讓影片生成像玩圖一樣簡單?
23 April 2025

告別算力焦慮!FramePack 如何讓影片生成像玩圖一樣簡單?

告別算力焦慮!FramePack 如何讓影片生成像玩圖一樣簡單? 覺得 AI 影片生成又酷又炫,但硬體門檻高、生成時間長? lllyasviel 推出的 FramePack 可能就是你的...

AI 當導演?SkyReels-V2 讓無限長度電影成真
23 April 2025

AI 當導演?SkyReels-V2 讓無限長度電影成真

AI 當導演?SkyReels-V2 讓無限長度電影成真! 厭倦了 AI 影片只有幾秒鐘?來看看 SkyworkAI 的 SkyReels-V2,這個模型能生成無限長度的電影級影片,還能...

DeepSeek R1T Chimera 登陸 OpenRouter!AI 界新寵兒,智慧與效率的完美融合?
29 April 2025

DeepSeek R1T Chimera 登陸 OpenRouter!AI 界新寵兒,智慧與效率的完美融合?

DeepSeek R1T Chimera 登陸 OpenRouter!AI 界新寵兒,智慧與效率的完美融合? 最新開源 AI 模型 DeepSeek R1T Chimera 震撼登場 O...

Google突破性發布Veo 2與Imagen 3:AI影像生成的新紀元
19 December 2024

Google突破性發布Veo 2與Imagen 3:AI影像生成的新紀元

Google突破性發布Veo 2與Imagen 3:AI影像生成的新紀元 文章摘要 Google DeepMind最新發布的Veo 2視頻生成模型和Imagen 3圖像生成模型,將AI創作推向...

OpenAI Day3: 引領創新!Sora 產品發布會精彩回顧
10 December 2024

OpenAI Day3: 引領創新!Sora 產品發布會精彩回顧

OpenAI Day3: 引領創新!Sora 產品發布會精彩回顧 活動簡介 歡迎辭與新產品亮相 第三天的活動拉開序幕,隨著 OpenAI 推出全新視訊產品 Sora,現場氣氛達到高潮!主持人熱...