LongCat-Video 登場:美團發表統一影片生成模型,挑戰分鐘級影片極限

探索美團最新發表的AI影片生成模型 LongCat-Video。它不僅是一個統一框架,能處理文生影片、圖生影片等多種任務,更擅長生成長達數分鐘的高品質影片,向「世界模型」邁出重要一步。


AI 影片生成的賽道最近真的越來越熱鬧了。當我們還在驚嘆於 OpenAI Sora 或快手 Kling 所展示的驚人效果時,另一位重量級選手也帶著獨特的技術加入了這場競賽。

那就是由美團(Meituan)團隊發表的 LongCat-Video,一個統一的基礎影片生成模型。

你可能會想,又是一個 AI 影片工具?有什麼特別的嗎?老實說,它的確有幾個非常吸引人的亮點,特別是在解決目前 AI 影片生成的一些核心痛點上。

不只是單一功能,這是一個「全能型」的統一模型

許多 AI 模型專注於單一任務,例如「文字轉影片」或「圖片轉影片」。但 LongCat-Video 走的是一條更整合的路線。它採用了統一的架構,將多種主流的影片生成任務整合在一個模型中。

這意味著,無論你是想:

  • Text-to-Video: 輸入一段文字描述,生成對應的影片。
  • Image-to-Video: 給定一張靜態圖片,讓它動起來。
  • Video-Continuation: 延續一段現有的影片,生成後續的內容。

LongCat-Video 都能用同一個核心模型來處理。這就像擁有一個影片創作的瑞士軍刀,而不是一堆單獨的工具,大大簡化了工作流程。

真正的亮點:高效生成「分鐘級」長影片

這可能是 LongCat-Video 最令人興奮的特色。

如果你玩過其他的 AI 影片工具,你可能會發現,生成幾秒鐘的短片很容易,但要製作一段長達數分鐘、內容連貫且畫質穩定的影片,卻是個巨大的挑戰。很多模型在時間拉長後,會出現畫面風格丕變、顏色漂移(color drifting),或是角色前後不一的窘境,就像一個講故事講到一半忘了主角長相的說書人。

LongCat-Video 巧妙地解決了這個問題。它的秘密武器在於,模型在預訓練階段就專注於「影片續寫(Video-Continuation)」任務。換句話說,它從一開始就被訓練成一個「故事接龍」的高手。

這種原生的續寫能力,讓它在生成長影片時,能更好地保持內容的連貫性和品質穩定性,避免了畫面崩壞或風格錯亂的問題。根據官方展示,它能夠產出長達數分鐘的影片而沒有明顯的品質下降。

它是如何做到的?一窺背後的技術魔法

聽起來很神奇,對吧?LongCat-Video 的高效與高品質,主要歸功於幾個關鍵技術的結合:

  • 由粗到精(Coarse-to-Fine)的生成方式: 這個方法很直觀,就像畫家畫畫一樣,先打個草稿,再逐步完善細節。模型會先生成一個低解析度的影片雛形,然後再逐步提升解析度和細節,最終產出 720p、30fps 的高畫質影片。這不僅提升了效率,也確保了最終的品質。

  • 區塊稀疏注意力(Block Sparse Attention): 這是為了提升運算效率的聰明設計。傳統的注意力機制會讓 AI 一次處理畫面的所有資訊,非常耗費資源。而區塊稀疏注意力則讓 AI 能「專注」在畫面上最重要的部分,跳過不相關的區域,既聰明又省力,大大加快了生成速度。

  • 多獎勵強化學習(Multi-Reward RLHF): 你可能聽過 RLHF(人類回饋強化學習),也就是讓模型從人類的偏好中學習。LongCat-Video 更進一步,採用了「多獎勵」機制。這代表它不只學習「像不像」,而是從多個維度去評斷影片的好壞,例如:畫面美感、動作流暢度、故事邏輯、與文字描述的貼合度等。這讓最終產出的影片更符合人類的審美和期待。

不只是生成,還能「互動」的影片創作

LongCat-Video 還展示了一項非常有趣的功能:互動式影片生成

這代表使用者可以像導演一樣,在影片生成的過程中介入並給予新的指令。例如,你可以先生成「一個女孩在廚房切麵包」的場景,接著在影片續寫時,輸入新的指令「她倒了一杯牛奶」,模型就會無縫接軌地生成下一個動作。

這種能力讓創作者不再只是被動的接收者,而是可以主動引導故事走向的參與者,為影片創作帶來了前所未有的自由度和想像空間。

想要親自試試或深入了解嗎?

美團團隊非常大方地將 LongCat-Video 的相關資源開源,讓所有人都能接觸到這項技術。

有興趣的開發者或創作者,不妨前往官方頁面查看更多驚人的展示影片,或是直接到 GitHub 和 Hugging Face 下載模型和程式碼親自體驗。

邁向「世界模型」的一小步

總結來說,LongCat-Video 不僅是一個功能強大的 AI 影片生成工具,它更在「統一架構」和「長影片生成」這兩個關鍵方向上取得了重要的進展。

官方將其定位為「我們邁向世界模型的第一步」。所謂的「世界模型」,指的是能夠理解並模擬真實世界運作規律的 AI 系統。而能夠生成連貫、長時序的影片,正是模擬世界動態變化的基礎。從這個角度看,LongCat-Video 的確展現了巨大的潛力,也讓我們對 AI 的未來充滿更多想像。

分享至:

© 2025 Communeify. All rights reserved.