字節跳動開源 Bernini：不只會剪片，這個 AI 還能理解因果關係生成影片

解析字節跳動開源影片 AI 模型 Bernini：MLLM 與 DiT 的巧妙分工架構

影片生成的技術邏輯正在發生有趣的轉變。你知道嗎？過去的影片模型通常會將理解指令與生成畫面混合在一起處理。這往往會造成運算資源浪費，甚至讓畫面細節無故流失。為了解決這個長久以來的痛點，字節跳動研發團隊帶來了全新的 Bernini 專案。這是一個將大型多模態語言模型 (MLLM) 與擴散模型 (DiT) 完美結合的統一影片生成與編輯框架。

說實話，要在同一個系統內完美支援多種複雜任務並不容易。但 Bernini 成功打破了過去的技術限制。它在同一套系統內順利支援了文字生成影片 (T2V)、影片到影片編輯 (V2V)，以及參考圖像引導影片編輯 (RV2V) 等多樣化任務。這意味著數位創作者可以直接在一個框架內完成所有工作，流程變得更加直觀且流暢。

大腦與畫師的聰明分工

這到底是如何做到的呢？讓我們來詳細拆解。Bernini 採用了非常聰明的分工策略，將複雜的生成過程拆解為兩個專業領域。

它讓 MLLM 擔任「規劃師」的角色。這個語言模型負責高階的語義推理，它會先仔細理解使用者輸入的複雜指令，並在 ViT 嵌入空間中直接預測目標畫面的語義特徵。接著，DiT 擔任「渲染器」接手後續工作。渲染器接收到規劃好的語義特徵後，結合原始視覺素材的細節，專心將其轉化為極具真實感的高畫質像素畫面。

這種分工讓兩者可以各自發揮所長。語言模型保留了強大的理解力，而渲染器則能專注於畫面的精緻度與光影細節。兩者搭配起來，不僅訓練效率大幅提升，產出的視覺效果也令人驚豔。

解決特徵混淆與具備強大推理力

社群中經常有人提問，模型在進行複雜的影片編輯時，是否容易產生畫面背景錯亂的問題？這確實是一個常見的技術瓶頸。許多模型常會把參考圖片的背景錯誤貼到目標影片中。

為了解決多重視覺特徵混淆的難題，研發團隊特別引入了「片段感知 3D 旋轉位置編碼」技術 (SA-3D RoPE)。這項獨特技術為不同的視覺素材賦予獨立的索引標籤。它明確告訴模型哪些特徵屬於主體，哪些屬於背景，確保畫面元素各自安好。

此外，這套模型真正令人驚訝的是它具備物理與因果推理能力。它不單單只是做簡單的物件替換，還具備了邏輯思考能力。舉例來說，當給予一段營火燃燒的影片，並輸入提示詞詢問如果長時間下大雨會發生什麼事。模型能夠立刻推理出因果關係，自動生成營火被雨水澆熄的動態影片。這種具備物理常識的推理表現在傳統影片編輯工具中是非常少見的。

多元任務處理與頂尖實測表現

不少使用者也十分好奇，這套開源框架具體能處理哪些實際任務？老實說，它的應用範圍相當廣泛且實用。

從單純的文字生成影片，到進階的參考影像引導編輯，它都能輕鬆勝任。使用者可以輕易地將影片背景從森林替換成高山，把普通的草地變成被白雪覆蓋的冬季樂園，甚至根據單張參考圖片，將影片中人物的服裝材質替換為特定的布料。

在業界標準的評測集以及專屬的競技場平台中，透過人類標註員的盲測投票，這套模型的綜合表現極為優異。特別是在影片畫面一致性與指令遵循能力上，它的實測分數甚至超越了市面上極受歡迎的強大商業模型，例如 Kling O3 與 Wan2.7。它確實達到了領先級別的水準。

硬體部署需求與全面開源狀態

那麼，要運行這樣一套強大的系統需要什麼樣的硬體配備呢？這絕對是開發者最關心的問題。

官方技術文件強烈建議使用 Hopper 架構的顯示卡，例如 H100、H800 或 H200。這樣的硬體配置可以順利啟用 FlashAttention-3 技術，確保最佳的生成品質與運算效率。若是需要處理更龐大的運算，使用多 GPU 配置時還可以搭配 Ulysses 序列並行技術來提升整體處理量。

最棒的消息是，字節跳動團隊秉持著推動開源社群發展的精神，已經將這套模型的資源毫無保留地釋出。包含基於 Wan2.2 架構的模型權重，以及完整的推論程式碼，目前都已經完整發布於 Hugging Face 平台與 GitHub 上。

整個專案採用 Apache 2.0 授權。這代表世界各地的研究人員與開發者都能不受過多限制地直接下載使用。大家可以自由探索這套兼具語言理解與視覺渲染能力的強大框架，共同探索影片生成技術的下一個可能性。

問與答

Q1：阿里通義新推出的 Qwen3.7-Plus 模型具備哪些核心能力？它能整合進哪些開發工具中？ A：Qwen3.7-Plus 是一款多模態交互混合智能體（Multimodal Interactive Hybrid Agent），它將視覺理解與語言推理完美融合。它不僅能進行純文字對話，還能感知真實世界場景、讀取螢幕、操作圖形使用者介面（GUI）與指令列（CLI），甚至能將視覺參考圖直接轉化為可執行的前端程式碼。此外，它具備強大的跨框架泛化能力，能夠無縫整合並穩定運行於 Claude Code、OpenClaw 以及 Qwen Code 等主流代理開發框架中。

Q2：字節跳動開源的 Bernini 影片框架，是如何透過「分工策略」來提升影片生成與編輯的精準度？ A：Bernini 首創了將大型多模態語言模型（MLLM）與擴散模型（DiT）結合的架構。在這個系統中，MLLM 擔任「語義規劃師（Semantic Planner）」，專注於高階的語義推理並預測目標的視覺特徵；而 DiT 則擔任「渲染器（Renderer）」，負責接收這些語義特徵，並將其轉化為高保真、具備豐富細節的像素畫面。這種大腦與畫師的分工，讓模型在處理複雜指令與保持畫面一致性上表現更加優異。

Q3：JetBrains 開源的 Mellum2 模型適合應用在哪些軟體工程情境？ A：Mellum2 是一個 12B 參數的混合專家（MoE）模型，專為 AI 驅動的開發工作流程量身打造。它捨棄了龐大的多模態功能，換來極快的推論速度與高吞吐量，這使得它非常適合用於建構檢索增強生成（RAG）管道、任務路由、建立子代理（Sub-agents），以及企業為了保護程式碼隱私而進行的本地端私有化部署（Private deployment）。

Q4：Cursor 針對 Teams 團隊方案進行了哪些計費機制的優化？如何解決重度使用者的超支痛點？ A：為了讓團隊更精準地控制成本，Cursor 將標準席位（每月 40 美元）的額度明確拆分為兩個獨立的用量池：一個專供自家的 Composer 與 Auto 功能使用，另一個則專門用於第三方 API。針對消耗大量額度的極端「重度使用者」，Cursor 推出全新的 Premium 席位。企業只需支付大約 3 倍的成本（年繳每月 96 美元或月繳 120 美元），即可獲得標準席位 5 倍的包含用量，足以涵蓋 99% 使用者一整個月的高強度需求。

Q5：近期 Reddit 社群對 Codex 的 API 額度限制為何引發強烈反彈？開發者提出了什麼替代方案？ A：許多依賴免費帳號（Free）與 Go 方案的開發者發現，Codex 的額度重置週期毫無預警地從原本的「每週（7天）」被拉長到了「每月（30天）」。這項突如其來的改變大幅壓縮了學生與業餘開發者在週末進行個人專案的彈性。面對這種情況，不少使用者在討論串中表示，正準備將工作流程全面遷移至收費更低廉的 DeepSeek API 作為替代方案。

分享至:

Featured Partners

SPONSORED

scribis.app

Scribis: 字幕編輯、語音轉錄文字、即時顯示轉錄文字。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

scribis.app

Scribis: 字幕編輯、語音轉錄文字、即時顯示轉錄文字。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

Recommended for You

超 …

tool

超越 HeyGen！美團開源 LongCat 1.5 數位人框架，8步生成超逼真影片

超越主流商業系統的開源震撼彈：美團 LongCat-Video-Avatar 1.5 數位人框架全面解析虛擬主播與數位人技術正以驚人的速度走入大眾的視野。從社群媒體上的短影音，到企業的線上客服，這些不知疲倦的虛擬角色正逐漸接管各式各樣的視覺呈現工作。說實話，過去這類技術往往面臨一個非常尷尬的瓶頸。畫面雖然漂亮，但角色的嘴型總是有點對不上，或者身體動作顯得僵硬不自然。這些微小的瑕疵會立刻打破觀眾的沉浸感。為了解決這項痛點，美團團隊正式推出了最新的開源框架。這套專注於商業量產與極致穩定性的解決方案，無疑為影音創作者與開發者帶來了全新的強大武器。以下將詳細解析這套全新升級系統的核心亮點，看看它究竟有何過人之處。聽覺大腦全面換血，帶來極致自然的唇音同步要讓數位人看起來像真人，第一步就是要讓他們「聽懂」自己正在說什麼。這聽起來理所當然，背後的技術門檻卻極高。過去許多系統依賴 9,400 萬參數的 Wav2Vec2 音訊編碼器。這個舊有系統雖然堪用，但在處理複雜發音或細微情緒時，往往會出現嘴型跟不上聲音的狀況。你知道嗎？為了解決這個問題，LongCat-Video-Avatar 1.5 直接將這個「聽覺大腦」替換成了擁有 15 億參數的 Whisper-Large。這項改變帶來了立竿見影的成效。Whisper-Large 具備極其豐富的聲學特徵提取能力。這就像是給了人工智慧一對極度靈敏的耳朵。生成的唇部動態與語音的對齊變得前所未有地精準且平滑。即使是語速較快或是發音咬字特別複雜的段落，虛擬角色的嘴唇肌肉牽動也能展現出令人驚豔的自然流暢感。告別燒錢噩夢，8 步推論技術大幅降低硬體門檻推動高畫質擴散模型運作的運算成本向來高得嚇人。這往往讓許多新創團隊或個人創作者望之卻步。只要牽涉到影片生成，伺服器的算力開銷就是一個無法迴避的巨大障礙。針對商業落地的實際需求，開發團隊導入了非常聰明的雙重優化策略。首先登場的是 DMD2 蒸餾技術。這項技術發揮了神奇的壓縮魔法，將原本繁複的推論過程極限濃縮。現在居然只要短短 8 個推論步驟（8 NFE）就能產出極高品質的影像。這大幅降低了商業部署的硬體門檻。另外，為了讓虛擬角色的動作更貼近真實人類，團隊還運用了 GRPO（群組相對策略優化）技術。大家可以把這項技術想像成 AI 的專屬形體教練。它透過人類的偏好來引導模型，有效減少了不自然的肢體變形與臉部偽影。兼顧超高效率與視覺保真度，這正是該版本能夠脫穎而出的關鍵。跨越風格限制，從真人到二次元都能輕鬆駕馭市面上的數位人軟體通常會把自己侷限在某個特定的領域。例如專門做逼真新聞主播，或者專門做動漫角色。這種單一用途的設計往往會限制創作者的發揮空間。 LongCat-Video-Avatar 1.5 展現了極其強悍的「風格泛化」能力。這意味著同一套底層架構，可以完美適應截然不同的視覺風格。無論是想要生成極度寫實的企業發言人、風格強烈的二次元動漫角色，甚至是一隻正在開心唱歌的毛茸茸小貓，這套系統都能輕鬆應對。不僅如此，它在處理真實世界中複雜場景的表現也同樣出色。例如多人對話互動或是角色手中拿著物品的畫面，它都能在長影片中維持極佳的身份一致性與全身動作穩定度。這讓創作者可以天馬行空地發想劇本，完全不用擔心技術跟不上創意。突破開源天花板，實測表現超越頂尖商業軟體開發者總是習慣宣稱自己的模型是最棒的，客觀的數據與評測才能真正說明實力。為此，美團團隊引入了極度嚴格的評估標準。他們建立了一個包含 508 個複雜測試案例的基準，涵蓋了新聞播報、知識教育、日常娛樂甚至商業促銷等多種應用場景。評估過程包含了 770 位大眾評審的超過 13,000 次主觀盲測，外加 10 位領域專家的客觀品質分析。最終的成績令人刮目相看。LongCat-Video-Avatar 1.5 在擬真度、自然度與穩定性等各項綜合指標上，成功超越了包含 OmniHuman-1.5、HeyGen 以及 Kling Avatar 2.0 等業界頂尖的付費商業系統。這絕對是開源社群的一大勝利。開發者與創作者實戰指南對於等不及想要親自動手嘗試的技術狂熱者，官方也給出了幾項非常實用的操作建議。這些小撇步能讓產出的影片品質更上一層樓。首先是提示詞（Prompt）的撰寫。越長且細節越豐富的描述，能帶來更好的畫面一致性與自然度。建議盡量包含角色的外觀、動作與場景背景。例如詳細描述「一位留著黑色長髮的年輕女子，穿著白色襯衫，正坐在明亮的咖啡廳裡微笑著說話」。在參數調整方面，負責控制音訊同步準確度的 Audio CFG 數值建議設定在 3 到 5 之間。稍微調高這個數值能獲得更精準的對嘴效果。如果遇到角色動作重複的狀況，可以透過調整參考圖片索引值（–ref_img_index）來改善。將預設值 10 修改為 0 到 24 之間通常能提升穩定度，設定為 30 則有助於減少鬼畜般的重複動作。

May 25, 2026 Read →

影 …

tool

影音同步新高度：LTX-2 開源模型登場，單一模型搞定畫面與聲音

探索 Lightricks 最新推出的 LTX-2 模型，這款基於 DiT 架構的開源工具不僅能生成高畫質影片，還能同步產出音效。本文深入解析其技術規格、ComfyUI 整合方式及訓練特點，讓創作者輕鬆掌握影音生成的最新利器。影音生成的全新突破：LTX-2 來了大家有沒有發現，最近 AI 影片生成的工具雖然多，但總覺得少了點什麼？通常我們生成的影片是「默劇」，想要聲音還得另外找工具配音，這中間的割裂感常常讓人頭痛。 Lightricks 團隊顯然聽到了這個痛點。他們最近發布了 LTX-2，這是一個令人興奮的開源模型。這東西最酷的地方在於，它是一個「基於 DiT 的音視訊聯合基礎模型」（Joint Audio-Visual Foundation Model）。簡單來說，它不需要你分別生成畫面和聲音然後再辛苦地對齊，LTX-2 能在生成影片的同時，直接產出同步的音訊。這對於想要在本機端運行高品質 AI 影片生成的創作者來說，絕對是個好消息。這篇文章會帶大家詳細了解 LTX-2 的特點、技術規格以及如何使用它。我們會盡量避開艱澀難懂的術語，用最直白的方式告訴你為什麼這個模型值得關注。什麼是 LTX-2？核心技術解析 LTX-2 並非只是對前代產品的簡單升級。它整合了現代影片生成的核心模組，是一個真正的多模態模型。 DiT 架構與單一模型優勢 LTX-2 採用了 DiT（Diffusion Transformer）架構。與過去那些將影片生成和音訊生成分開處理的模型不同，LTX-2 的設計理念是「同步」。這意味著模型在理解你的提示詞（Prompt）時，是同時構思畫面該長什麼樣、聲音該聽起來如何。這種聯合生成的模式，讓聲音與畫面的契合度達到了前所未有的水準。開源與本機運行的承諾 Lightricks 這次非常大方，直接公開了模型權重（Open Weights）。這代表開發者和創作者可以下載模型，在自己的機器上運行，不用擔心資料隱私問題，也不用受制於昂貴的雲端訂閱服務。對於那些喜歡鑽研技術、想要完全掌控創作流程的人來說，這無疑是一大福音。 LTX-2 的關鍵功能與特點既然說是新一代模型，那它到底強在哪裡？讓我們來看看它的幾個殺手級功能。影音同步生成 (Synchronized Audio+Video) 這絕對是 LTX-2 的最大亮點。不管你是輸入文字還是圖片，模型都能在生成動態影像的同時，配上相應的音效。想像一下，生成一段海浪拍打沙灘的影片，同時就能聽到海浪的聲音，而不需要後期合成。這大大簡化了創作工作流。多樣化的模型版本與量化選擇為了適應不同的硬體配置，LTX-2 提供了多種版本的模型權重。完整版 (Full Model): 提供最佳品質，適合硬體強大的用戶。蒸餾版 (Distilled): 速度更快，只需較少的步數就能生成影片。量化版本 (fp8, fp4): 這是為了節省顯存（VRAM）而設計的。例如 ltx-2-19b-dev-fp8 或 ltx-2-19b-dev-fp4，讓那些顯卡等級沒那麼頂規的朋友，也能跑得動這個龐然大物。內建升頻器 (Upscalers) 生成的影片解析度不夠高？幀數不夠流暢？LTX-2 考慮到了這點。它包含了一套升頻工具：

Jan 12, 2026 Read →

L …

tool

LongCat-Video 登場：美團發表統一影片生成模型，挑戰分鐘級影片極限

探索美團最新發表的AI影片生成模型 LongCat-Video。它不僅是一個統一框架，能處理文生影片、圖生影片等多種任務，更擅長生成長達數分鐘的高品質影片，向「世界模型」邁出重要一步。 AI 影片生成的賽道最近真的越來越熱鬧了。當我們還在驚嘆於 OpenAI Sora 或快手 Kling 所展示的驚人效果時，另一位重量級選手也帶著獨特的技術加入了這場競賽。那就是由美團（Meituan）團隊發表的 LongCat-Video，一個統一的基礎影片生成模型。你可能會想，又是一個 AI 影片工具？有什麼特別的嗎？老實說，它的確有幾個非常吸引人的亮點，特別是在解決目前 AI 影片生成的一些核心痛點上。不只是單一功能，這是一個「全能型」的統一模型許多 AI 模型專注於單一任務，例如「文字轉影片」或「圖片轉影片」。但 LongCat-Video 走的是一條更整合的路線。它採用了統一的架構，將多種主流的影片生成任務整合在一個模型中。這意味著，無論你是想： Text-to-Video：輸入一段文字描述，生成對應的影片。 Image-to-Video：給定一張靜態圖片，讓它動起來。 Video-Continuation：延續一段現有的影片，生成後續的內容。 LongCat-Video 都能用同一個核心模型來處理。這就像擁有一個影片創作的瑞士軍刀，而不是一堆單獨的工具，大大簡化了工作流程。真正的亮點：高效生成「分鐘級」長影片這可能是 LongCat-Video 最令人興奮的特色。如果你玩過其他的 AI 影片工具，你可能會發現，生成幾秒鐘的短片很容易，但要製作一段長達數分鐘、內容連貫且畫質穩定的影片，卻是個巨大的挑戰。很多模型在時間拉長後，會出現畫面風格丕變、顏色漂移（color drifting），或是角色前後不一的窘境，就像一個講故事講到一半忘了主角長相的說書人。 LongCat-Video 巧妙地解決了這個問題。它的秘密武器在於，模型在預訓練階段就專注於「影片續寫（Video-Continuation）」任務。換句話說，它從一開始就被訓練成一個「故事接龍」的高手。這種原生的續寫能力，讓它在生成長影片時，能更好地保持內容的連貫性和品質穩定性，避免了畫面崩壞或風格錯亂的問題。根據官方展示，它能夠產出長達數分鐘的影片而沒有明顯的品質下降。它是如何做到的？一窺背後的技術魔法聽起來很神奇，對吧？LongCat-Video 的高效與高品質，主要歸功於幾個關鍵技術的結合：由粗到精（Coarse-to-Fine）的生成方式：這個方法很直觀，就像畫家畫畫一樣，先打個草稿，再逐步完善細節。模型會先生成一個低解析度的影片雛形，然後再逐步提升解析度和細節，最終產出 720p、30fps 的高畫質影片。這不僅提升了效率，也確保了最終的品質。區塊稀疏注意力（Block Sparse Attention）：這是為了提升運算效率的聰明設計。傳統的注意力機制會讓 AI 一次處理畫面的所有資訊，非常耗費資源。而區塊稀疏注意力則讓 AI 能「專注」在畫面上最重要的部分，跳過不相關的區域，既聰明又省力，大大加快了生成速度。多獎勵強化學習（Multi-Reward RLHF）：你可能聽過 RLHF（人類回饋強化學習），也就是讓模型從人類的偏好中學習。LongCat-Video 更進一步，採用了「多獎勵」機制。這代表它不只學習「像不像」，而是從多個維度去評斷影片的好壞，例如：畫面美感、動作流暢度、故事邏輯、與文字描述的貼合度等。這讓最終產出的影片更符合人類的審美和期待。不只是生成，還能「互動」的影片創作 LongCat-Video 還展示了一項非常有趣的功能：互動式影片生成。這代表使用者可以像導演一樣，在影片生成的過程中介入並給予新的指令。例如，你可以先生成「一個女孩在廚房切麵包」的場景，接著在影片續寫時，輸入新的指令「她倒了一杯牛奶」，模型就會無縫接軌地生成下一個動作。這種能力讓創作者不再只是被動的接收者，而是可以主動引導故事走向的參與者，為影片創作帶來了前所未有的自由度和想像空間。想要親自試試或深入了解嗎？美團團隊非常大方地將 LongCat-Video 的相關資源開源，讓所有人都能接觸到這項技術。

Oct 27, 2025 Read →

字節跳動開源 Bernini：不只會剪片，這個 AI 還能理解因果關係生成影片

解析字節跳動開源影片 AI 模型 Bernini：MLLM 與 DiT 的巧妙分工架構

大腦與畫師的聰明分工

解決特徵混淆與具備強大推理力

多元任務處理與頂尖實測表現

硬體部署需求與全面開源狀態

問與答

scribis.app

DMflow.chat

videoweaver.app

DMflow.chat

scribis.app

DMflow.chat

videoweaver.app

DMflow.chat

Recommended for You

超越 HeyGen！美團開源 LongCat 1.5 數位人框架，8步生成超逼真影片

影音同步新高度：LTX-2 開源模型登場，單一模型搞定畫面與聲音

LongCat-Video 登場：美團發表統一影片生成模型，挑戰分鐘級影片極限

Leaving Website