tool

智源研究院推出 Emu3.5:挑戰 Gemini 2.5 的多模態世界模型,速度與性能兼備

October 31, 2025
Updated Oct 31
1 min read

探索智源研究院(BAAI)最新發布的 Emu3.5,這款強大的多模態世界模型不僅在圖像生成與編輯方面超越對手,更透過創新的 DiDA 技術實現 20 倍推理加速。了解它如何改變我們與數位世界的互動。


在人工智慧的浪潮中,多模態模型的發展一直是眾所矚目的焦點。就在最近,北京智源人工智能研究院(BAAI)投下了一顆震撼彈,正式推出了名為 Emu3.5 的大型多模態世界模型。這不僅僅是一次技術更新,更像是一次對未來人機互動方式的深刻預演。

Emu3.5 的核心理念相當直觀:直接預測下一個「視覺-語言」步驟,從而實現流暢無礙的世界建構與內容創作。想像一下,AI 不再只是被動地回應指令,而是能像一個有遠見的導演,預測並鋪陳接下來的劇情。

萬億級數據訓練出的「下一步」預測大師

Emu3.5 的強大並非偶然。它的背後,是超過 10 萬億個混合視覺語言權杖(tokens)的龐大訓練數據,這些數據來自無數的影片影格和文字。更特別的是,它採用了統一的「下一權杖預測」目標,讓模型在處理圖像和文字時,能像思考同一件事一樣自然。

這還不是全部。為了讓 Emu3.5 不僅僅是個「記憶大師」,研究團隊還引入了強化學習(RL)技術。這一步棋讓模型學會了更好的思考和整合概念的能力,使其在面對複雜任務時,表現得更加聰明、更有邏輯。

DiDA 技術:速度提升 20 倍的秘密武器

如果你覺得 AI 生成內容的速度總是有點慢,那麼 Emu3.5 帶來的改變可能會讓你大吃一驚。它的關鍵新特性之一,就是離散擴散適應(Discrete Diffusion Adaptation,簡稱 DiDA)

這聽起來可能有點複雜,但它的效果卻非常直接:在不犧牲任何生成品質的前提下,透過雙向並行預測,將推理速度提升了整整 20 倍!這意味著什麼?過去需要等待一分鐘的複雜圖像編輯,現在可能只需要幾秒鐘就能完成。這種速度上的飛躍,無疑為即時創作和互動應用開啟了全新的可能性。

數據會說話:Emu3.5 在多項基準測試中脫穎而出

當然,任何模型的發布都得用實力說話。從官方公布的數據圖表來看,Emu3.5 的表現確實令人印象深刻。

Emu3.5 在各大圖像生成與編輯基準測試中的表現

在上圖 (a) 的比較中,Emu3.5(紫色長條)在 LongText-Bench、LeX-Bench、CVTG-2K 等多個圖像生成與編輯基準測試中,其性能與業界頂尖的 Qwen-Image/Edit 模型不相上下,甚至在某些項目上略勝一籌,並且顯著優於 GPT-Image-1 和 Google 的 Nano Banana。

直接對決:完勝 Google Nano Banana

更有趣的是 Emu3.5 與 Google Gemini 2.5 Flash Image(代號 Nano Banana)的直接對決。從下圖 (b) 的勝率餅圖可以看出,Emu3.5 在四個關鍵領域都佔據了上風:

  • 世界探索(World Exploration): 勝率高達 65.5%。這代表模型在理解和導航虛擬環境方面能力出眾。
  • 實體操作(Embodied Manipulation): 勝率更是達到了 67.1%,顯示其在模擬真實世界物理互動方面的潛力。
  • 視覺引導(Visual Guidance): 擁有 51.5% 的勝率。
  • 視覺敘事(Visual Narrative): 勝率也接近一半,達到 49.2%。

這些數據清楚地表明,Emu3.5 不僅僅是一個單純的圖像生成器,它在理解和預測動態世界方面,展現了更深層次的能力。

不只是生成圖片,更是真實世界的行動者

Emu3.5 的另一大亮點是其內建的多模態輸入與輸出能力。這讓它能夠輕鬆處理混合了視覺和文字的複雜序列,對於需要長期連貫創作的任務(例如根據一段故事生成系列插畫)或是真實世界的機器人操作,都顯得游刃有餘。

這也解釋了它為何在「實體操作」這類模擬機器人行動的任務中表現如此出色。一個能預測下一步的模型,自然也更有潛力成為一個優秀的「行動者」。

未來展望與資源

總結來說,Emu3.5 的發布為多模態 AI 領域樹立了新的標竿。它不僅在性能上與頂級模型並駕齊驅,更透過創新的 DiDA 技術解決了生成速度的痛點,同時在模擬真實世界互動方面展現了巨大的潛力。

對於開發者和研究人員來說,這無疑是個令人興奮的消息。團隊已經釋出了相關的資源,有興趣的朋友可以前往探索:


常見問題解答 (FAQ)

Q1:Emu3.5 和其他模型(如 Gemini)最大的不同是什麼?

Emu3.5 最大的不同點在於其創新的 DiDA 技術,它在不犧牲品質的情況下將推理速度提升了 20 倍,這在即時應用中是巨大的優勢。此外,它作為一個「世界模型」,其設計初衷就是為了更好地預測連續的視覺語言步驟,這讓它在長期創作和模擬物理互動等任務上更具潛力。

Q2:什麼是「世界模型」?聽起來很科幻。

簡單來說,「世界模型」是一種 AI,它不僅學習數據中的模式,更試圖去理解一個環境(無論是真實世界還是虛擬世界)的內在規則和物理定律。透過這種理解,它能夠預測「如果這樣做,接下來會發生什麼」,這使得它在規劃、推理和與環境互動方面比傳統模型更勝一籌。

Q3:DiDA 技術真的那麼厲害嗎?

是的。在 AI 生成領域,速度和品質往往很難兼得。許多加速技術會導致細節丟失或成品品質下降。DiDA 技術能夠在維持高品質輸出的同時實現 20 倍的加速,這在工程上是一項重大的突破,極大地擴展了這類模型的實用場景。

分享至:
Featured Partners

© 2026 Communeify. All rights reserved.