智源研究院推出 Emu3.5：挑戰 Gemini 2.5 的多模態世界模型，速度與性能兼備

探索智源研究院(BAAI)最新發布的 Emu3.5，這款強大的多模態世界模型不僅在圖像生成與編輯方面超越對手，更透過創新的 DiDA 技術實現 20 倍推理加速。了解它如何改變我們與數位世界的互動。

在人工智慧的浪潮中，多模態模型的發展一直是眾所矚目的焦點。就在最近，北京智源人工智能研究院（BAAI）投下了一顆震撼彈，正式推出了名為 Emu3.5 的大型多模態世界模型。這不僅僅是一次技術更新，更像是一次對未來人機互動方式的深刻預演。

Emu3.5 的核心理念相當直觀：直接預測下一個「視覺-語言」步驟，從而實現流暢無礙的世界建構與內容創作。想像一下，AI 不再只是被動地回應指令，而是能像一個有遠見的導演，預測並鋪陳接下來的劇情。

萬億級數據訓練出的「下一步」預測大師

Emu3.5 的強大並非偶然。它的背後，是超過 10 萬億個混合視覺語言權杖（tokens）的龐大訓練數據，這些數據來自無數的影片影格和文字。更特別的是，它採用了統一的「下一權杖預測」目標，讓模型在處理圖像和文字時，能像思考同一件事一樣自然。

這還不是全部。為了讓 Emu3.5 不僅僅是個「記憶大師」，研究團隊還引入了強化學習（RL）技術。這一步棋讓模型學會了更好的思考和整合概念的能力，使其在面對複雜任務時，表現得更加聰明、更有邏輯。

DiDA 技術：速度提升 20 倍的秘密武器

如果你覺得 AI 生成內容的速度總是有點慢，那麼 Emu3.5 帶來的改變可能會讓你大吃一驚。它的關鍵新特性之一，就是離散擴散適應（Discrete Diffusion Adaptation，簡稱 DiDA）。

這聽起來可能有點複雜，但它的效果卻非常直接：在不犧牲任何生成品質的前提下，透過雙向並行預測，將推理速度提升了整整 20 倍！這意味著什麼？過去需要等待一分鐘的複雜圖像編輯，現在可能只需要幾秒鐘就能完成。這種速度上的飛躍，無疑為即時創作和互動應用開啟了全新的可能性。

數據會說話：Emu3.5 在多項基準測試中脫穎而出

當然，任何模型的發布都得用實力說話。從官方公布的數據圖表來看，Emu3.5 的表現確實令人印象深刻。

Emu3.5 在各大圖像生成與編輯基準測試中的表現

在上圖 (a) 的比較中，Emu3.5（紫色長條）在 LongText-Bench、LeX-Bench、CVTG-2K 等多個圖像生成與編輯基準測試中，其性能與業界頂尖的 Qwen-Image/Edit 模型不相上下，甚至在某些項目上略勝一籌，並且顯著優於 GPT-Image-1 和 Google 的 Nano Banana。

直接對決：完勝 Google Nano Banana

更有趣的是 Emu3.5 與 Google Gemini 2.5 Flash Image（代號 Nano Banana）的直接對決。從下圖 (b) 的勝率餅圖可以看出，Emu3.5 在四個關鍵領域都佔據了上風：

世界探索（World Exploration）： 勝率高達 65.5%。這代表模型在理解和導航虛擬環境方面能力出眾。
實體操作（Embodied Manipulation）： 勝率更是達到了 67.1%，顯示其在模擬真實世界物理互動方面的潛力。
視覺引導（Visual Guidance）： 擁有 51.5% 的勝率。
視覺敘事（Visual Narrative）： 勝率也接近一半，達到 49.2%。

這些數據清楚地表明，Emu3.5 不僅僅是一個單純的圖像生成器，它在理解和預測動態世界方面，展現了更深層次的能力。

不只是生成圖片，更是真實世界的行動者

Emu3.5 的另一大亮點是其內建的多模態輸入與輸出能力。這讓它能夠輕鬆處理混合了視覺和文字的複雜序列，對於需要長期連貫創作的任務（例如根據一段故事生成系列插畫）或是真實世界的機器人操作，都顯得游刃有餘。

這也解釋了它為何在「實體操作」這類模擬機器人行動的任務中表現如此出色。一個能預測下一步的模型，自然也更有潛力成為一個優秀的「行動者」。

未來展望與資源

總結來說，Emu3.5 的發布為多模態 AI 領域樹立了新的標竿。它不僅在性能上與頂級模型並駕齊驅，更透過創新的 DiDA 技術解決了生成速度的痛點，同時在模擬真實世界互動方面展現了巨大的潛力。

對於開發者和研究人員來說，這無疑是個令人興奮的消息。團隊已經釋出了相關的資源，有興趣的朋友可以前往探索：

GitHub： https://github.com/baaivision/Emu3.5
Hugging Face： https://huggingface.co/collections/BAAI/emu35 (目前頁面顯示「即將推出」，值得關注！)

常見問題解答 (FAQ)

Q1：Emu3.5 和其他模型（如 Gemini）最大的不同是什麼？

Emu3.5 最大的不同點在於其創新的 DiDA 技術，它在不犧牲品質的情況下將推理速度提升了 20 倍，這在即時應用中是巨大的優勢。此外，它作為一個「世界模型」，其設計初衷就是為了更好地預測連續的視覺語言步驟，這讓它在長期創作和模擬物理互動等任務上更具潛力。

Q2：什麼是「世界模型」？聽起來很科幻。

簡單來說，「世界模型」是一種 AI，它不僅學習數據中的模式，更試圖去理解一個環境（無論是真實世界還是虛擬世界）的內在規則和物理定律。透過這種理解，它能夠預測「如果這樣做，接下來會發生什麼」，這使得它在規劃、推理和與環境互動方面比傳統模型更勝一籌。

Q3：DiDA 技術真的那麼厲害嗎？

是的。在 AI 生成領域，速度和品質往往很難兼得。許多加速技術會導致細節丟失或成品品質下降。DiDA 技術能夠在維持高品質輸出的同時實現 20 倍的加速，這在工程上是一項重大的突破，極大地擴展了這類模型的實用場景。

分享至:

Featured Partners

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

Recommended for You

G …

news

Google Skills 全新登場：免費學習 AI 技能，直通頂尖企業！

Google 推出全新 AI 學習平台 Google Skills，整合 DeepMind、Google Cloud 等頂尖資源。提供免費課程、實作實驗室及就業管道，助你輕鬆掌握 AI 技能，開啟職涯新篇章。在 AI 浪潮席捲全球的今天，你是否也感受到一股莫名的焦慮？好像不學點 AI 就快要跟不上時代了。但問題來了，AI 知識的門檻似乎很高，學費又貴得嚇人。別擔心，Google 聽到了大家的心聲，推出了一個全新的學習平台——Google Skills，誓言要打破這個僵局。這個平台可不是隨便拼湊的線上課程。它整合了 Google 內部最頂尖的資源，包括負責開發 Gemini 模型的團隊、DeepMind 的 AI 研究精華，以及 Google Cloud 和 Google for Education 的實戰內容。簡單來說，這就像是 Google 首次將自家壓箱寶的 AI 知識庫，系統性地向全世界開放。無論你是剛入門的學生、想轉職的上班族，還是希望帶領團隊升級的企業主管，這個平台都能滿足你的需求。 Google Skills 有多特別？不只是上課而已市面上的線上課程平台琳瑯滿目，但 Google Skills 提供的，是一種截然不同的學習體驗。它不只是單向的知識傳授，更強調「從做中學」。 Google 大神親自開講，內容含金量超高過去，想接觸到 DeepMind 的 AI 研究心法，可能得擠進頂尖學術殿堂。現在，Google Skills 直接把這些內容搬到你眼前。你可以從 Grow with Google 的《Google AI Essentials》入門課程開始，建立基本概念；接著挑戰 Google Cloud 的專業認證，或是深入鑽研 Google DeepMind 的《AI Research Foundations》，徹底搞懂大型語言模型的運作原理。時間不夠？沒問題。平台還提供 10 分鐘的「AI Boost Bites」短課程，讓你利用零碎時間快速充電。對於企業領導者，更有《Future-Proof Your AI Learning Strategy》這類高階課程，直接分享 Telus、德意志銀行等國際企業的實戰策略。

Oct 24, 2025 Read →

G …

news

Google 神秘新模型現身 LMArena，Gemini 3.0 Pro 呼之欲出？

AI 競技場 LMArena 最近出現了兩個名為「lithiumflow」和「orionmist」的神秘 Google 模型。種種跡象顯示，這很可能就是備受期待的 Gemini 3.0 Pro，其強大的性能和特殊能力在社群中引發了熱烈討論。最近，在知名的 AI 模型競技平台 LMArena 上，悄悄出現了兩個來自 Google 的新面孔：「lithiumflow」和「orionmist」。這一發現立刻在 AI 愛好者和開發者社群中炸開了鍋。大家都在猜，這會不會就是傳聞已久的 Google 下一代旗艦模型——Gemini 3.0？種種跡象似乎都指向了這個答案。代號洩露天機？Gemini 3.0 的可能性熟悉 Google 命名慣例的圈內人很快就發現了端倪。據傳，「orion」這個代號在 Google 內部一直與 Gemini 3 的開發代號有關。這次出現的「orionmist」模型，很自然地讓人們將其與 Gemini 3 家族聯繫在一起。更有甚者，根據一些網路上的討論和分析，大家普遍猜測「lithiumflow」可能是 Gemini 3.0 Pro 版本，而「orionmist」則對應的是更輕量的 Flash 版本。雖然 Google 官方尚未證實，但這種「馬甲」上陣提前測試的方式，在 AI 業界已是司空見慣的操作。不止是跑分強，特殊技能點滿模型好不好，還是要看實力。從 LMArena 上一些幸運「遇到」新模型的用戶回饋來看，「lithiumflow」和「orionmist」的表現確實沒讓人失望。在一些初步的基準測試中，例如 simplebench，新模型的得分高達 8-10 分（滿分 10 分），明顯超過了現有的 Gemini 2.5 Pro。這意味著在邏輯推理、程式碼生成和常識問答等綜合能力上，有了顯著的飛躍。不過，最讓用戶津津樂道的，還是它的一些「特殊才藝」：出神入化的角色扮演：對於喜歡和 AI 進行角色扮演互動的用戶來說，這絕對是個好消息。新模型的角色扮演能力遠超前代，無論是語氣、性格還是背景設定，都能精準拿捏，帶來沉浸感十足的體驗。強大的 SVG 處理能力：另一個令人驚豔的亮點是其處理可縮放向量圖形（SVG）的能力。你可以讓它生成一個「騎著腳踏車的鵜鶘」的 SVG 圖像，它不僅能理解這個略帶荒謬的指令，還能產出結構完整、頗具風格的 SVG 程式碼。這項能力在過去常常讓許多頂級模型都感到頭痛。 HTML 內容生成：除了 SVG，新模型還能處理 HTML 內容，例如生成一個天氣卡片或是一個投石機的簡單網頁模型。這展示了它在前端程式碼生成和多模態理解上的潛力。值得一提的是，即便功能大幅增強，新模型的上下文長度（Context Length）依然保持在驚人的 100 萬 token，這意味著它能處理和記憶極其大量的資訊，對於分析長篇報告、程式碼庫等複雜任務至關重要。

Oct 20, 2025 Read →

W …

news

WhatsApp 將迎來巨變：第三方 AI 聊天機器人禁令，Meta AI 成唯一霸主？

一則看似不起眼的政策更新，卻可能徹底改變全球數十億用戶與 AI 互動的方式。Meta 旗下通訊巨擘 WhatsApp 近日投下震撼彈，宣布將修改其商業 API 政策，禁止通用的第三方 AI 聊天機器人。這項決策意味著，從 2026 年 1 月 15 日起，我們熟悉的 ChatGPT、Perplexity 等 AI 助理將告別 WhatsApp，而 Meta 自家的 AI 將成為平台上唯一的通用人工智慧。這不僅僅是技術條款的修改，更像是一場平台權力版圖的重新劃分。Meta 此舉背後究竟有何盤算？對廣大的開發者和用戶又將帶來什麼深遠的影響？讓我們一層層揭開這場 AI 平台大戰的序幕。一場突如其來的「驅逐令」根據最新發布的 WhatsApp 商業 API 條款，Meta 新增了針對「AI 供應商」（AI Providers）的明確限制。條款指出，如果一家公司的主要服務是提供大型語言模型、生成式 AI 平台或通用 AI 助理，那麼該公司將被嚴格禁止存取或使用 WhatsApp 的商業解決方案。簡單來說，如果你的 WhatsApp 機器人主要功能就是像 ChatGPT 那樣提供包羅萬象的問答服務，那麼它很快就會被平台拒之門外。這項禁令的衝擊範圍相當廣泛，直接點名了目前市場上最活躍的幾家 AI 公司，包括 OpenAI (ChatGPT 的開發者)、Perplexity、以及在特定市場備受歡迎的 Luzia 和 Poke。這些公司近年來紛紛將自家的 AI 助理整合到 WhatsApp 中，希望藉由這個擁有超過 30 億用戶的龐大平台，觸及更廣泛的受眾。如今，這條看似充滿機會的康莊大道，即將被徹底封閉。為何 Meta 要關上這扇大門？ Meta 對外給出的解釋，聽起來相當合理且具說服力。一名 Meta 發言人向 TechCrunch 表示：「WhatsApp Business API 的初衷是幫助企業提供客戶支援和發送相關更新。我們的重點是支援成千上萬正在 WhatsApp 上建構這些體驗的企業。」

Oct 20, 2025 Read →