tool

智源研究院推出 Emu3.5:挑战 Gemini 2.5 的多模态世界模型,速度与性能兼备

October 31, 2025
Updated Oct 31
1 min read

探索智源研究院(BAAI)最新发布的 Emu3.5,这款强大的多模态世界模型不仅在图像生成与编辑方面超越对手,更透过创新的 DiDA 技术实现 20 倍推理加速。了解它如何改变我们与数位世界的互动。


在人工智慧的浪潮中,多模态模型的发展一直是众所瞩目的焦点。就在最近,北京智源人工智能研究院(BAAI)投下了一颗震撼弹,正式推出了名为 Emu3.5 的大型多模态世界模型。这不仅仅是一次技术更新,更像是一次对未来人机互动方式的深刻预演。

Emu3.5 的核心理念相当直观:直接预测下一个「视觉-语言」步骤,从而实现流畅无碍的世界建构与内容创作。想像一下,AI 不再只是被动地回应指令,而是能像一个有远见的导演,预测并铺陈接下来的剧情。

万亿级数据训练出的「下一步」预测大师

Emu3.5 的强大并非偶然。它的背后,是超过 10 万亿个混合视觉语言权杖(tokens)的庞大训练数据,这些数据来自无数的影片影格和文字。更特别的是,它采用了统一的「下一权杖预测」目标,让模型在处理图像和文字时,能像思考同一件事一样自然。

这还不是全部。为了让 Emu3.5 不仅仅是个「记忆大师」,研究团队还引入了强化学习(RL)技术。这一步棋让模型学会了更好的思考和整合概念的能力,使其在面对复杂任务时,表现得更加聪明、更有逻辑。

DiDA 技术:速度提升 20 倍的秘密武器

如果你觉得 AI 生成内容的速度总是有点慢,那么 Emu3.5 带来的改变可能会让你大吃一惊。它的关键新特性之一,就是离散扩散适应(Discrete Diffusion Adaptation,简称 DiDA)

这听起来可能有点复杂,但它的效果却非常直接:在不牺牲任何生成品质的前提下,透过双向并行预测,将推理速度提升了整整 20 倍!这意味着什么?过去需要等待一分钟的复杂图像编辑,现在可能只需要几秒钟就能完成。这种速度上的飞跃,无疑为即时创作和互动应用开启了全新的可能性。

数据会说话:Emu3.5 在多项基准测试中脱颖而出

当然,任何模型的发布都得用实力说话。从官方公布的数据图表来看,Emu3.5 的表现确实令人印象深刻。

Emu3.5 在各大图像生成与编辑基准测试中的表现

在上图 (a) 的比较中,Emu3.5(紫色长条)在 LongText-Bench、LeX-Bench、CVTG-2K 等多个图像生成与编辑基准测试中,其性能与业界顶尖的 Qwen-Image/Edit 模型不相上下,甚至在某些项目上略胜一筹,并且显著优于 GPT-Image-1 和 Google 的 Nano Banana。

直接对决:完胜 Google Nano Banana

更有趣的是 Emu3.5 与 Google Gemini 2.5 Flash Image(代号 Nano Banana)的直接对决。从下图 (b) 的胜率饼图可以看出,Emu3.5 在四个关键领域都占据了上风:

  • 世界探索(World Exploration): 胜率高达 65.5%。这代表模型在理解和导航虚拟环境方面能力出众。
  • 实体操作(Embodied Manipulation): 胜率更是达到了 67.1%,显示其在模拟真实世界物理互动方面的潜力。
  • 视觉引导(Visual Guidance): 拥有 51.5% 的胜率。
  • 视觉叙事(Visual Narrative): 胜率也接近一半,达到 49.2%。

这些数据清楚地表明,Emu3.5 不仅仅是一个单纯的图像生成器,它在理解和预测动态世界方面,展现了更深层次的能力。

不只是生成图片,更是真实世界的行动者

Emu3.5 的另一大亮点是其内建的多模态输入与输出能力。这让它能够轻松处理混合了视觉和文字的复杂序列,对于需要长期连贯创作的任务(例如根据一段故事生成系列插画)或是真实世界的机器人操作,都显得游刃有余。

这也解释了它为何在「实体操作」这类模拟机器人行动的任务中表现如此出色。一个能预测下一步的模型,自然也更有潜力成为一个优秀的「行动者」。

未来展望与资源

总结来说,Emu3.5 的发布为多模态 AI 领域树立了新的标竿。它不仅在性能上与顶级模型并驾齐驱,更透过创新的 DiDA 技术解决了生成速度的痛点,同时在模拟真实世界互动方面展现了巨大的潜力。

对于开发者和研究人员来说,这无疑是个令人兴奋的消息。团队已经释出了相关的资源,有兴趣的朋友可以前往探索:


常见问题解答 (FAQ)

Q1:Emu3.5 和其他模型(如 Gemini)最大的不同是什么?

Emu3.5 最大的不同点在于其创新的 DiDA 技术,它在不牺牲品质的情况下将推理速度提升了 20 倍,这在即时应用中是巨大的优势。此外,它作为一个「世界模型」,其设计初衷就是为了更好地预测连续的视觉语言步骤,这让它在长期创作和模拟物理互动等任务上更具潜力。

Q2:什么是「世界模型」?听起来很科幻。

简单来说,「世界模型」是一种 AI,它不仅学习数据中的模式,更试图去理解一个环境(无论是真实世界还是虚拟世界)的内在规则和物理定律。透过这种理解,它能够预测「如果这样做,接下来会发生什么」,这使得它在规划、推理和与环境互动方面比传统模型更胜一筹。

Q3:DiDA 技术真的那么厉害吗?

是的。在 AI 生成领域,速度和品质往往很难兼得。许多加速技术会导致细节丢失或成品品质下降。DiDA 技术能够在维持高品质输出的同时实现 20 倍的加速,这在工程上是一项重大的突破,极大地扩展了这类模型的实用场景。

分享到:
Featured Partners

© 2026 Communeify. All rights reserved.