智源研究院推出 Emu3.5：挑战 Gemini 2.5 的多模态世界模型，速度与性能兼备

探索智源研究院(BAAI)最新发布的 Emu3.5，这款强大的多模态世界模型不仅在图像生成与编辑方面超越对手，更透过创新的 DiDA 技术实现 20 倍推理加速。了解它如何改变我们与数位世界的互动。

在人工智慧的浪潮中，多模态模型的发展一直是众所瞩目的焦点。就在最近，北京智源人工智能研究院（BAAI）投下了一颗震撼弹，正式推出了名为 Emu3.5 的大型多模态世界模型。这不仅仅是一次技术更新，更像是一次对未来人机互动方式的深刻预演。

Emu3.5 的核心理念相当直观：直接预测下一个「视觉-语言」步骤，从而实现流畅无碍的世界建构与内容创作。想像一下，AI 不再只是被动地回应指令，而是能像一个有远见的导演，预测并铺陈接下来的剧情。

万亿级数据训练出的「下一步」预测大师

Emu3.5 的强大并非偶然。它的背后，是超过 10 万亿个混合视觉语言权杖（tokens）的庞大训练数据，这些数据来自无数的影片影格和文字。更特别的是，它采用了统一的「下一权杖预测」目标，让模型在处理图像和文字时，能像思考同一件事一样自然。

这还不是全部。为了让 Emu3.5 不仅仅是个「记忆大师」，研究团队还引入了强化学习（RL）技术。这一步棋让模型学会了更好的思考和整合概念的能力，使其在面对复杂任务时，表现得更加聪明、更有逻辑。

DiDA 技术：速度提升 20 倍的秘密武器

如果你觉得 AI 生成内容的速度总是有点慢，那么 Emu3.5 带来的改变可能会让你大吃一惊。它的关键新特性之一，就是离散扩散适应（Discrete Diffusion Adaptation，简称 DiDA）。

这听起来可能有点复杂，但它的效果却非常直接：在不牺牲任何生成品质的前提下，透过双向并行预测，将推理速度提升了整整 20 倍！这意味着什么？过去需要等待一分钟的复杂图像编辑，现在可能只需要几秒钟就能完成。这种速度上的飞跃，无疑为即时创作和互动应用开启了全新的可能性。

数据会说话：Emu3.5 在多项基准测试中脱颖而出

当然，任何模型的发布都得用实力说话。从官方公布的数据图表来看，Emu3.5 的表现确实令人印象深刻。

Emu3.5 在各大图像生成与编辑基准测试中的表现

在上图 (a) 的比较中，Emu3.5（紫色长条）在 LongText-Bench、LeX-Bench、CVTG-2K 等多个图像生成与编辑基准测试中，其性能与业界顶尖的 Qwen-Image/Edit 模型不相上下，甚至在某些项目上略胜一筹，并且显著优于 GPT-Image-1 和 Google 的 Nano Banana。

直接对决：完胜 Google Nano Banana

更有趣的是 Emu3.5 与 Google Gemini 2.5 Flash Image（代号 Nano Banana）的直接对决。从下图 (b) 的胜率饼图可以看出，Emu3.5 在四个关键领域都占据了上风：

世界探索（World Exploration）： 胜率高达 65.5%。这代表模型在理解和导航虚拟环境方面能力出众。
实体操作（Embodied Manipulation）： 胜率更是达到了 67.1%，显示其在模拟真实世界物理互动方面的潜力。
视觉引导（Visual Guidance）： 拥有 51.5% 的胜率。
视觉叙事（Visual Narrative）： 胜率也接近一半，达到 49.2%。

这些数据清楚地表明，Emu3.5 不仅仅是一个单纯的图像生成器，它在理解和预测动态世界方面，展现了更深层次的能力。

不只是生成图片，更是真实世界的行动者

Emu3.5 的另一大亮点是其内建的多模态输入与输出能力。这让它能够轻松处理混合了视觉和文字的复杂序列，对于需要长期连贯创作的任务（例如根据一段故事生成系列插画）或是真实世界的机器人操作，都显得游刃有余。

这也解释了它为何在「实体操作」这类模拟机器人行动的任务中表现如此出色。一个能预测下一步的模型，自然也更有潜力成为一个优秀的「行动者」。

未来展望与资源

总结来说，Emu3.5 的发布为多模态 AI 领域树立了新的标竿。它不仅在性能上与顶级模型并驾齐驱，更透过创新的 DiDA 技术解决了生成速度的痛点，同时在模拟真实世界互动方面展现了巨大的潜力。

对于开发者和研究人员来说，这无疑是个令人兴奋的消息。团队已经释出了相关的资源，有兴趣的朋友可以前往探索：

GitHub： https://github.com/baaivision/Emu3.5
Hugging Face： https://huggingface.co/collections/BAAI/emu35 (目前页面显示「即将推出」，值得关注！)

常见问题解答 (FAQ)

Q1：Emu3.5 和其他模型（如 Gemini）最大的不同是什么？

Emu3.5 最大的不同点在于其创新的 DiDA 技术，它在不牺牲品质的情况下将推理速度提升了 20 倍，这在即时应用中是巨大的优势。此外，它作为一个「世界模型」，其设计初衷就是为了更好地预测连续的视觉语言步骤，这让它在长期创作和模拟物理互动等任务上更具潜力。

Q2：什么是「世界模型」？听起来很科幻。

简单来说，「世界模型」是一种 AI，它不仅学习数据中的模式，更试图去理解一个环境（无论是真实世界还是虚拟世界）的内在规则和物理定律。透过这种理解，它能够预测「如果这样做，接下来会发生什么」，这使得它在规划、推理和与环境互动方面比传统模型更胜一筹。

Q3：DiDA 技术真的那么厉害吗？

是的。在 AI 生成领域，速度和品质往往很难兼得。许多加速技术会导致细节丢失或成品品质下降。DiDA 技术能够在维持高品质输出的同时实现 20 倍的加速，这在工程上是一项重大的突破，极大地扩展了这类模型的实用场景。

分享到:

Featured Partners

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

Recommended for You

G …

news

Google Skills 全新登场：免费学习 AI 技能，直通顶尖企业！

Google 推出全新 AI 学习平台 Google Skills，整合 DeepMind、Google Cloud 等顶尖资源。提供免费课程、实作实验室及就业管道，助你轻松掌握 AI 技能，开启职涯新篇章。在 AI 浪潮席卷全球的今天，你是否也感受到一股莫名的焦虑？好像不学点 AI 就快要跟不上时代了。但问题来了，AI 知识的门槛似乎很高，学费又贵得吓人。别担心，Google 听到了大家的心声，推出了一个全新的学习平台——Google Skills，誓言要打破这个僵局。这个平台可不是随便拼凑的在线课程。它整合了 Google 内部最顶尖的资源，包括负责开发 Gemini 模型的团队、DeepMind 的 AI 研究精华，以及 Google Cloud 和 Google for Education 的实战内容。简单来说，这就像是 Google 首次将自家压箱宝的 AI 知识库，系统性地向全世界开放。无论你是刚入门的学生、想转职的上班族，还是希望带领团队升级的企业主管，这个平台都能满足你的需求。 Google Skills 有多特别？不只是上课而已市面上的在线课程平台琳琅满目，但 Google Skills 提供的，是一种截然不同的学习体验。它不只是单向的知识传授，更强调“从做中学”。 Google 大神亲自开讲，内容含金量超高过去，想接触到 DeepMind 的 AI 研究心法，可能得挤进顶尖学术殿堂。现在，Google Skills 直接把这些内容搬到你眼前。你可以从 Grow with Google 的《Google AI Essentials》入门课程开始，建立基本概念；接着挑战 Google Cloud 的专业认证，或是深入钻研 Google DeepMind 的《AI Research Foundations》，彻底搞懂大型语言模型的运作原理。时间不够？没问题。平台还提供 10 分钟的“AI Boost Bites”短课程，让你利用零碎时间快速充电。对于企业领导者，更有《Future-Proof Your AI Learning Strategy》这类高阶课程，直接分享 Telus、德意志银行等国际企业的实战策略。

Oct 24, 2025 Read →

G …

news

Google 神秘新模型现身 LMArena，Gemini 3.0 Pro 呼之欲出？

AI 竞技场 LMArena 最近出现了两个名为「lithiumflow」和「orionmist」的神秘 Google 模型。种种迹象显示，这很可能就是备受期待的 Gemini 3.0 Pro，其强大的性能和特殊能力在社群中引发了热烈讨论。最近，在知名的 AI 模型竞技平台 LMArena 上，悄悄出现了两个来自 Google 的新面孔：「lithiumflow」和「orionmist」。这一发现立刻在 AI 爱好者和开发者社群中炸开了锅。大家都在猜，这会不会就是传闻已久的 Google 下一代旗舰模型——Gemini 3.0？种种迹象似乎都指向了這個答案。代号泄露天机？Gemini 3.0 的可能性熟悉 Google 命名惯例的圈内人很快就发现了端倪。据传，「orion」这个代号在 Google 内部一直与 Gemini 3 的开发代号有关。这次出现的「orionmist」模型，很自然地让人们将其与 Gemini 3 家族联系在一起。更有甚者，根据一些网络上的讨论和分析，大家普遍猜测「lithiumflow」可能是 Gemini 3.0 Pro 版本，而「orionmist」则对应的是更轻量的 Flash 版本。虽然 Google 官方尚未证实，但这种「马甲」上阵提前测试的方式，在 AI 业界已是司空见惯的操作。不止是跑分强，特殊技能点满模型好不好，还是要看实力。从 LMArena 上一些幸运「遇到」新模型的用户反馈来看，「lithiumflow」和「orionmist」的表现确实没让人失望。在一些初步的基准测试中，例如 simplebench，新模型的得分高达 8-10 分（满分 10 分），明显超过了现有的 Gemini 2.5 Pro。这意味着在逻辑推理、代码生成和常识问答等综合能力上，有了显著的飞跃。不过，最让用户津津乐道的，还是它的一些「特殊才艺」：出神入化的角色扮演：对于喜欢和 AI 进行角色扮演互动的用户来说，这绝对是个好消息。新模型的角色扮演能力远超前代，无论是语气、性格还是背景设定，都能精准拿捏，带来沉浸感十足的体验。强大的 SVG 处理能力：另一个令人惊艳的亮点是其处理可缩放向量图形（SVG）的能力。你可以让他生成一个「骑着脚踏车的鹈鹕」的 SVG 图像，它不仅能理解这个略带荒谬的指令，还能产出结构完整、颇具风格的 SVG 代码。这项能力在过去常常让许多顶级模型都感到头痛。 HTML 内容生成：除了 SVG，新模型还能处理 HTML 内容，例如生成一个天气卡片或是一个投石机的简单网页模型。这展示了它在前端代码生成和多模态理解上的潜力。值得一提的是，即便功能大幅增强，新模型的上下文长度（Context Length）依然保持在惊人的 100 万 token，这意味着它能处理和记忆极其大量的信息，对于分析长篇报告、代码库等复杂任务至关重要。

Oct 20, 2025 Read →

W …

news

WhatsApp 将迎来巨变：第三方 AI 聊天机器人禁令，Meta AI 成唯一霸主？

一则看似不起眼的政策更新，却可能彻底改变全球数十亿用户与 AI 互动的方式。Meta 旗下通讯巨擘 WhatsApp 近日投下震撼弹，宣布将修改其商业 API 政策，禁止通用的第三方 AI 聊天机器人。这项决策意味着，从 2026 年 1 月 15 日起，我们熟悉的 ChatGPT、Perplexity 等 AI 助理将告别 WhatsApp，而 Meta 自家的 AI 将成为平台上唯一的通用人工智能。这不仅仅是技术条款的修改，更像是一场平台权力版图的重新划分。Meta 此举背后究竟有何盘算？对广大的开发者和用户又将带来什么深远的影响？让我们一层层揭开这场 AI 平台大战的序幕。一场突如其来的「驱逐令」根据最新发布的 WhatsApp 商业 API 条款，Meta 新增了针对「AI 供应商」（AI Providers）的明确限制。条款指出，如果一家公司的主要服务是提供大型语言模型、生成式 AI 平台或通用 AI 助理，那么该公司将被严格禁止存取或使用 WhatsApp 的商业解决方案。简单来说，如果你的 WhatsApp 机器人主要功能就是像 ChatGPT 那样提供包罗万象的问答服务，那么它很快就会被平台拒之门外。这项禁令的冲击范围相当广泛，直接点名了目前市场上最活跃的几家 AI 公司，包括 OpenAI (ChatGPT 的开发者)、Perplexity、以及在特定市场备受欢迎的 Luzia 和 Poke。这些公司近年来纷纷将自家的 AI 助理整合到 WhatsApp 中，希望藉由这个拥有超过 30 亿用户的庞大平台，触及更广泛的受众。如今，这条看似充满机会的康庄大道，即将被彻底封闭。为何 Meta 要关上这扇大门？ Meta 对外给出的解释，听起来相当合理且具说服力。一名 Meta 发言人向 TechCrunch 表示：「WhatsApp Business API 的初衷是帮助企业提供客户支援和发送相关更新。我们的重点是支援成千上万正在 WhatsApp 上建构这些体验的企业。」

Oct 20, 2025 Read →