Google DeepMind 发布 Genie 3：即时生成互动世界的革命性 AI 模型

深入了解 Google DeepMind 的最新力作 Genie 3。这款世界模型能根据文字提示，即时生成可供探索的动态虚拟世界，为 AI 代理训练、游戏开发和创意领域开辟了全新疆界。

想象一下，只要输入一段文字，例如“一个赛博朋克风格的雨夜城市，霓虹灯闪烁”，一个完整的、可以让你即时走动探索的 3D 世界就瞬间生成在眼前。这不是科幻电影的情节，而是 Google DeepMind 于 2025 年 8 月 5 日发布的最新通用世界模型 (general purpose world model) —— Genie 3 —— 所实现的惊人能力。

Genie 3 能够根据简单的文字提示，生成一个前所未有的、具备高度互动性的动态环境。你可以像玩第一人称游戏一样在其中自由导航，而这一切都以每秒 24 帧的流畅速度和 720p 的分辨率即时发生，并且能在长达数分钟的互动中保持世界的一致性。

这项技术的发布，不仅是生成式 AI 的一次巨大飞跃，更可能彻底改变我们对游戏、模拟训练甚至通用人工智能 (AGI) 的想象。

什么是“世界模型”？为何它如此重要？

在我们深入了解 Genie 3 的神奇之处前，得先聊聊什么是“世界模型”。

简单来说，世界模型是一种能够理解我们身处的世界如何运作，并能模拟其部分面向的 AI 系统。它能预测环境将如何演变，以及我们的行为会对环境产生什么影响。这就像 AI 脑中有了-个小型沙盒，可以在里面推演各种可能性。

Google DeepMind 在这个领域已经耕耘了十多年，从训练 AI 代理程序称霸即时战略游戏，到为机器人学习开发模拟环境，这些研究都催生了对更强大世界模型的需求。

为什么说它重要呢？因为世界模型被视为通往通用人工智能 (AGI) 的关键基石。它能提供一个几乎无限的、丰富多样的模拟环境，让 AI 代理在其中学习、试错和成长，而无需在现实世界中承担高昂的成本和风险。

Genie 3 的技术大跃进

Genie 3 并非横空出世。它是建立在 DeepMind 过去多个模型的基础之上，并在关键能力上实现了突破。去年，我们看到了能为代理程序生成新环境的 Genie 1 和 Genie 2；同时，视频生成模型 Veo 也展现了对物理世界深刻的理解。

Genie 3 则是第一个真正实现即时互动的世界模型，同时在真实感和一致性上远超前代。

功能	GameNGen	Genie 2	Veo	Genie 3
分辨率	320p	360p	720p 至 4K	720p
领域	游戏特定	3D 环境	通用	通用
控制方式	游戏特定	有限的键盘/鼠标	视频级描述	导航；可提示的世界事件
互动时长	几秒钟	10-20 秒	8 秒	数分钟
互动延迟	即时	非即时	N/A	即时

从上表可以清楚看到，Genie 3 在互动时长和即时性上取得了决定性的突破。要实现这一点，技术挑战是巨大的。每一帧画面的生成，模型都必须考虑到用户先前的所有行动轨迹。举例来说，如果你在一分钟后回到之前经过的地点，模型必须参考一分钟前的相关信息来确保场景的一致性。这种“自回归 (auto-regressive)”的生成过程，要在每秒发生数次，才能给你即时的互动感。

不只能看，还能玩！Genie 3 的核心能力

Genie 3 的能力远不止生成静态图片或短片，它创造的是一个活生生的、可供体验的世界。

模拟物理世界： 从阳光穿过水面的折射、光影的细腻变化，到复杂的环境互动，Genie 3 都能模拟出令人信服的物理现象。
创造自然生态： 它可以生成充满活力的生态系统，无论是动物的行为模式，还是精细的植物生命，都栩栩如生。
驰骋于想象与虚构： 你可以让它创造出 fantastical 的奇幻场景，或是充满表现力的动画角色，让想象力成为现实。
穿越时空探索： Genie 3 能够超越地理和时间的限制，带你探索历史场景或遥远的异星。

“可提示的世界事件”：赋予世界生命力

这可能是 Genie 3 最令人兴奋的功能之一。除了基本的移动导航，你还能通过文字指令，对这个世界进行更富表现力的干预。我们称之为“可提示的世界事件 (promptable world events)”。

这代表什么？这意味着你可以随时改变游戏规则。

你可以：

改变天气： 输入“开始下雨”，世界就会从晴天转为阴雨。
引入新角色： 输入“一只棕熊出现”，一只熊就会走进你的视野。
添加新物体： 输入“路边出现一台绿色拖拉机”。

这项能力极大地扩展了“如果…会怎样？”(what if) 的场景可能性，这对于训练 AI 代理处理非预期情况至关重要。

为 AI 代理打造终极训练场

Genie 3 最重要的应用之一，就是为具身 AI 代理 (embodied agent) 提供一个完美的训练平台。为了测试其兼容性，DeepMind 已经将 Genie 3 用于训练最新版本的 SIMA 代理（一个用于 3D 虚拟环境的通用代理）。

训练过程是这样的：

SIMA 代理在 Genie 3 生成的世界中观察环境。
代理根据其目标（例如“走到玻璃柜前”）决定下一步的动作。
它将导航指令发送给 Genie 3。
Genie 3 根据指令即时模拟出世界的下一步变化，并将结果反馈给代理。

就像任何真实环境一样，Genie 3 并不知道代理的最终目标是什么，它只是忠实地模拟代理行为所导致的未来。这种模式使得代理能够在一个安全、可控且极其丰富的环境中，学习完成更长、更复杂的任务序列。

坦诚面对：Genie 3 的当前限制

尽管 Genie 3 推动了世界模型的边界，但承认其当前限制也同样重要。

有限的行动空间： 虽然可提示的世界事件功能强大，但代理本身能直接执行的动作范围目前仍然受限。
多代理互动模拟： 在共享环境中精确模拟多个独立代理之间的复杂互动，仍然是一个进行中的研究挑战。
真实世界位置的准确性： Genie 3 目前还无法以完美的地理精度模拟真实世界的位置。
文字渲染： 清晰易读的文字通常只有在输入的世界描述中提供时才能生成。
有限的互动时长： 模型目前支持数分钟的连续互动，而非数小时的长时间体验。

责任与未来展望

Google DeepMind 相信，像 Genie 3 这样的基础技术从一开始就需要对责任有着深刻的承诺。其开放性和即时性带来了新的安全挑战。为此，开发团队与其“负责任的开发与创新团队”密切合作，以应对这些独特的风险。

目前，Genie 3 作为一个有限的研究预览版发布，仅提供给一小群学术研究人员和创作者进行早期测试。这种方法有助于在探索新领域的同时，收集关键的反馈和跨学科的观点。

展望未来，Genie 3 有可能为教育和培训创造新的机会，帮助学生学习和专家积累经验。它不仅能为机器人、自动驾驶系统等 AI 代理提供广阔的训练空间，还能评估其性能并探索其弱点。

每一步，DeepMind 都在探索这项工作的深远影响，并致力于以安全、负责任的方式，为人类的利益发展这项技术。Genie 3 的出现，标志着世界模型的一个重要时刻，一个互动式 AI 生成世界即将开始对研究和创意媒体产生深远影响的时刻。

常见问题解答 (FAQ)

Q1: Genie 3 和 Sora 或 Veo 这类视频生成工具有什么不同？ A: 最大的不同在于“即时互动性”。Sora 或 Veo 这类工具是根据提示生成一段不可变的视频。而 Genie 3 生成的是一个动态的、可探索的 3D 世界，你可以即时控制视角在其中移动，甚至用文字指令改变世界中的事件，这是前者无法做到的。

Q2: 我可以马上开始使用 Genie 3 吗？ A: 目前还不行。Genie 3 现在处于有限的研究预览阶段，仅开放给一小部分经过挑选的学术界人士和创作者使用，目的是为了在更大范围推广前收集反馈并评估风险。

Q3: Genie 3 生成的世界真的可以一直玩下去吗？ A: 目前还不行。根据官方说明，Genie 3 可以保持数分钟的连续互动和一致性，但还无法支持数小时的长时间体验。这是未来需要克服的技术限制之一。

Q4: Genie 3 对游戏产业会有什么影响？ A: Genie 3 的潜在影响是巨大的。它可以极大地加速游戏世界的原型设计，让开发者能快速将想法变为可玩的场景。从长远来看，这类技术甚至可能催生出全新的游戏类型——每一位玩家都能拥有一个独一无二、由 AI 即时生成且不断变化的游戏世界。

分享到:

Featured Partners

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

Recommended for You

2 …

news

2025年10月24日 AI 日报：OpenAI、Google、Anthropic、Microsoft 重大更新一览

掌握 2025 年 10 月 24 日最新的 AI 发展！今天，AI 领域迎来了爆炸性的一天。OpenAI 为 ChatGPT 带来了革命性的“公司知识”功能，让 AI 真正融入企业工作流程。同时，Google 推出了让应用开发更直观的 AI Studio 新模式，并大幅升级了 Google Earth AI。Anthropic 的 Claude 也没闲着，正式向个人用户开放“记忆功能”。最后，微软让经典角色“回形针”以全新 AI 形象 Mico 回归 Copilot。本文将为您深入剖析这些重大更新。 OpenAI 推出“Company Knowledge”，让 ChatGPT 更懂你的业务你是否也曾为了找一份文件，在 Slack、Google Drive 和无数封邮件中焦头烂额？工作中最需要的信息，往往像散落一地的拼图，散布在各个角落。为了解决这个长久以来的痛点，OpenAI 正式为 ChatGPT Business、Enterprise 及 Edu 用户推出了一项名为**“公司知识 (Company Knowledge)”**的强大功能。终结信息孤岛，打造企业专属大脑简单来说，“公司知识”功能就像是给了 ChatGPT 一把通往你公司内部信息库的万能钥匙。首次使用时，你只需将公司常用的应用程序（如 Slack、SharePoint、Google Drive、GitHub 等）与 ChatGPT 连接。之后，当你启用这项功能并提出问题时，ChatGPT就能夠跨平台查找所有相关资料，提供一个整合了完整上下文、专属于你公司业务的精准答案。举个例子，当你需要准备一场客户会议时，可以直接问 ChatGPT：“帮我整理一下上次与客户 A 会议后的重点，以及最近 Slack 频道中关于他们的讨论。”ChatGPT 会自动抓取 Google Docs 的会议记录、Email 中的关键细节，甚至是 Intercom 的客服问题，生成一份完整的简报。

Oct 24, 2025 Read →

2 …

news

2025-10-23 AI 日报：Sora 公布未来蓝图、OpenRouter 用 Exacto 提升模型精准度

AI 的世界每天都在飞速前进！今天，我们将看到 OpenAI 为 Sora 擘划的宏大蓝图，了解 OpenRouter 如何解决大型语言模型 (LLM) 供应商之间表现参差不齐的头痛问题。同时，Claude 的桌面应用程序也正式上线，Grok Imagine 带来了惊人的影片升级功能，而 Gemini CLI 也迎来了重要的更新。 Grok Imagine 推出影片超解析度功能，一键升级 HD 你是否曾觉得 AI 生成的影片解析度不够高，看起来总是有点模糊？现在，Grok Imagine 带来了一个超棒的解决方案。他们刚刚推出了全新的「影片超解析度」功能。使用者现在只需要按一下，就能立刻将 Grok Imagine 生成的影片升级到高清 (HD) 画质。最令人惊讶的是它的速度——整个过程竟然不到 10 秒钟。这对于追求影片品质和效率的创作者来说，无疑是一大福音。参考来源。 LLM 供应商表现参差不齐？OpenRouter 用 Exacto 终结你的选择困难这件事，相信所有开发者都心有戚戚焉。理论上，当不同的供应商运行同一个大型语言模型时，它们的表现应该是一样的。但现实是，由于各种复杂的技术细节，结果往往大相径庭，尤其是在「工具呼叫 (tool calling)」的精准度上。工具呼叫，简单来说，就是当 AI 需要使用一个外部工具或函式来完成任务时的行为，例如查询天气、计算股价等。如果这个环节出错，整个应用程式的流程可能就中断了。 OpenRouter 的独特视角与挑战 OpenRouter 每个月处理来自全球数十亿次的请求，这让他们处在一个独一无二的位置，能够清楚地观察到不同供应商之间的细微差异。他们发现，即使是同一个模型，在工具呼叫的成功率和倾向性上，也存在着显著的差距。为了确保使用者能获得稳定、高品质的体验，他们决定采取行动。什么是 Exacto？一个专为精准度而生的解决方案为了解决这个问题，OpenRouter 推出了名为「Exacto」的全新端点 (endpoints)。这不是一个新模型，而是一个智慧路由系统。当你使用 Exacto 端点时，你的请求会被自动导向到一个经过严格筛选的供应商子群组。这些供应商在以下三个方面都表现顶尖：工具呼叫的精准度最高工具呼叫的倾向性在正常范围内 (不会过度或过少地呼叫工具) 最少被使用者忽略或封锁这个筛选机制结合了 OpenRouter 的内部遥测数据、使用者偏好数据以及像 Groq OpenBench 这类的公开基准测试，确保了路由的结果是最佳选择。根据 OpenRouter 的测试，以 Kimi K2 模型为例，使用 Exacto 端点后，在 LiveMCPBench 基准测试中的工具呼叫成功率提升了约 30%，在 Tau2Bench 测试中也提升了约 9%。这对所有依赖 AI 代理 (agentic workflows) 进行复杂工作的开发者来说，是一个巨大的进步。

Oct 23, 2025 Read →

2 …

news

2025-10-22 AI日报：OpenAI 浏览器 Atlas 正式上线，Google、阿里云同步秀肌肉

探索今日 AI 界三大重磅消息：OpenAI 推出内建 ChatGPT 的革命性浏览器 Atlas，挑战 Chrome 霸权。Google AI Studio 升级，让开发 AI 应用像点餐一样简单。阿里云 Qwen 则让研究报告能一键生成网页和 Podcast，彻底改变内容呈现方式。今天绝对是 AI 发展史上值得记上一笔的日子。科技巨头们仿佛约好了一样，纷纷抛出震撼弹，预告着我们与科技互动的方式即将迎来翻天覆地的变化。 OpenAI 正式吹响了「浏览器大战」的号角，推出了传闻已久的 ChatGPT Atlas 浏览器；而 Google 也不甘示弱，全面升级其 AI Studio，目标是让每个人都能轻松打造 AI 应用；与此同时，阿里云的 Qwen 模型则在内容创作领域玩出了新花样。准备好了吗？让我们来看看今天科技圈发生了哪些大事。 OpenAI 正式宣战！ChatGPT Atlas 浏览器登场，上网方式将彻底改变？你想象过吗？有一天，浏览器不再只是一个被动的工具，而是一个能理解你、与你协作的智慧伙伴。今天，OpenAI 将这个想象变成了现实，正式推出了首款以 AI 为核心的网页浏览器——ChatGPT Atlas。这不只是「内建 AI」，而是「以 AI 为核心」过去我们看到的许多「AI 浏览器」，充其量只是在传统浏览器里塞进一个聊天机器人侧边栏。但 Atlas 的理念完全不同，它不是在浏览器里「加入」ChatGPT，而是围绕 ChatGPT「打造」了一个全新的浏览器。这意味着，你与网络的互动方式，将从过去单向的「搜寻、点击、阅读」，转变为双向的「对话、协作、完成任务」。 Atlas 三大核心武器：AI 伙伴、超强记忆与自动代理根据 OpenAI 的发布内容，Atlas 的强大之处主要体现在三个方面： AI 伙伴与分割画面 (AI Companion & Split-Screen): 当你打开任何网页，Atlas 会以分割画面的形式呈现，一边是网页内容，另一边就是你的 AI 伙伴 ChatGPT。它能即时「看见」你正在浏览的内容。你可以随时问它：「帮我总结这篇文章的重点」、「把这段技术文件用我能懂的方式解释一下」。甚至，透过「浮动游标 (Cursor Chat)」功能，你只需圈选网页上的任何文字，就能直接下指令，让 AI 进行润饰、翻译或改写。

Oct 22, 2025 Read →