腾讯混元 Voyager：一张照片就能生成 3D 世界？原生 3D 重建世界模型来了

腾讯正式开源了其最新的混元世界模型——Voyager。这个模型不仅能在 WorldScore 基准测试中夺冠，还能从单张图片生成具有世界一致性的 3D 点云影片，让使用者能身历其境地探索。这项技术到底有多神奇？让我们一探究竟。

想象一下，只要给 AI 一张照片，它就能为你建构出一个完整的 3D 世界，你甚至可以在里面自由“行走”和探索。这听起来像是科幻电影的情节，但腾讯最新开源的“混元世界模型-Voyager” (HunyuanWorld-Voyager) 正在将这一切变为现实。

这个模型可不是什么简单的玩具，它可是业界首个支持原生 3D 重建的世界模型，并且在权威的 WorldScore 基准测试中综合排名第一。更厉害的是，它还能直接输出点云影片，为 3D 应用、游戏开发和虚拟实境带来了全新的可能性。

如果你想亲身体验，官方也提供了线上展示，技术爱好者则可以在 GitHub 上找到所有开源资料。

这魔法般的技术是怎么做到的？

大家可能会好奇，Voyager 是如何从一张静态图片变出一个动态的 3D 世界的？其实，这背后有两个关键的核心元件在运作。

1. 世界一致的影片扩散技术

首先，Voyager 采用了一种统一的架构，可以同时生成精确校准的彩色影片 (RGB) 和深度影片序列。这代表什么呢？简单来说，它不仅“画”出了你看到的场景，还同时“理解”了场景中每个物件的远近距离。这就确保了当你在个虚拟世界中移动时，所有物体的位置和比例都是正确的，不会出现奇怪的变形或扭曲，保证了全域场景的一致性。

2. 长距离的世界探索能力

光有单一场景还不够，要创造一个“世界”，就需要不断扩展。Voyager 提出了一种高效的“世界备份机制”。这个机制就像是为 AI 装上了一个超强的记忆体，它会融合点云清理和自回归推理能力，记住已经生成的所有场景细节。

这样一来，当你需要探索更远的地方时，AI 就能够在这个记忆的基础上，迭代式地向外扩展场景，并且透过全域认知技术，确保新旧场景之间能够无缝衔接，影片看起来非常平滑。

成功的背后：庞大的数据训练引擎

要训练出如此强大的 AI 模型，背后需要海量的数据支持。为此，腾讯团队建立了一套可扩展的数据建构引擎。

这个引擎非常聪明，它能自动为任何输入的影片估计摄影机的位置、姿态和深度资讯，完全不需要人工标注。这大大提高了效率，使得大规模、高品质的训练数据建构成为可能。Voyager 正是基于这个引擎，整合了真实世界采集的影片和虚幻引擎 (Unreal Engine) 渲染的资源，建立了一个包含超过 10 万个影片片段的超大规模资料集。

如何客观评估一个虚拟世界的好坏？

说了这么多，我们怎么知道 Voyager 生成的世界是真的“好”，而不是看起来还行而已？这就需要一些客观的评估标准了。接下来的表格中，你会看到一些专业术语，别担心，它们其实很好理解。

衡量影片/图像品质的三大指标

当 AI 生成一个影片时，我们需要将它与“真实”的影片进行比较。以下三个指标就是用来做这件事的：

峰值信噪比 (PSNR) ↑： 你可以把它想象成“像素级的对比”。它会逐一比较生成影像和真实影像的每个像素，分数越高（箭头↑代表越高越好），代表两张图片的像素差异越小，失真度越低。
结构相似性 (SSIM) ↑： 这个指标比 PSNR 更进一步，它不只看像素，更关心人类眼睛看到的“结构”。例如亮度、对比度和物体边缘。SSIM 分数越高（↑），代表人眼看起来感觉越像原始影像。
感知相似性 (LPIPS) ↓： 这是最“聪明”的指标。它利用另一个神经网络来模仿人类的视觉感知，判断两张图片的相似度。它更能捕捉到那些人眼很敏感、但传统指标可能会忽略的细节差异。所以，这个分数是越低越好（箭头↓），代表在 AI 眼中，两张图片的“感觉”越接近。

现在，我们带着这些知识再来看 Voyager 的表现。

是骡子是马，拉出来遛遛：性能大比拚

影片生成品质比较

在与其他四种开源模型（Swerve, ViewCrafter, See3D, FlexWorld）的比较中，Voyager 在所有关键指标上均表现最优。

方法	峰值信噪比 (PSNR) ↑	结构相似性 (SSIM) ↑	感知相似性 (LPIPS) ↓
Swerve	16.648	0.613	0.349
ViewCrafter	16.512	0.636	0.332
See3D	18.189	0.694	0.290
FlexWorld	18.278	0.693	0.281
Voyager	18.751	0.715	0.277

从数据中可以清楚看到，Voyager 的 PSNR 和 SSIM 分数最高，而 LPIPS 分数最低。这意味着它生成的影片不仅在像素层面最接近真实，在人眼和 AI 的感知中也是最逼真的。

从实际生成的影片来看，当摄影机移动幅度较大时，其他模型很难产生合理的预测，容易出现明显的“鬼影”或细节丢失。而 Voyager 却能有效保留输入影像中的细节特征，例如范例中的吊灯，生成了高度逼真的影片序列。

3D 场景重建品质比较

Voyager 的另一大优势是能直接生成 RGB-D（彩色+深度）影片，这让它在 3D 重建任务中佔尽先机。其他模型仅能生成彩色影片，需要额外使用 VGGT 等工具来估计深度，效果自然大打折扣。

方法	后处理	峰值信噪比 (PSNR) ↑	结构相似性 (SSIM) ↑	感知相似性 (LPIPS) ↓
Swerve	VGGT	15.581	0.602	0.452
ViewCrafter	VGGT	16.161	0.628	0.440
See3D	VGGT	16.764	0.633	0.440
FlexWorld	VGGT	17.623	0.659	0.425
Voyager	VGGT	17.742	0.712	0.404
Voyager	-	18.035	0.714	0.381

这个表格告诉我们，就算让其他模型“作弊”，用后处理工具补上深度资讯，Voyager 的重建结果在几何一致性上依然更出色。如果直接利用 Voyager 自带的深度资讯（表格最后一行，后处理为"-", 表示无需处理），效果更是遥遥领先，再次证明了其原生 3D 生成能力的强大。

登顶 WorldScore：全方位的王者

最后，我们来看 WorldScore 这个综合性的基准测试。它不只看画质，而是从多个维度评估一个模型生成“世界”的能力。

相机控制： 模型是否能精准地按照指令移动视角？
物件控制： 场景里的物体是否稳定，不会随便变形或消失？
内容对齐： 生成的内容和原始图片的风格、主题是否一致？
3D 一致性： 从不同角度看同一个物体，它的立体结构是否合理？
主观品质： 最后，由真人来评分，这个世界看起来真实吗？吸引人吗？

方法	世界平均成绩	相机控制	物件控制	内容对齐	3D 一致性	…	主观品质
WonderJourney	63.75	84.6	37.1	35.54	80.6	…	66.56
WonderWorld	72.69	92.98	51.76	71.25	86.87	…	49.81
Voyager	77.62	85.95	66.92	68.92	81.56	…	71.09

结果一目了然，HunyuanWorld-Voyager 在“世界平均成绩”和“主观品质”上都取得了最高分，正式登顶。这充分证明，无论是技术硬指标还是人类的主观感受，Voyager 都展现出了强大的竞争力，为 3D 内容生成领域设立了新的标竿。

总而言之，腾讯混元 Voyager 的出现，不仅仅是一个技术的突破，它更预示着未来我们与数位世界互动的方式将发生根本性的改变。从游戏、电影制作到虚拟实境，这项技术的应用潜力无穷，一个由 AI 驱动的 3D 内容创作新时代，或许已经悄然来临。

分享到:

Featured Partners

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

Recommended for You

腾 …

tool

腾讯混元新模型登场：影片秒变 3D 世界，人人都能是建模师

腾讯正式开源混元世界模型 1.1 (WorldMirror)，这项突破性技术能让使用者在几秒钟内，仅用影片或多张图片就生成专业级的 3D 场景。本文将深入探讨其核心功能、技术架构，以及它如何为 3D 重建领域带来革命性的改变。你有没有想过，随手拍下的一段影片，或是几张照片，就能在眨眼之间变成一个可以自由探索的 3D 虚拟世界？听起来像是科幻电影的情节，但现在，这已经成为现实。腾讯最近正式发布并开源了其最新的「混元世界模型 1.1」（HunyuanWorld-Mirror），在 3D 重建技术领域投下了一颗震撼弹。这个新版本在多视图与影片输入、单卡部署以及生成速度上都进行了重大升级，目标只有一个：将过去专属于专业人士的 3D 重建技术，变成普通使用者也能轻松上手的工具。从「专业工具」到「人人可用」，3D 重建的门槛消失了？过去，要建立一个 3D 模型，往往需要昂贵的软体、强大的硬体和数小时甚至数天的专业操作。但混元世界模型 1.1 彻底改变了这个游戏规则。它能够在短短几秒内，从影片或一组图片中，直接产生专业级的 3D 场景。这效率有多惊人？想像一下，你用手机环绕拍摄家里的客厅，上传影片后，几乎是立刻就能得到一个精准的 3D 数位分身。其实，它的前身混元世界模型 1.0 在今年 7 月发布时，就已经是业界首个能与传统电脑图学（CG）流程相容的开源可漫游世界生成模型。而这次的 1.1 版本，则更进一步，实现了所谓的「多模态先验注入」和「多任务统一输出」，让整个 3D 重建过程变得更加智慧和自动化。 WorldMirror 1.1 的三大核心亮点那么，这个新模型究竟强在哪里？简单来说，可以归纳为三个让人印象深刻的特性。 1. 灵活处理不同输入，资讯越多越精准混元世界模型 1.1 最聪明的地方在于它采用了「多模态先验引导」机制。这是什么意思呢？简单来说，就是模型不仅仅看图片的像素，它还能理解并利用你提供的额外资讯，例如：相机位姿：拍摄时相机的位置和角度。相机内参：镜头的焦距、光学中心等参数。深度图：影像中每个点与相机的距离。当这些资讯被「注入」模型后，产生的 3D 场景在几何结构上会更加准确，不会出现奇怪的扭曲或变形。这就像一个画家，不只看到了物体的样子，还知道了物体之间的距离和透视关系，画出来的画自然就更逼真。 2. 通用 3D 视觉预测，一次搞定所有事传统的 3D 重建流程通常是分步骤的，像是一条工厂生产线，每个环节处理一项任务。但混元世界模型 1.1 却像一个全能工作站，一次就能完成所有事情。它实现了点云、深度图、相机参数、表面法线和新视角合成等多种 3D 几何预测。这代表模型在一次运算中，就能同时输出一个场景的所有关键 3D 属性，展现出惊人的效能优势。 3. 单卡部署，秒速推理速度，是混元世界模型 1.1 最令人称道的优点之一。与传统需要反覆运算优化的 3D 重建方法不同，它采用了纯粹的「前馈架构」（feed-forward）。

Oct 23, 2025 Read →

M …

tool

Matrix-3D横空出世：单张图片或文字，一键生成你的3D全景世界

厌倦了狭隘的3D场景生成？Skywork AI开源的Matrix-3D模型，透过创新的全景影片生成技术，让你从一张图、一句话，就能打造出可360度自由探索的宏大3D世界。一起来看看这个AI界的新宠儿有多厉害！你有没有想过，有一天，只需要一句话、一张图片，就能创造出一个专属于你的、可以随意漫游的虚拟世界？这听起来像是科幻电影的情节，但现在，这个梦想正被一个名为 Matrix-3D 的AI模型变为现实。最近，由 Skywork AI推出的这个开源专案在AI社群和开发者圈子里掀起了不小的波澜。 Matrix-3D 不是那种只能生成一张静态图片或一段固定视角短片的普通模型；它的目标宏大得多——直接生成一个广阔、无死角、可供你360度自由探索的3D世界。这意味着，AI不仅仅是个绘图工具，它正在进化成一个“世界模拟器”。不再只是“看”，而是真正“走进去”：Matrix-3D有何不同？过去，许多AI 3D生成技术就像是让我们透过一扇小窗户窥探一个虚拟场景。你能看到窗外的风景，但无法转身看看背后，也无法绕到建筑的另一侧。生成的场景范围有限，一旦超出预设的视角，就会出现恼人的边界或失真，大大削弱了沉浸感。 Matrix-3D 彻底改变了这个游戏规则。它采用了“全景”作为核心思路，目标是创造一个你可以真正“走进去”的空间。这就像是从看一张风景照，升级到戴上VR头盔，亲身在那个世界中漫步一样。这个模型到底厉害在哪里？主要有几个让人惊艳的特点：广阔无垠的场景：和市面上现有的模型（如WorldLabs）相比，Matrix-3D能够生成更大、更完整的虚拟环境，让你摆脱视角束缚，实现真正的360度全向探索。超高自由度控制：它不仅支援文字和图片输入，还能让你自订摄影机的移动轨迹。想像一下，你可以像导演一样，指挥AI生成一段沿着特定路线飞行的场景影片，然后再将它变成可以自由探索的3D空间。强大的泛用性：基于团队自行开发的3D数据和影片模型，Matrix-3D能生成多样化且品质极高的场景，无论是奇幻的浮空岛，还是印象派风格的冬日雪景，都能信手拈来。鱼与熊掌如何兼得？Matrix-3D的“双轨制”重建魔法在3D生成领域，一直存在一个难题：生成速度和模型品质，似乎很难两全其美。要嘛快速生成一个粗糙的模型，要嘛花费大量时间等待一个精细的作品。 Matrix-3D巧妙地用一种“双轨制”的设计解决了这个问题，为使用者提供了两种选择：快狠准的“前馈重建模型” (Feed-forward Reconstruction Model): 这可以理解为“速度优先”模式。它透过一个大型重建模型，直接从生成的全景影片中预测和还原3D属性。这个过程非常高效，最快能在短短10秒内完成3D场景的重建。当你需要快速预览效果或进行多次迭代时，这个模式简直是天赐之物。精雕细琢的“优化重建管线” (Optimization-based Pipeline): 这是“品质优先”模式。它会针对单一场景进行细致的优化，确保模型的准确性和细节都达到最高水准。虽然耗时较长，但换来的是令人惊叹的视觉效果和几何准确性。打个比方，这就像是你同时拥有了一位能迅速勾勒出草图的速写画家，和一位能精雕细琢的油画大师。你可以根据自己的需求，随时选择最适合的工具。 AI也需要上学：Matrix-Pano数据集的幕后故事俗话说，名师出高徒。再强大的AI模型，也需要海量、高品质的数据来进行训练。在开发Matrix-3D时，研究团队发现了一个棘手的问题：市面上根本没有完全符合他们需求的资料集。现有的3D资料集，要嘛规模不够大，要嘛品质参差不齐，更重要的是，普遍缺乏像摄影机轨迹、深度图这样关键的标注资讯。怎么办？既然没有，那就自己创造一个！于是，Matrix-Pano 资料集应运而生。这是一个大规模的合成全景影片资料集，包含了超过11.6万个高品质的静态全景影片序列。每一段影片都配有精确的3D探索轨迹、深度图和文字注释，堪称是为了训练3D世界模型而生的“教科书”。这个资料集不仅成就了Matrix-3D，它本身也成为对整个AI社群的一大贡献。我也能玩吗？Matrix-3D的硬体门槛与未来展望看到这里，你肯定跃跃欲试了吧？不过，要驱动这样一个强大的世界模型，硬体需求自然不低。根据官方公布的资讯，目前生成480p解析度的场景需要40G的显示卡记忆体（VRAM），而720p则需要高达60G。这对大多数普通使用者来说确实是个不小的门槛。但好消息是，Skywork AI 团队承诺很快会释出一个更轻量的模型版本，只需要24G VRAM（例如 NVIDIA RTX 4090 显示卡）就能运行720p的生成任务。这意味着，不久之后，更多的开发者和创作者都能在自己的电脑上体验创造世界的乐趣。如果你拥有合适的硬体，并且想立刻尝试，可以前往官方的 GitHub 和 Hugging Face 页面。官方提供了非常详细的安装和使用指南，甚至有一键生成的脚本，大大降低了上手难度。总览 Matrix-3D的开源，不仅仅仅是释出一个有趣的工具，它更像是一个宣言，宣告了AI生成内容的新时代已经来临。它让我们看到，AI正在从内容的生成者，转变为环境的模拟者和世界的建构者。随着像Matrix-3D这样的世界模型不断发展和普及，我们有理由相信，在不远的将来，每个人都能成为自己虚拟世界的“创世神”。无论是打造游戏场景、制作影视特效，还是构建元宇宙的基石，这项技术都将释放出无穷的潜力。

Aug 14, 2025 Read →

M …

tool

Matrix-Game 2.0 横空出世：全球首款开源实时互动世界模型，重塑虚拟世界体验

由 Skywork AI 推出的 Matrix-Game 2.0，作为全球首款开源、实时、可长时序互动的世界模型，正以其惊人的性能颠覆我们对虚拟世界生成与互动的想象。该模型不仅能以每秒 25 帧 (FPS) 的速度实时生成高画质影片，更能实现长达数分钟的连续互动。本文将深入探讨 Matrix-Game 2.0 的核心技术、重大突破及其对游戏、模拟训练与元宇宙等领域的深远影响。 2025 年 8 月，人工智能领域迎来了一项重大突破。由初创公司 Skywork AI 发布的 Matrix-Game 2.0，正式向全球开源。这不仅仅是一个新模型的问世，更可能是一个新时代的开端。想象一下，一个能够实时响应你每一个指令、动态生成栩栩如生虚拟世界的 AI，现在，它触手可及。与不久前 DeepMind 发布但未开源的 Genie 3 模型不同，Matrix-Game 2.0 选择了完全开放的路线，将其模型权重、代码库悉数公开，旨在推动整个交互式世界模型研究的进程。这一举动无疑为全球的开发者与研究人员注入了一剂强心针。什么是世界模型？它为何如此重要？在深入了解 Matrix-Game 2.0 之前，让我们先厘清一个概念：世界模型 (World Model)。简单来说，世界模型是一种能够理解和模拟世界运作规律的 AI 模型。它不仅仅是生成影像，更能理解物理法则、空间关系和因果联系。当你与之互动时，它能预测你行为的后果，并生成合乎逻辑的后续场景。这项技术的重要性不言而喻。从打造更具沉浸感的电玩游戏、到为自动驾驶和机器人提供高效率的模拟训练环境，再到建构我们翘首以盼的“元宇宙”，世界模型都是不可或缺的基础设施。 Matrix-Game 2.0 的三大核心突破 Matrix-Game 2.0 之所以引人注目，主要源于其在三个关键领域取得的革命性进展。这些突破共同解决了现有模型在实时性、互动性和数据规模上的诸多痛点。 1. 实时蒸馏技术：25 FPS 的流畅互动体验过去的影片生成模型，往往需要漫长的运算时间，难以实现实时互动。Matrix-Game 2.0 透过创新的 “实时蒸馏技术 (Real-Time Distillation)”，彻底改变了这一现状。它采用了一种高效的少步骤扩散 (few-step diffusion) 机制，并结合了多项优化策略：因果扩散模型蒸馏 (Causal Diffusion Model Distillation): 透过参照过去的画面来生成新画面，大幅减少了序列延迟。分布匹配蒸馏 (Distribution Matching Distillation): 确保模型在训练和实际推论时的数据分布一致，从而获得更稳定的生成结果。 KV 缓存机制 (KV Cache Mechanism): 避免了对历史信息的重复计算，让模型能在单一 GPU 上流畅生成长度不受限的影片。这一切努力的结果是，Matrix-Game 2.0 能够在复杂的环境中，以 25 FPS 的稳定帧率持续生成高画质影片，时长可达数分钟。这意味着使用者可以享受到如丝般顺滑、无缝接轨的实时互动，带来前所未有的沉浸感和可用性。

Aug 14, 2025 Read →