tool

腾讯混元 Voyager:一张照片就能生成 3D 世界?原生 3D 重建世界模型来了

September 5, 2025
Updated Sep 5
2 min read

腾讯正式开源了其最新的混元世界模型——Voyager。这个模型不仅能在 WorldScore 基准测试中夺冠,还能从单张图片生成具有世界一致性的 3D 点云影片,让使用者能身历其境地探索。这项技术到底有多神奇?让我们一探究竟。


想象一下,只要给 AI 一张照片,它就能为你建构出一个完整的 3D 世界,你甚至可以在里面自由“行走”和探索。这听起来像是科幻电影的情节,但腾讯最新开源的“混元世界模型-Voyager” (HunyuanWorld-Voyager) 正在将这一切变为现实。

这个模型可不是什么简单的玩具,它可是业界首个支持原生 3D 重建的世界模型,并且在权威的 WorldScore 基准测试中综合排名第一。更厉害的是,它还能直接输出点云影片,为 3D 应用、游戏开发和虚拟实境带来了全新的可能性。

如果你想亲身体验,官方也提供了线上展示,技术爱好者则可以在 GitHub 上找到所有开源资料。

这魔法般的技术是怎么做到的?

大家可能会好奇,Voyager 是如何从一张静态图片变出一个动态的 3D 世界的?其实,这背后有两个关键的核心元件在运作。

1. 世界一致的影片扩散技术

首先,Voyager 采用了一种统一的架构,可以同时生成精确校准的彩色影片 (RGB) 和深度影片序列。这代表什么呢?简单来说,它不仅“画”出了你看到的场景,还同时“理解”了场景中每个物件的远近距离。这就确保了当你在个虚拟世界中移动时,所有物体的位置和比例都是正确的,不会出现奇怪的变形或扭曲,保证了全域场景的一致性。

2. 长距离的世界探索能力

光有单一场景还不够,要创造一个“世界”,就需要不断扩展。Voyager 提出了一种高效的“世界备份机制”。这个机制就像是为 AI 装上了一个超强的记忆体,它会融合点云清理和自回归推理能力,记住已经生成的所有场景细节。

这样一来,当你需要探索更远的地方时,AI 就能够在这个记忆的基础上,迭代式地向外扩展场景,并且透过全域认知技术,确保新旧场景之间能够无缝衔接,影片看起来非常平滑。

成功的背后:庞大的数据训练引擎

要训练出如此强大的 AI 模型,背后需要海量的数据支持。为此,腾讯团队建立了一套可扩展的数据建构引擎。

这个引擎非常聪明,它能自动为任何输入的影片估计摄影机的位置、姿态和深度资讯,完全不需要人工标注。这大大提高了效率,使得大规模、高品质的训练数据建构成为可能。Voyager 正是基于这个引擎,整合了真实世界采集的影片和虚幻引擎 (Unreal Engine) 渲染的资源,建立了一个包含超过 10 万个影片片段的超大规模资料集。

如何客观评估一个虚拟世界的好坏?

说了这么多,我们怎么知道 Voyager 生成的世界是真的“好”,而不是看起来还行而已?这就需要一些客观的评估标准了。接下来的表格中,你会看到一些专业术语,别担心,它们其实很好理解。

衡量影片/图像品质的三大指标

当 AI 生成一个影片时,我们需要将它与“真实”的影片进行比较。以下三个指标就是用来做这件事的:

  • 峰值信噪比 (PSNR) ↑: 你可以把它想象成“像素级的对比”。它会逐一比较生成影像和真实影像的每个像素,分数越高(箭头↑代表越高越好),代表两张图片的像素差异越小,失真度越低。
  • 结构相似性 (SSIM) ↑: 这个指标比 PSNR 更进一步,它不只看像素,更关心人类眼睛看到的“结构”。例如亮度、对比度和物体边缘。SSIM 分数越高(↑),代表人眼看起来感觉越像原始影像。
  • 感知相似性 (LPIPS) ↓: 这是最“聪明”的指标。它利用另一个神经网络来模仿人类的视觉感知,判断两张图片的相似度。它更能捕捉到那些人眼很敏感、但传统指标可能会忽略的细节差异。所以,这个分数是越低越好(箭头↓),代表在 AI 眼中,两张图片的“感觉”越接近。

现在,我们带着这些知识再来看 Voyager 的表现。

是骡子是马,拉出来遛遛:性能大比拚

影片生成品质比较

在与其他四种开源模型(Swerve, ViewCrafter, See3D, FlexWorld)的比较中,Voyager 在所有关键指标上均表现最优。

方法峰值信噪比 (PSNR) ↑结构相似性 (SSIM) ↑感知相似性 (LPIPS) ↓
Swerve16.6480.6130.349
ViewCrafter16.5120.6360.332
See3D18.1890.6940.290
FlexWorld18.2780.6930.281
Voyager18.7510.7150.277

从数据中可以清楚看到,Voyager 的 PSNR 和 SSIM 分数最高,而 LPIPS 分数最低。这意味着它生成的影片不仅在像素层面最接近真实,在人眼和 AI 的感知中也是最逼真的。

从实际生成的影片来看,当摄影机移动幅度较大时,其他模型很难产生合理的预测,容易出现明显的“鬼影”或细节丢失。而 Voyager 却能有效保留输入影像中的细节特征,例如范例中的吊灯,生成了高度逼真的影片序列。

3D 场景重建品质比较

Voyager 的另一大优势是能直接生成 RGB-D(彩色+深度)影片,这让它在 3D 重建任务中佔尽先机。其他模型仅能生成彩色影片,需要额外使用 VGGT 等工具来估计深度,效果自然大打折扣。

方法后处理峰值信噪比 (PSNR) ↑结构相似性 (SSIM) ↑感知相似性 (LPIPS) ↓
SwerveVGGT15.5810.6020.452
ViewCrafterVGGT16.1610.6280.440
See3DVGGT16.7640.6330.440
FlexWorldVGGT17.6230.6590.425
VoyagerVGGT17.7420.7120.404
Voyager-18.0350.7140.381

这个表格告诉我们,就算让其他模型“作弊”,用后处理工具补上深度资讯,Voyager 的重建结果在几何一致性上依然更出色。如果直接利用 Voyager 自带的深度资讯(表格最后一行,后处理为"-", 表示无需处理),效果更是遥遥领先,再次证明了其原生 3D 生成能力的强大。

登顶 WorldScore:全方位的王者

最后,我们来看 WorldScore 这个综合性的基准测试。它不只看画质,而是从多个维度评估一个模型生成“世界”的能力。

  • 相机控制: 模型是否能精准地按照指令移动视角?
  • 物件控制: 场景里的物体是否稳定,不会随便变形或消失?
  • 内容对齐: 生成的内容和原始图片的风格、主题是否一致?
  • 3D 一致性: 从不同角度看同一个物体,它的立体结构是否合理?
  • 主观品质: 最后,由真人来评分,这个世界看起来真实吗?吸引人吗?
方法世界平均成绩相机控制物件控制内容对齐3D 一致性主观品质
WonderJourney63.7584.637.135.5480.666.56
WonderWorld72.6992.9851.7671.2586.8749.81
Voyager77.6285.9566.9268.9281.5671.09

结果一目了然,HunyuanWorld-Voyager 在“世界平均成绩”和“主观品质”上都取得了最高分,正式登顶。这充分证明,无论是技术硬指标还是人类的主观感受,Voyager 都展现出了强大的竞争力,为 3D 内容生成领域设立了新的标竿。

总而言之,腾讯混元 Voyager 的出现,不仅仅是一个技术的突破,它更预示着未来我们与数位世界互动的方式将发生根本性的改变。从游戏、电影制作到虚拟实境,这项技术的应用潜力无穷,一个由 AI 驱动的 3D 内容创作新时代,或许已经悄然来临。

分享到:
Featured Partners

© 2025 Communeify. All rights reserved.