腾讯正式开源了其最新的混元世界模型——Voyager。这个模型不仅能在 WorldScore 基准测试中夺冠,还能从单张图片生成具有世界一致性的 3D 点云影片,让使用者能身历其境地探索。这项技术到底有多神奇?让我们一探究竟。
想象一下,只要给 AI 一张照片,它就能为你建构出一个完整的 3D 世界,你甚至可以在里面自由“行走”和探索。这听起来像是科幻电影的情节,但腾讯最新开源的“混元世界模型-Voyager” (HunyuanWorld-Voyager) 正在将这一切变为现实。
这个模型可不是什么简单的玩具,它可是业界首个支持原生 3D 重建的世界模型,并且在权威的 WorldScore 基准测试中综合排名第一。更厉害的是,它还能直接输出点云影片,为 3D 应用、游戏开发和虚拟实境带来了全新的可能性。
如果你想亲身体验,官方也提供了线上展示,技术爱好者则可以在 GitHub 上找到所有开源资料。
这魔法般的技术是怎么做到的?
大家可能会好奇,Voyager 是如何从一张静态图片变出一个动态的 3D 世界的?其实,这背后有两个关键的核心元件在运作。
1. 世界一致的影片扩散技术
首先,Voyager 采用了一种统一的架构,可以同时生成精确校准的彩色影片 (RGB) 和深度影片序列。这代表什么呢?简单来说,它不仅“画”出了你看到的场景,还同时“理解”了场景中每个物件的远近距离。这就确保了当你在个虚拟世界中移动时,所有物体的位置和比例都是正确的,不会出现奇怪的变形或扭曲,保证了全域场景的一致性。
2. 长距离的世界探索能力
光有单一场景还不够,要创造一个“世界”,就需要不断扩展。Voyager 提出了一种高效的“世界备份机制”。这个机制就像是为 AI 装上了一个超强的记忆体,它会融合点云清理和自回归推理能力,记住已经生成的所有场景细节。
这样一来,当你需要探索更远的地方时,AI 就能够在这个记忆的基础上,迭代式地向外扩展场景,并且透过全域认知技术,确保新旧场景之间能够无缝衔接,影片看起来非常平滑。
成功的背后:庞大的数据训练引擎
要训练出如此强大的 AI 模型,背后需要海量的数据支持。为此,腾讯团队建立了一套可扩展的数据建构引擎。
这个引擎非常聪明,它能自动为任何输入的影片估计摄影机的位置、姿态和深度资讯,完全不需要人工标注。这大大提高了效率,使得大规模、高品质的训练数据建构成为可能。Voyager 正是基于这个引擎,整合了真实世界采集的影片和虚幻引擎 (Unreal Engine) 渲染的资源,建立了一个包含超过 10 万个影片片段的超大规模资料集。
如何客观评估一个虚拟世界的好坏?
说了这么多,我们怎么知道 Voyager 生成的世界是真的“好”,而不是看起来还行而已?这就需要一些客观的评估标准了。接下来的表格中,你会看到一些专业术语,别担心,它们其实很好理解。
衡量影片/图像品质的三大指标
当 AI 生成一个影片时,我们需要将它与“真实”的影片进行比较。以下三个指标就是用来做这件事的:
- 峰值信噪比 (PSNR) ↑: 你可以把它想象成“像素级的对比”。它会逐一比较生成影像和真实影像的每个像素,分数越高(箭头↑代表越高越好),代表两张图片的像素差异越小,失真度越低。
- 结构相似性 (SSIM) ↑: 这个指标比 PSNR 更进一步,它不只看像素,更关心人类眼睛看到的“结构”。例如亮度、对比度和物体边缘。SSIM 分数越高(↑),代表人眼看起来感觉越像原始影像。
- 感知相似性 (LPIPS) ↓: 这是最“聪明”的指标。它利用另一个神经网络来模仿人类的视觉感知,判断两张图片的相似度。它更能捕捉到那些人眼很敏感、但传统指标可能会忽略的细节差异。所以,这个分数是越低越好(箭头↓),代表在 AI 眼中,两张图片的“感觉”越接近。
现在,我们带着这些知识再来看 Voyager 的表现。
是骡子是马,拉出来遛遛:性能大比拚
影片生成品质比较
在与其他四种开源模型(Swerve, ViewCrafter, See3D, FlexWorld)的比较中,Voyager 在所有关键指标上均表现最优。
| 方法 | 峰值信噪比 (PSNR) ↑ | 结构相似性 (SSIM) ↑ | 感知相似性 (LPIPS) ↓ |
|---|---|---|---|
| Swerve | 16.648 | 0.613 | 0.349 |
| ViewCrafter | 16.512 | 0.636 | 0.332 |
| See3D | 18.189 | 0.694 | 0.290 |
| FlexWorld | 18.278 | 0.693 | 0.281 |
| Voyager | 18.751 | 0.715 | 0.277 |
从数据中可以清楚看到,Voyager 的 PSNR 和 SSIM 分数最高,而 LPIPS 分数最低。这意味着它生成的影片不仅在像素层面最接近真实,在人眼和 AI 的感知中也是最逼真的。
从实际生成的影片来看,当摄影机移动幅度较大时,其他模型很难产生合理的预测,容易出现明显的“鬼影”或细节丢失。而 Voyager 却能有效保留输入影像中的细节特征,例如范例中的吊灯,生成了高度逼真的影片序列。
3D 场景重建品质比较
Voyager 的另一大优势是能直接生成 RGB-D(彩色+深度)影片,这让它在 3D 重建任务中佔尽先机。其他模型仅能生成彩色影片,需要额外使用 VGGT 等工具来估计深度,效果自然大打折扣。
| 方法 | 后处理 | 峰值信噪比 (PSNR) ↑ | 结构相似性 (SSIM) ↑ | 感知相似性 (LPIPS) ↓ |
|---|---|---|---|---|
| Swerve | VGGT | 15.581 | 0.602 | 0.452 |
| ViewCrafter | VGGT | 16.161 | 0.628 | 0.440 |
| See3D | VGGT | 16.764 | 0.633 | 0.440 |
| FlexWorld | VGGT | 17.623 | 0.659 | 0.425 |
| Voyager | VGGT | 17.742 | 0.712 | 0.404 |
| Voyager | - | 18.035 | 0.714 | 0.381 |
这个表格告诉我们,就算让其他模型“作弊”,用后处理工具补上深度资讯,Voyager 的重建结果在几何一致性上依然更出色。如果直接利用 Voyager 自带的深度资讯(表格最后一行,后处理为"-", 表示无需处理),效果更是遥遥领先,再次证明了其原生 3D 生成能力的强大。
登顶 WorldScore:全方位的王者
最后,我们来看 WorldScore 这个综合性的基准测试。它不只看画质,而是从多个维度评估一个模型生成“世界”的能力。
- 相机控制: 模型是否能精准地按照指令移动视角?
- 物件控制: 场景里的物体是否稳定,不会随便变形或消失?
- 内容对齐: 生成的内容和原始图片的风格、主题是否一致?
- 3D 一致性: 从不同角度看同一个物体,它的立体结构是否合理?
- 主观品质: 最后,由真人来评分,这个世界看起来真实吗?吸引人吗?
| 方法 | 世界平均成绩 | 相机控制 | 物件控制 | 内容对齐 | 3D 一致性 | … | 主观品质 |
|---|---|---|---|---|---|---|---|
| WonderJourney | 63.75 | 84.6 | 37.1 | 35.54 | 80.6 | … | 66.56 |
| WonderWorld | 72.69 | 92.98 | 51.76 | 71.25 | 86.87 | … | 49.81 |
| Voyager | 77.62 | 85.95 | 66.92 | 68.92 | 81.56 | … | 71.09 |
结果一目了然,HunyuanWorld-Voyager 在“世界平均成绩”和“主观品质”上都取得了最高分,正式登顶。这充分证明,无论是技术硬指标还是人类的主观感受,Voyager 都展现出了强大的竞争力,为 3D 内容生成领域设立了新的标竿。
总而言之,腾讯混元 Voyager 的出现,不仅仅是一个技术的突破,它更预示着未来我们与数位世界互动的方式将发生根本性的改变。从游戏、电影制作到虚拟实境,这项技术的应用潜力无穷,一个由 AI 驱动的 3D 内容创作新时代,或许已经悄然来临。


