tool

騰訊混元 Voyager:一張照片就能生成 3D 世界?原生 3D 重建世界模型來了

September 5, 2025
Updated Sep 5
2 min read

騰訊正式開源了其最新的混元世界模型——Voyager。這個模型不僅能在 WorldScore 基準測試中奪冠,還能從單張圖片生成具有世界一致性的 3D 點雲影片,讓使用者能身歷其境地探索。這項技術到底有多神奇?讓我們一探究竟。


想像一下,只要給 AI 一張照片,它就能為你建構出一個完整的 3D 世界,你甚至可以在裡面自由「行走」和探索。這聽起來像是科幻電影的情節,但騰訊最新開源的「混元世界模型-Voyager」 (HunyuanWorld-Voyager) 正在將這一切變為現實。

這個模型可不是什麼簡單的玩具,它可是業界首個支援原生 3D 重建的世界模型,並且在權威的 WorldScore 基準測試中綜合排名第一。更厲害的是,它還能直接輸出點雲影片,為 3D 應用、遊戲開發和虛擬實境帶來了全新的可能性。

如果你想親身體驗,官方也提供了線上展示,技術愛好者則可以在 GitHub 上找到所有開源資料。

這魔法般的技術是怎麼做到的?

大家可能會好奇,Voyager 是如何從一張靜態圖片變出一個動態的 3D 世界的?其實,這背後有兩個關鍵的核心元件在運作。

1. 世界一致的影片擴散技術

首先,Voyager 採用了一種統一的架構,可以同時生成精確校準的彩色影片 (RGB) 和深度影片序列。這代表什麼呢?簡單來說,它不僅「畫」出了你看到的場景,還同時「理解」了場景中每個物件的遠近距離。這就確保了當你在這個虛擬世界中移動時,所有物體的位置和比例都是正確的,不會出現奇怪的變形或扭曲,保證了全域場景的一致性。

2. 長距離的世界探索能力

光有單一場景還不夠,要創造一個「世界」,就需要不斷擴展。Voyager 提出了一種高效的「世界備份機制」。這個機制就像是為 AI 裝上了一個超強的記憶體,它會融合點雲清理和自回歸推理能力,記住已經生成的所有場景細節。

這樣一來,當你需要探索更遠的地方時,AI 就能夠在這個記憶的基礎上,迭代式地向外擴展場景,並且透過全域認知技術,確保新舊場景之間能夠無縫銜接,影片看起來非常平滑。

成功的背後:龐大的數據訓練引擎

要訓練出如此強大的 AI 模型,背後需要海量的資料支持。為此,騰訊團隊建立了一套可擴展的數據建構引擎。

這個引擎非常聰明,它能自動為任何輸入的影片估計攝影機的位置、姿態和深度資訊,完全不需要人工標註。這大大提高了效率,使得大規模、高品質的訓練數據建構成為可能。Voyager 正是基於這個引擎,整合了真實世界採集的影片和虛幻引擎 (Unreal Engine) 渲染的資源,建立了一個包含超過 10 萬個影片片段的超大規模資料集。

如何客觀評估一個虛擬世界的好壞?

說了這麼多,我們怎麼知道 Voyager 生成的世界是真的「好」,而不是看起來還行而已?這就需要一些客觀的評估標準了。接下來的表格中,你會看到一些專業術語,別擔心,它們其實很好理解。

衡量影片/圖像品質的三大指標

當 AI 生成一個影片時,我們需要將它與「真實」的影片進行比較。以下三個指標就是用來做這件事的:

  • 峰值信噪比 (PSNR) ↑: 你可以把它想像成「像素級的對比」。它會逐一比較生成影像和真實影像的每個像素,分數越高(箭頭↑代表越高越好),代表兩張圖片的像素差異越小,失真度越低。
  • 結構相似性 (SSIM) ↑: 這個指標比 PSNR 更進一步,它不只看像素,更關心人類眼睛看到的「結構」。例如亮度、對比度和物體邊緣。SSIM 分數越高(↑),代表人眼看起來感覺越像原始影像。
  • 感知相似性 (LPIPS) ↓: 這是最「聰明」的指標。它利用另一個神經網路來模仿人類的視覺感知,判斷兩張圖片的相似度。它更能捕捉到那些人眼很敏感、但傳統指標可能會忽略的細節差異。所以,這個分數是越低越好(箭頭↓),代表在 AI 眼中,兩張圖片的「感覺」越接近。

現在,我們帶著這些知識再來看 Voyager 的表現。

是騾子是馬,拉出來遛遛:性能大比拚

影片生成品質比較

在與其他四種開源模型(Swerve, ViewCrafter, See3D, FlexWorld)的比較中,Voyager 在所有關鍵指標上均表現最優。

方法峰值信噪比 (PSNR) ↑結構相似性 (SSIM) ↑感知相似性 (LPIPS) ↓
Swerve16.6480.6130.349
ViewCrafter16.5120.6360.332
See3D18.1890.6940.290
FlexWorld18.2780.6930.281
Voyager18.7510.7150.277

從數據中可以清楚看到,Voyager 的 PSNR 和 SSIM 分數最高,而 LPIPS 分數最低。這意味著它生成的影片不僅在像素層面最接近真實,在人眼和 AI 的感知中也是最逼真的。

從實際生成的影片來看,當攝影機移動幅度較大時,其他模型很難產生合理的預測,容易出現明顯的「鬼影」或細節丟失。而 Voyager 卻能有效保留輸入影像中的細節特徵,例如範例中的吊燈,生成了高度逼真的影片序列。

3D 場景重建品質比較

Voyager 的另一大優勢是能直接生成 RGB-D(彩色+深度)影片,這讓它在 3D 重建任務中佔盡先機。其他模型僅能生成彩色影片,需要額外使用 VGGT 等工具來估計深度,效果自然大打折扣。

方法後處理峰值信噪比 (PSNR) ↑結構相似性 (SSIM) ↑感知相似性 (LPIPS) ↓
SwerveVGGT15.5810.6020.452
ViewCrafterVGGT16.1610.6280.440
See3DVGGT16.7640.6330.440
FlexWorldVGGT17.6230.6590.425
VoyagerVGGT17.7420.7120.404
Voyager-18.0350.7140.381

這個表格告訴我們,就算讓其他模型「作弊」,用後處理工具補上深度資訊,Voyager 的重建結果在幾何一致性上依然更出色。如果直接利用 Voyager 自帶的深度資訊(表格最後一行,後處理為"-", 表示無需處理),效果更是遙遙領先,再次證明了其原生 3D 生成能力的強大。

登頂 WorldScore:全方位的王者

最後,我們來看 WorldScore 這個綜合性的基準測試。它不只看畫質,而是從多個維度評估一個模型生成「世界」的能力。

  • 相機控制: 模型是否能精準地按照指令移動視角?
  • 物件控制: 場景裡的物體是否穩定,不會隨便變形或消失?
  • 內容對齊: 生成的內容和原始圖片的風格、主題是否一致?
  • 3D 一致性: 從不同角度看同一個物體,它的立體結構是否合理?
  • 主觀品質: 最後,由真人來評分,這個世界看起來真實嗎?吸引人嗎?
方法世界平均成績相機控制物件控制內容對齊3D 一致性主觀品質
WonderJourney63.7584.637.135.5480.666.56
WonderWorld72.6992.9851.7671.2586.8749.81
Voyager77.6285.9566.9268.9281.5671.09

結果一目了然,HunyuanWorld-Voyager 在「世界平均成績」和「主觀品質」上都取得了最高分,正式登頂。這充分證明,無論是技術硬指標還是人類的主觀感受,Voyager 都展現出了強大的競爭力,為 3D 內容生成領域設立了新的標竿。

總而言之,騰訊混元 Voyager 的出現,不僅僅是一個技術的突破,它更預示著未來我們與數位世界互動的方式將發生根本性的改變。從遊戲、電影製作到虛擬實境,這項技術的應用潛力無窮,一個由 AI 驅動的 3D 內容創作新時代,或許已經悄然來臨。

分享至:
Featured Partners

© 2026 Communeify. All rights reserved.