騰訊正式開源了其最新的混元世界模型——Voyager。這個模型不僅能在 WorldScore 基準測試中奪冠,還能從單張圖片生成具有世界一致性的 3D 點雲影片,讓使用者能身歷其境地探索。這項技術到底有多神奇?讓我們一探究竟。
想像一下,只要給 AI 一張照片,它就能為你建構出一個完整的 3D 世界,你甚至可以在裡面自由「行走」和探索。這聽起來像是科幻電影的情節,但騰訊最新開源的「混元世界模型-Voyager」 (HunyuanWorld-Voyager) 正在將這一切變為現實。
這個模型可不是什麼簡單的玩具,它可是業界首個支援原生 3D 重建的世界模型,並且在權威的 WorldScore 基準測試中綜合排名第一。更厲害的是,它還能直接輸出點雲影片,為 3D 應用、遊戲開發和虛擬實境帶來了全新的可能性。
如果你想親身體驗,官方也提供了線上展示,技術愛好者則可以在 GitHub 上找到所有開源資料。
這魔法般的技術是怎麼做到的?
大家可能會好奇,Voyager 是如何從一張靜態圖片變出一個動態的 3D 世界的?其實,這背後有兩個關鍵的核心元件在運作。
1. 世界一致的影片擴散技術
首先,Voyager 採用了一種統一的架構,可以同時生成精確校準的彩色影片 (RGB) 和深度影片序列。這代表什麼呢?簡單來說,它不僅「畫」出了你看到的場景,還同時「理解」了場景中每個物件的遠近距離。這就確保了當你在這個虛擬世界中移動時,所有物體的位置和比例都是正確的,不會出現奇怪的變形或扭曲,保證了全域場景的一致性。
2. 長距離的世界探索能力
光有單一場景還不夠,要創造一個「世界」,就需要不斷擴展。Voyager 提出了一種高效的「世界備份機制」。這個機制就像是為 AI 裝上了一個超強的記憶體,它會融合點雲清理和自回歸推理能力,記住已經生成的所有場景細節。
這樣一來,當你需要探索更遠的地方時,AI 就能夠在這個記憶的基礎上,迭代式地向外擴展場景,並且透過全域認知技術,確保新舊場景之間能夠無縫銜接,影片看起來非常平滑。
成功的背後:龐大的數據訓練引擎
要訓練出如此強大的 AI 模型,背後需要海量的資料支持。為此,騰訊團隊建立了一套可擴展的數據建構引擎。
這個引擎非常聰明,它能自動為任何輸入的影片估計攝影機的位置、姿態和深度資訊,完全不需要人工標註。這大大提高了效率,使得大規模、高品質的訓練數據建構成為可能。Voyager 正是基於這個引擎,整合了真實世界採集的影片和虛幻引擎 (Unreal Engine) 渲染的資源,建立了一個包含超過 10 萬個影片片段的超大規模資料集。
如何客觀評估一個虛擬世界的好壞?
說了這麼多,我們怎麼知道 Voyager 生成的世界是真的「好」,而不是看起來還行而已?這就需要一些客觀的評估標準了。接下來的表格中,你會看到一些專業術語,別擔心,它們其實很好理解。
衡量影片/圖像品質的三大指標
當 AI 生成一個影片時,我們需要將它與「真實」的影片進行比較。以下三個指標就是用來做這件事的:
- 峰值信噪比 (PSNR) ↑: 你可以把它想像成「像素級的對比」。它會逐一比較生成影像和真實影像的每個像素,分數越高(箭頭↑代表越高越好),代表兩張圖片的像素差異越小,失真度越低。
- 結構相似性 (SSIM) ↑: 這個指標比 PSNR 更進一步,它不只看像素,更關心人類眼睛看到的「結構」。例如亮度、對比度和物體邊緣。SSIM 分數越高(↑),代表人眼看起來感覺越像原始影像。
- 感知相似性 (LPIPS) ↓: 這是最「聰明」的指標。它利用另一個神經網路來模仿人類的視覺感知,判斷兩張圖片的相似度。它更能捕捉到那些人眼很敏感、但傳統指標可能會忽略的細節差異。所以,這個分數是越低越好(箭頭↓),代表在 AI 眼中,兩張圖片的「感覺」越接近。
現在,我們帶著這些知識再來看 Voyager 的表現。
是騾子是馬,拉出來遛遛:性能大比拚
影片生成品質比較
在與其他四種開源模型(Swerve, ViewCrafter, See3D, FlexWorld)的比較中,Voyager 在所有關鍵指標上均表現最優。
| 方法 | 峰值信噪比 (PSNR) ↑ | 結構相似性 (SSIM) ↑ | 感知相似性 (LPIPS) ↓ |
|---|---|---|---|
| Swerve | 16.648 | 0.613 | 0.349 |
| ViewCrafter | 16.512 | 0.636 | 0.332 |
| See3D | 18.189 | 0.694 | 0.290 |
| FlexWorld | 18.278 | 0.693 | 0.281 |
| Voyager | 18.751 | 0.715 | 0.277 |
從數據中可以清楚看到,Voyager 的 PSNR 和 SSIM 分數最高,而 LPIPS 分數最低。這意味著它生成的影片不僅在像素層面最接近真實,在人眼和 AI 的感知中也是最逼真的。
從實際生成的影片來看,當攝影機移動幅度較大時,其他模型很難產生合理的預測,容易出現明顯的「鬼影」或細節丟失。而 Voyager 卻能有效保留輸入影像中的細節特徵,例如範例中的吊燈,生成了高度逼真的影片序列。
3D 場景重建品質比較
Voyager 的另一大優勢是能直接生成 RGB-D(彩色+深度)影片,這讓它在 3D 重建任務中佔盡先機。其他模型僅能生成彩色影片,需要額外使用 VGGT 等工具來估計深度,效果自然大打折扣。
| 方法 | 後處理 | 峰值信噪比 (PSNR) ↑ | 結構相似性 (SSIM) ↑ | 感知相似性 (LPIPS) ↓ |
|---|---|---|---|---|
| Swerve | VGGT | 15.581 | 0.602 | 0.452 |
| ViewCrafter | VGGT | 16.161 | 0.628 | 0.440 |
| See3D | VGGT | 16.764 | 0.633 | 0.440 |
| FlexWorld | VGGT | 17.623 | 0.659 | 0.425 |
| Voyager | VGGT | 17.742 | 0.712 | 0.404 |
| Voyager | - | 18.035 | 0.714 | 0.381 |
這個表格告訴我們,就算讓其他模型「作弊」,用後處理工具補上深度資訊,Voyager 的重建結果在幾何一致性上依然更出色。如果直接利用 Voyager 自帶的深度資訊(表格最後一行,後處理為"-", 表示無需處理),效果更是遙遙領先,再次證明了其原生 3D 生成能力的強大。
登頂 WorldScore:全方位的王者
最後,我們來看 WorldScore 這個綜合性的基準測試。它不只看畫質,而是從多個維度評估一個模型生成「世界」的能力。
- 相機控制: 模型是否能精準地按照指令移動視角?
- 物件控制: 場景裡的物體是否穩定,不會隨便變形或消失?
- 內容對齊: 生成的內容和原始圖片的風格、主題是否一致?
- 3D 一致性: 從不同角度看同一個物體,它的立體結構是否合理?
- 主觀品質: 最後,由真人來評分,這個世界看起來真實嗎?吸引人嗎?
| 方法 | 世界平均成績 | 相機控制 | 物件控制 | 內容對齊 | 3D 一致性 | … | 主觀品質 |
|---|---|---|---|---|---|---|---|
| WonderJourney | 63.75 | 84.6 | 37.1 | 35.54 | 80.6 | … | 66.56 |
| WonderWorld | 72.69 | 92.98 | 51.76 | 71.25 | 86.87 | … | 49.81 |
| Voyager | 77.62 | 85.95 | 66.92 | 68.92 | 81.56 | … | 71.09 |
結果一目了然,HunyuanWorld-Voyager 在「世界平均成績」和「主觀品質」上都取得了最高分,正式登頂。這充分證明,無論是技術硬指標還是人類的主觀感受,Voyager 都展現出了強大的競爭力,為 3D 內容生成領域設立了新的標竿。
總而言之,騰訊混元 Voyager 的出現,不僅僅是一個技術的突破,它更預示著未來我們與數位世界互動的方式將發生根本性的改變。從遊戲、電影製作到虛擬實境,這項技術的應用潛力無窮,一個由 AI 驅動的 3D 內容創作新時代,或許已經悄然來臨。


