騰訊混元 Voyager：一張照片就能生成 3D 世界？原生 3D 重建世界模型來了

騰訊正式開源了其最新的混元世界模型——Voyager。這個模型不僅能在 WorldScore 基準測試中奪冠，還能從單張圖片生成具有世界一致性的 3D 點雲影片，讓使用者能身歷其境地探索。這項技術到底有多神奇？讓我們一探究竟。

想像一下，只要給 AI 一張照片，它就能為你建構出一個完整的 3D 世界，你甚至可以在裡面自由「行走」和探索。這聽起來像是科幻電影的情節，但騰訊最新開源的「混元世界模型-Voyager」 (HunyuanWorld-Voyager) 正在將這一切變為現實。

這個模型可不是什麼簡單的玩具，它可是業界首個支援原生 3D 重建的世界模型，並且在權威的 WorldScore 基準測試中綜合排名第一。更厲害的是，它還能直接輸出點雲影片，為 3D 應用、遊戲開發和虛擬實境帶來了全新的可能性。

如果你想親身體驗，官方也提供了線上展示，技術愛好者則可以在 GitHub 上找到所有開源資料。

這魔法般的技術是怎麼做到的？

大家可能會好奇，Voyager 是如何從一張靜態圖片變出一個動態的 3D 世界的？其實，這背後有兩個關鍵的核心元件在運作。

1. 世界一致的影片擴散技術

首先，Voyager 採用了一種統一的架構，可以同時生成精確校準的彩色影片 (RGB) 和深度影片序列。這代表什麼呢？簡單來說，它不僅「畫」出了你看到的場景，還同時「理解」了場景中每個物件的遠近距離。這就確保了當你在這個虛擬世界中移動時，所有物體的位置和比例都是正確的，不會出現奇怪的變形或扭曲，保證了全域場景的一致性。

2. 長距離的世界探索能力

光有單一場景還不夠，要創造一個「世界」，就需要不斷擴展。Voyager 提出了一種高效的「世界備份機制」。這個機制就像是為 AI 裝上了一個超強的記憶體，它會融合點雲清理和自回歸推理能力，記住已經生成的所有場景細節。

這樣一來，當你需要探索更遠的地方時，AI 就能夠在這個記憶的基礎上，迭代式地向外擴展場景，並且透過全域認知技術，確保新舊場景之間能夠無縫銜接，影片看起來非常平滑。

成功的背後：龐大的數據訓練引擎

要訓練出如此強大的 AI 模型，背後需要海量的資料支持。為此，騰訊團隊建立了一套可擴展的數據建構引擎。

這個引擎非常聰明，它能自動為任何輸入的影片估計攝影機的位置、姿態和深度資訊，完全不需要人工標註。這大大提高了效率，使得大規模、高品質的訓練數據建構成為可能。Voyager 正是基於這個引擎，整合了真實世界採集的影片和虛幻引擎 (Unreal Engine) 渲染的資源，建立了一個包含超過 10 萬個影片片段的超大規模資料集。

如何客觀評估一個虛擬世界的好壞？

說了這麼多，我們怎麼知道 Voyager 生成的世界是真的「好」，而不是看起來還行而已？這就需要一些客觀的評估標準了。接下來的表格中，你會看到一些專業術語，別擔心，它們其實很好理解。

衡量影片/圖像品質的三大指標

當 AI 生成一個影片時，我們需要將它與「真實」的影片進行比較。以下三個指標就是用來做這件事的：

峰值信噪比 (PSNR) ↑： 你可以把它想像成「像素級的對比」。它會逐一比較生成影像和真實影像的每個像素，分數越高（箭頭↑代表越高越好），代表兩張圖片的像素差異越小，失真度越低。
結構相似性 (SSIM) ↑： 這個指標比 PSNR 更進一步，它不只看像素，更關心人類眼睛看到的「結構」。例如亮度、對比度和物體邊緣。SSIM 分數越高（↑），代表人眼看起來感覺越像原始影像。
感知相似性 (LPIPS) ↓： 這是最「聰明」的指標。它利用另一個神經網路來模仿人類的視覺感知，判斷兩張圖片的相似度。它更能捕捉到那些人眼很敏感、但傳統指標可能會忽略的細節差異。所以，這個分數是越低越好（箭頭↓），代表在 AI 眼中，兩張圖片的「感覺」越接近。

現在，我們帶著這些知識再來看 Voyager 的表現。

是騾子是馬，拉出來遛遛：性能大比拚

影片生成品質比較

在與其他四種開源模型（Swerve, ViewCrafter, See3D, FlexWorld）的比較中，Voyager 在所有關鍵指標上均表現最優。

方法	峰值信噪比 (PSNR) ↑	結構相似性 (SSIM) ↑	感知相似性 (LPIPS) ↓
Swerve	16.648	0.613	0.349
ViewCrafter	16.512	0.636	0.332
See3D	18.189	0.694	0.290
FlexWorld	18.278	0.693	0.281
Voyager	18.751	0.715	0.277

從數據中可以清楚看到，Voyager 的 PSNR 和 SSIM 分數最高，而 LPIPS 分數最低。這意味著它生成的影片不僅在像素層面最接近真實，在人眼和 AI 的感知中也是最逼真的。

從實際生成的影片來看，當攝影機移動幅度較大時，其他模型很難產生合理的預測，容易出現明顯的「鬼影」或細節丟失。而 Voyager 卻能有效保留輸入影像中的細節特徵，例如範例中的吊燈，生成了高度逼真的影片序列。

3D 場景重建品質比較

Voyager 的另一大優勢是能直接生成 RGB-D（彩色+深度）影片，這讓它在 3D 重建任務中佔盡先機。其他模型僅能生成彩色影片，需要額外使用 VGGT 等工具來估計深度，效果自然大打折扣。

方法	後處理	峰值信噪比 (PSNR) ↑	結構相似性 (SSIM) ↑	感知相似性 (LPIPS) ↓
Swerve	VGGT	15.581	0.602	0.452
ViewCrafter	VGGT	16.161	0.628	0.440
See3D	VGGT	16.764	0.633	0.440
FlexWorld	VGGT	17.623	0.659	0.425
Voyager	VGGT	17.742	0.712	0.404
Voyager	-	18.035	0.714	0.381

這個表格告訴我們，就算讓其他模型「作弊」，用後處理工具補上深度資訊，Voyager 的重建結果在幾何一致性上依然更出色。如果直接利用 Voyager 自帶的深度資訊（表格最後一行，後處理為"-", 表示無需處理），效果更是遙遙領先，再次證明了其原生 3D 生成能力的強大。

登頂 WorldScore：全方位的王者

最後，我們來看 WorldScore 這個綜合性的基準測試。它不只看畫質，而是從多個維度評估一個模型生成「世界」的能力。

相機控制： 模型是否能精準地按照指令移動視角？
物件控制： 場景裡的物體是否穩定，不會隨便變形或消失？
內容對齊： 生成的內容和原始圖片的風格、主題是否一致？
3D 一致性： 從不同角度看同一個物體，它的立體結構是否合理？
主觀品質： 最後，由真人來評分，這個世界看起來真實嗎？吸引人嗎？

方法	世界平均成績	相機控制	物件控制	內容對齊	3D 一致性	…	主觀品質
WonderJourney	63.75	84.6	37.1	35.54	80.6	…	66.56
WonderWorld	72.69	92.98	51.76	71.25	86.87	…	49.81
Voyager	77.62	85.95	66.92	68.92	81.56	…	71.09

結果一目了然，HunyuanWorld-Voyager 在「世界平均成績」和「主觀品質」上都取得了最高分，正式登頂。這充分證明，無論是技術硬指標還是人類的主觀感受，Voyager 都展現出了強大的競爭力，為 3D 內容生成領域設立了新的標竿。

總而言之，騰訊混元 Voyager 的出現，不僅僅是一個技術的突破，它更預示著未來我們與數位世界互動的方式將發生根本性的改變。從遊戲、電影製作到虛擬實境，這項技術的應用潛力無窮，一個由 AI 驅動的 3D 內容創作新時代，或許已經悄然來臨。

分享至:

Featured Partners

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

Recommended for You

微 …

tool

微軟 TRELLIS.2 開源登場：40 億參數模型如何重新定義單圖轉 3D 的高畫質標準

微軟研究團隊最新發布了 TRELLIS.2，這是一款擁有 40 億參數的圖片轉 3D 模型，採用創新的 O-Voxel 表徵與 SC-VAE 技術。本文將解析其如何實現 1536³ 解析度的高精細度生成，並探討其在 PBR 材質還原與幾何結構上的突破。還記得在Microsoft TRELLIS嗎? 3D 生成技術的領域中，如何從一張平面圖片推導出既有精確幾何結構、又具備真實材質感的立體模型，一直是開發者面臨的巨大挑戰。微軟研究團隊與清華大學、中國科學技術大學等機構合作，正式推出了 TRELLIS.2。這不僅僅是一個版本號的更新，這款擁有 40 億參數（4B）的開源模型，正試圖通過全新的技術架構，解決過往 3D 生成中細節丟失與材質模糊的痛點。 TRELLIS.2 的核心優勢在於其高效與高畫質的平衡，它能夠生成高達 1536³ 解析度的 PBR（Physically Based Rendering，物理基礎渲染）紋理資產，且適用於從有機生物到硬表面機械等多種複雜場景。核心突破：從平面到立體的原生結構化潛在空間 TRELLIS.2 的最大亮點在於其「原生」的 3D 處理能力。市面上許多模型傾向於將 3D 問題簡化為多視角圖像生成的拼接，而 TRELLIS.2 選擇了一條更為根本的路徑：構建原生的 3D 變分自編碼器（3D VAEs）。這種架構利用了 16 倍的空間壓縮技術，將複雜的 3D 資訊編碼為緊湊的潛在空間（Latent Space）。這意味著模型在運算時，能夠以更低的資源消耗，處理更龐大的幾何與紋理資訊。對於開發者而言，這代表著在生成效率與最終資產的可擴展性之間，取得了一個令人滿意的平衡點。 O-Voxel 技術：幾何與外觀的同步精準編碼為了讓生成的 3D 模型不再只是「形狀像」而是「質感真」，TRELLIS.2 引入了一種名為 O-Voxel (Omni-Voxel) 的全新表徵形式。這是一種無場（field-free）的稀疏體素結構，它的設計初衷是為了同時解決幾何形狀與複雜外觀的編碼問題。 O-Voxel 分為兩個關鍵部分運作：幾何層面 (Geometry)：採用了靈活的雙網格（Dual Grids）表示法。這項技術讓模型能夠處理任意的拓撲結構，無論是帶有孔洞的機械零件，還是飄逸的衣物皺褶，都能在保持邊緣銳利的同時被精確捕捉。外觀層面 (Appearance)：這是許多單圖轉 3D 模型容易忽略的地方。O-Voxel 支援完整的 PBR 屬性，包含基礎顏色（Base Color）、金屬度（Metallic）、粗糙度（Roughness）以及透明度（Alpha）。這意味著，當用戶輸入一張生鏽金屬機器的圖片時，生成的 3D 模型不會只是一團灰色的塊狀物，而是能呈現出金屬特有的反光與鏽跡的粗糙質感。

Dec 18, 2025 Read →

騰 …

tool

騰訊混元新模型登場：影片秒變 3D 世界，人人都能是建模師

騰訊正式開源混元世界模型 1.1 (WorldMirror)，這項突破性技術能讓使用者在幾秒鐘內，僅用影片或多張圖片就生成專業級的 3D 場景。本文將深入探討其核心功能、技術架構，以及它如何為 3D 重建領域帶來革命性的改變。你有沒有想過，隨手拍下的一段影片，或是幾張照片，就能在眨眼之間變成一個可以自由探索的 3D 虛擬世界？聽起來像是科幻電影的情節，但現在，這已經成為現實。騰訊最近正式發布並開源了其最新的「混元世界模型 1.1」（HunyuanWorld-Mirror），在 3D 重建技術領域投下了一顆震撼彈。這個新版本在多視圖與影片輸入、單卡部署以及生成速度上都進行了重大升級，目標只有一個：將過去專屬於專業人士的 3D 重建技術，變成普通使用者也能輕鬆上手的工具。從「專業工具」到「人人可用」，3D 重建的門檻消失了？過去，要建立一個 3D 模型，往往需要昂貴的軟體、強大的硬體和數小時甚至數天的專業操作。但混元世界模型 1.1 徹底改變了這個遊戲規則。它能夠在短短幾秒內，從影片或一組圖片中，直接產生專業級的 3D 場景。這效率有多驚人？想像一下，你用手機環繞拍攝家裡的客廳，上傳影片後，幾乎是立刻就能得到一個精準的 3D 數位分身。其實，它的前身混元世界模型 1.0 在今年 7 月發布時，就已經是業界首個能與傳統電腦圖學（CG）流程兼容的開源可漫遊世界生成模型。而這次的 1.1 版本，則更進一步，實現了所謂的「多模態先驗注入」和「多任務統一輸出」，讓整個 3D 重建過程變得更加智慧和自動化。 WorldMirror 1.1 的三大核心亮點那麼，這個新模型究竟強在哪裡？簡單來說，可以歸納為三個讓人印象深刻的特性。 1. 靈活處理不同輸入，資訊越多越精準混元世界模型 1.1 最聰明的地方在於它採用了「多模態先驗引導」機制。這是什麼意思呢？簡單來說，就是模型不僅僅看圖片的像素，它還能理解並利用你提供的額外資訊，例如：相機位姿：拍攝時相機的位置和角度。相機內參：鏡頭的焦距、光學中心等參數。深度圖：影像中每個點與相機的距離。當這些資訊被「注入」模型後，產生的 3D 場景在幾何結構上會更加準確，不會出現奇怪的扭曲或變形。這就像一個畫家，不只看到了物體的樣子，還知道了物體之間的距離和透視關係，畫出來的畫自然就更逼真。 2. 通用 3D 視覺預測，一次搞定所有事傳統的 3D 重建流程通常是分步驟的，像是一條工廠生產線，每個環節處理一項任務。但混元世界模型 1.1 卻像一個全能工作站，一次就能完成所有事情。它實現了點雲、深度圖、相機參數、表面法線和新視角合成等多種 3D 幾何預測。這代表模型在一次運算中，就能同時輸出一個場景的所有關鍵 3D 屬性，展現出驚人的效能優勢。 3. 單卡部署，秒速推理速度，是混元世界模型 1.1 最令人稱道的優點之一。與傳統需要反覆運算優化的 3D 重建方法不同，它採用了純粹的「前饋架構」（feed-forward）。

Oct 23, 2025 Read →

M …

tool

Matrix-3D橫空出世：單張圖片或文字，一鍵生成你的3D全景世界

厭倦了狹隘的3D場景生成？Skywork AI開源的Matrix-3D模型，透過創新的全景影片生成技術，讓你從一張圖、一句話，就能打造出可360度自由探索的宏大3D世界。一起來看看這個AI界的新寵兒有多厲害！你有沒有想過，有一天，只需要一句話、一張圖片，就能創造出一個專屬於你的、可以隨意漫遊的虛擬世界？這聽起來像是科幻電影的情節，但現在，這個夢想正被一個名為 Matrix-3D 的AI模型變為現實。最近，由 Skywork AI推出的這個開源專案在AI社群和開發者圈子裡掀起了不小的波瀾。 Matrix-3D 不是那種只能生成一張靜態圖片或一段固定視角短片的普通模型；它的目標宏大得多——直接生成一個廣闊、無死角、可供你360度自由探索的3D世界。這意味著，AI不僅僅是個繪圖工具，它正在進化成一個「世界模擬器」。不再只是「看」，而是真正「走進去」：Matrix-3D有何不同？過去，許多AI 3D生成技術就像是讓我們透過一扇小窗戶窺探一個虛擬場景。你能看到窗外的風景，但無法轉身看看背後，也無法繞到建築的另一側。生成的場景範圍有限，一旦超出預設的視角，就會出現惱人的邊界或失真，大大削弱了沉浸感。 Matrix-3D 徹底改變了這個遊戲規則。它採用了「全景」作為核心思路，目標是創造一個你可以真正「走進去」的空間。這就像是從看一張風景照，升級到戴上VR頭盔，親身在那個世界中漫步一樣。這個模型到底厲害在哪裡？主要有幾個讓人驚豔的特點：廣闊無垠的場景：和市面上現有的模型（如WorldLabs）相比，Matrix-3D能夠生成更大、更完整的虛擬環境，讓你擺脫視角束縛，實現真正的360度全向探索。超高自由度控制：它不僅支援文字和圖片輸入，還能讓你自訂攝影機的移動軌跡。想像一下，你可以像導演一樣，指揮AI生成一段沿著特定路線飛行的場景影片，然後再將它變成可以自由探索的3D空間。強大的泛用性：基於團隊自行開發的3D數據和影片模型，Matrix-3D能生成多樣化且品質極高的場景，無論是奇幻的浮空島，還是印象派風格的冬日雪景，都能信手拈來。魚與熊掌如何兼得？Matrix-3D的「雙軌制」重建魔法在3D生成領域，一直存在一個難題：生成速度和模型品質，似乎很難兩全其美。要嘛快速生成一個粗糙的模型，要嘛花費大量時間等待一個精細的作品。 Matrix-3D巧妙地用一種「雙軌制」的設計解決了這個問題，為使用者提供了兩種選擇：快狠準的「前饋重建模型」 (Feed-forward Reconstruction Model): 這可以理解為「速度優先」模式。它透過一個大型重建模型，直接從生成的全景影片中預測和還原3D屬性。這個過程非常高效，最快能在短短10秒內完成3D場景的重建。當你需要快速預覽效果或進行多次迭代時，這個模式簡直是天賜之物。精雕細琢的「優化重建管線」 (Optimization-based Pipeline): 這是「品質優先」模式。它會針對單一場景進行細緻的優化，確保模型的準確性和細節都達到最高水準。雖然耗時較長，但換來的是令人驚嘆的視覺效果和幾何準確性。打個比方，這就像是你同時擁有了一位能迅速勾勒出草圖的速寫畫家，和一位能精雕細琢的油畫大師。你可以根據自己的需求，隨時選擇最適合的工具。 AI也需要上學：Matrix-Pano數據集的幕後故事俗話說，名師出高徒。再強大的AI模型，也需要海量、高品質的數據來進行訓練。在開發Matrix-3D時，研究團隊發現了一個棘手的問題：市面上根本沒有完全符合他們需求的數據集。現有的3D數據集，要嘛規模不夠大，要嘛品質參差不齊，更重要的是，普遍缺乏像攝影機軌跡、深度圖這樣關鍵的標註資訊。怎麼辦？既然沒有，那就自己創造一個！於是，Matrix-Pano 數據集應運而生。這是一個大規模的合成全景影片數據集，包含了超過11.6萬個高品質的靜態全景影片序列。每一段影片都配有精確的3D探索軌跡、深度圖和文字註釋，堪稱是為了訓練3D世界模型而生的「教科書」。這個數據集不僅成就了Matrix-3D，它本身也成為對整個AI社群的一大貢獻。我也能玩嗎？Matrix-3D的硬體門檻與未來展望看到這裡，你肯定躍躍欲試了吧？不過，要驅動這樣一個強大的世界模型，硬體需求自然不低。根據官方公佈的資訊，目前生成480p解析度的場景需要40G的顯示卡記憶體（VRAM），而720p則需要高達60G。這對大多數普通使用者來說確實是個不小的門檻。但好消息是，Skywork AI 團隊承諾很快會釋出一個更輕量的模型版本，只需要24G VRAM（例如 NVIDIA RTX 4090 顯示卡）就能運行720p的生成任務。這意味著，不久之後，更多的開發者和創作者都能在自己的電腦上體驗創造世界的樂趣。如果你擁有合適的硬體，並且想立刻嘗試，可以前往官方的 GitHub 和 Hugging Face 頁面。官方提供了非常詳細的安裝和使用指南，甚至有一鍵生成的腳本，大大降低了上手難度。總結 Matrix-3D的開源，不僅僅是釋出了一個有趣的工具，它更像是一個宣言，宣告了AI生成內容的新時代已經來臨。它讓我們看到，AI正在從內容的生成者，轉變為環境的模擬者和世界的建構者。

Aug 14, 2025 Read →