微軟 TRELLIS.2 開源登場：40 億參數模型如何重新定義單圖轉 3D 的高畫質標準

微軟研究團隊最新發布了 TRELLIS.2，這是一款擁有 40 億參數的圖片轉 3D 模型，採用創新的 O-Voxel 表徵與 SC-VAE 技術。本文將解析其如何實現 1536³ 解析度的高精細度生成，並探討其在 PBR 材質還原與幾何結構上的突破。

還記得在Microsoft TRELLIS嗎? 3D 生成技術的領域中，如何從一張平面圖片推導出既有精確幾何結構、又具備真實材質感的立體模型，一直是開發者面臨的巨大挑戰。微軟研究團隊與清華大學、中國科學技術大學等機構合作，正式推出了 TRELLIS.2。這不僅僅是一個版本號的更新，這款擁有 40 億參數（4B）的開源模型，正試圖通過全新的技術架構，解決過往 3D 生成中細節丟失與材質模糊的痛點。

TRELLIS.2 的核心優勢在於其高效與高畫質的平衡，它能夠生成高達 1536³ 解析度的 PBR（Physically Based Rendering，物理基礎渲染）紋理資產，且適用於從有機生物到硬表面機械等多種複雜場景。

核心突破：從平面到立體的原生結構化潛在空間

TRELLIS.2 的最大亮點在於其「原生」的 3D 處理能力。市面上許多模型傾向於將 3D 問題簡化為多視角圖像生成的拼接，而 TRELLIS.2 選擇了一條更為根本的路徑：構建原生的 3D 變分自編碼器（3D VAEs）。

這種架構利用了 16 倍的空間壓縮技術，將複雜的 3D 資訊編碼為緊湊的潛在空間（Latent Space）。這意味著模型在運算時，能夠以更低的資源消耗，處理更龐大的幾何與紋理資訊。對於開發者而言，這代表著在生成效率與最終資產的可擴展性之間，取得了一個令人滿意的平衡點。

O-Voxel 技術：幾何與外觀的同步精準編碼

為了讓生成的 3D 模型不再只是「形狀像」而是「質感真」，TRELLIS.2 引入了一種名為 O-Voxel (Omni-Voxel) 的全新表徵形式。這是一種無場（field-free）的稀疏體素結構，它的設計初衷是為了同時解決幾何形狀與複雜外觀的編碼問題。

O-Voxel 分為兩個關鍵部分運作：

幾何層面 (Geometry)： 採用了靈活的雙網格（Dual Grids）表示法。這項技術讓模型能夠處理任意的拓撲結構，無論是帶有孔洞的機械零件，還是飄逸的衣物皺褶，都能在保持邊緣銳利的同時被精確捕捉。
外觀層面 (Appearance)： 這是許多單圖轉 3D 模型容易忽略的地方。O-Voxel 支援完整的 PBR 屬性，包含基礎顏色（Base Color）、金屬度（Metallic）、粗糙度（Roughness）以及透明度（Alpha）。

這意味著，當用戶輸入一張生鏽金屬機器的圖片時，生成的 3D 模型不會只是一團灰色的塊狀物，而是能呈現出金屬特有的反光與鏽跡的粗糙質感。

SC-VAE：極致壓縮帶來的高效生成

在處理高解析度 3D 數據時，數據量往往是最大的瓶頸。TRELLIS.2 提出了一種 稀疏壓縮 3D VAE (SC-VAE) 來解決這個問題。它採用稀疏殘差自動編碼方案（Sparse Residual Autoencoding scheme），直接對體素數據進行壓縮。

數據顯示，這種技術實現了 16 倍的下採樣（Downsampling），將一個 1024³ 的複雜資產壓縮至僅約 9600 個潛在標記（Latent Tokens）。這種極致的壓縮率帶來了兩個好處：

感知無損： 儘管數據被大幅壓縮，但解碼後的 3D 資產在視覺感知上幾乎沒有細節損失。
大規模生成： 極低的 token 數量使得利用 Transformer 進行大規模生成建模成為可能，大大降低了運算門檻。

多樣化應用場景：從有機生物到精密機械

觀察 TRELLIS.2 官方展示的案例，我們可以發現該模型的泛化能力極強。它不再侷限於某一類特定的物體，而是能夠處理多種截然不同的幾何特徵：

有機體與角色 (Organic & Character)： 如人物雕像、奇幻生物，模型能捕捉到肌肉線條與毛髮的大致流暢感。
硬表面與內部結構 (Hard Surface & Interior)： 針對機械引擎、家具等物體，模型能生成銳利的邊緣，甚至在某些透視結構中展現出對內部構造的理解。
薄壁幾何與透明材質 (Thin Geometry & Transparent)： 這是傳統 3D 掃描或生成的死穴，但 TRELLIS.2 在處理如昆蟲翅膀、玻璃器皿等物件時，展現了驚人的穩定性。

如何獲取與使用 TRELLIS.2

微軟此次採取了相當開放的態度，將 TRELLIS.2 作為一個開源研究項目發布。對於想要嘗試這項技術的開發者或 3D 藝術家，可以透過以下渠道獲取資源：

模型下載： 完整的 40 億參數模型權重已上傳至 Hugging Face 模型頁面。
線上試玩： 如果不想在本地部署，可以直接訪問 Hugging Face Spaces Demo 進行線上測試，只需上傳一張圖片即可生成。
程式碼庫： 相關的推理代碼與技術細節託管於 GitHub，方便研究人員進行二次開發。

這項工具的出現，對於遊戲開發、影視前期預覽以及 VR/AR 內容創作者來說，無疑是一個強有力的輔助工具，它大幅縮短了從概念圖到 3D 草模的製作時間。

常見問題解答 (FAQ)

Q1：TRELLIS.2 是免費的嗎？可以用於商業用途嗎？ TRELLIS.2 是一個開源的研究項目。根據其發布頁面的免責聲明，提供的材料僅供學術和研究目的使用，不打算用於商業開發或利用。如果使用者希望將其整合至商業產品中，建議仔細閱讀其具體的開源授權條款或聯繫微軟相關部門。

Q2：運行這個 40 億參數的模型需要什麼樣的硬體配置？ 雖然官方尚未列出最低硬體需求，但考慮到這是一個 4B 參數的模型且涉及 3D 體素運算，通常建議配備具有較大 VRAM（視訊記憶體）的 GPU，例如 NVIDIA RTX 3090 或 4090 等級的顯卡，以確保推理過程順暢並能處理高解析度的紋理生成。

Q3：TRELLIS.2 與之前的 3D 生成模型有何不同？ 最大的區別在於其「原生 3D VAE」架構與「O-Voxel」表徵。許多模型是基於 NeRF 或單純的網格變形，往往導致紋理模糊或幾何不精確。TRELLIS.2 通過將幾何與 PBR 材質同時編碼進一個稀疏的體素空間，實現了更高的解析度（1536³）和更真實的物理材質表現。

Q4：我可以輸入任何圖片進行生成嗎？ 是的，TRELLIS.2 設計為通用的圖像轉 3D 模型。它支持各種類型的輸入，包括詳細的物體照片、插畫或設計圖。不過，輸入圖片的清晰度與主體完整性會直接影響生成的 3D 模型品質。背景乾淨、視角明確的圖片通常能獲得最佳效果。

分享至:

Featured Partners

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

Recommended for You

騰 …

tool

騰訊混元新模型登場：影片秒變 3D 世界，人人都能是建模師

騰訊正式開源混元世界模型 1.1 (WorldMirror)，這項突破性技術能讓使用者在幾秒鐘內，僅用影片或多張圖片就生成專業級的 3D 場景。本文將深入探討其核心功能、技術架構，以及它如何為 3D 重建領域帶來革命性的改變。你有沒有想過，隨手拍下的一段影片，或是幾張照片，就能在眨眼之間變成一個可以自由探索的 3D 虛擬世界？聽起來像是科幻電影的情節，但現在，這已經成為現實。騰訊最近正式發布並開源了其最新的「混元世界模型 1.1」（HunyuanWorld-Mirror），在 3D 重建技術領域投下了一顆震撼彈。這個新版本在多視圖與影片輸入、單卡部署以及生成速度上都進行了重大升級，目標只有一個：將過去專屬於專業人士的 3D 重建技術，變成普通使用者也能輕鬆上手的工具。從「專業工具」到「人人可用」，3D 重建的門檻消失了？過去，要建立一個 3D 模型，往往需要昂貴的軟體、強大的硬體和數小時甚至數天的專業操作。但混元世界模型 1.1 徹底改變了這個遊戲規則。它能夠在短短幾秒內，從影片或一組圖片中，直接產生專業級的 3D 場景。這效率有多驚人？想像一下，你用手機環繞拍攝家裡的客廳，上傳影片後，幾乎是立刻就能得到一個精準的 3D 數位分身。其實，它的前身混元世界模型 1.0 在今年 7 月發布時，就已經是業界首個能與傳統電腦圖學（CG）流程兼容的開源可漫遊世界生成模型。而這次的 1.1 版本，則更進一步，實現了所謂的「多模態先驗注入」和「多任務統一輸出」，讓整個 3D 重建過程變得更加智慧和自動化。 WorldMirror 1.1 的三大核心亮點那麼，這個新模型究竟強在哪裡？簡單來說，可以歸納為三個讓人印象深刻的特性。 1. 靈活處理不同輸入，資訊越多越精準混元世界模型 1.1 最聰明的地方在於它採用了「多模態先驗引導」機制。這是什麼意思呢？簡單來說，就是模型不僅僅看圖片的像素，它還能理解並利用你提供的額外資訊，例如：相機位姿：拍攝時相機的位置和角度。相機內參：鏡頭的焦距、光學中心等參數。深度圖：影像中每個點與相機的距離。當這些資訊被「注入」模型後，產生的 3D 場景在幾何結構上會更加準確，不會出現奇怪的扭曲或變形。這就像一個畫家，不只看到了物體的樣子，還知道了物體之間的距離和透視關係，畫出來的畫自然就更逼真。 2. 通用 3D 視覺預測，一次搞定所有事傳統的 3D 重建流程通常是分步驟的，像是一條工廠生產線，每個環節處理一項任務。但混元世界模型 1.1 卻像一個全能工作站，一次就能完成所有事情。它實現了點雲、深度圖、相機參數、表面法線和新視角合成等多種 3D 幾何預測。這代表模型在一次運算中，就能同時輸出一個場景的所有關鍵 3D 屬性，展現出驚人的效能優勢。 3. 單卡部署，秒速推理速度，是混元世界模型 1.1 最令人稱道的優點之一。與傳統需要反覆運算優化的 3D 重建方法不同，它採用了純粹的「前饋架構」（feed-forward）。

Oct 23, 2025 Read →

騰 …

tool

騰訊混元 Voyager：一張照片就能生成 3D 世界？原生 3D 重建世界模型來了

騰訊正式開源了其最新的混元世界模型——Voyager。這個模型不僅能在 WorldScore 基準測試中奪冠，還能從單張圖片生成具有世界一致性的 3D 點雲影片，讓使用者能身歷其境地探索。這項技術到底有多神奇？讓我們一探究竟。想像一下，只要給 AI 一張照片，它就能為你建構出一個完整的 3D 世界，你甚至可以在裡面自由「行走」和探索。這聽起來像是科幻電影的情節，但騰訊最新開源的「混元世界模型-Voyager」 (HunyuanWorld-Voyager) 正在將這一切變為現實。這個模型可不是什麼簡單的玩具，它可是業界首個支援原生 3D 重建的世界模型，並且在權威的 WorldScore 基準測試中綜合排名第一。更厲害的是，它還能直接輸出點雲影片，為 3D 應用、遊戲開發和虛擬實境帶來了全新的可能性。如果你想親身體驗，官方也提供了線上展示，技術愛好者則可以在 GitHub 上找到所有開源資料。這魔法般的技術是怎麼做到的？大家可能會好奇，Voyager 是如何從一張靜態圖片變出一個動態的 3D 世界的？其實，這背後有兩個關鍵的核心元件在運作。 1. 世界一致的影片擴散技術首先，Voyager 採用了一種統一的架構，可以同時生成精確校準的彩色影片 (RGB) 和深度影片序列。這代表什麼呢？簡單來說，它不僅「畫」出了你看到的場景，還同時「理解」了場景中每個物件的遠近距離。這就確保了當你在這個虛擬世界中移動時，所有物體的位置和比例都是正確的，不會出現奇怪的變形或扭曲，保證了全域場景的一致性。 2. 長距離的世界探索能力光有單一場景還不夠，要創造一個「世界」，就需要不斷擴展。Voyager 提出了一種高效的「世界備份機制」。這個機制就像是為 AI 裝上了一個超強的記憶體，它會融合點雲清理和自回歸推理能力，記住已經生成的所有場景細節。這樣一來，當你需要探索更遠的地方時，AI 就能夠在這個記憶的基礎上，迭代式地向外擴展場景，並且透過全域認知技術，確保新舊場景之間能夠無縫銜接，影片看起來非常平滑。成功的背後：龐大的數據訓練引擎要訓練出如此強大的 AI 模型，背後需要海量的資料支持。為此，騰訊團隊建立了一套可擴展的數據建構引擎。這個引擎非常聰明，它能自動為任何輸入的影片估計攝影機的位置、姿態和深度資訊，完全不需要人工標註。這大大提高了效率，使得大規模、高品質的訓練數據建構成為可能。Voyager 正是基於這個引擎，整合了真實世界採集的影片和虛幻引擎 (Unreal Engine) 渲染的資源，建立了一個包含超過 10 萬個影片片段的超大規模資料集。如何客觀評估一個虛擬世界的好壞？說了這麼多，我們怎麼知道 Voyager 生成的世界是真的「好」，而不是看起來還行而已？這就需要一些客觀的評估標準了。接下來的表格中，你會看到一些專業術語，別擔心，它們其實很好理解。衡量影片/圖像品質的三大指標當 AI 生成一個影片時，我們需要將它與「真實」的影片進行比較。以下三個指標就是用來做這件事的：峰值信噪比 (PSNR) ↑：你可以把它想像成「像素級的對比」。它會逐一比較生成影像和真實影像的每個像素，分數越高（箭頭↑代表越高越好），代表兩張圖片的像素差異越小，失真度越低。結構相似性 (SSIM) ↑：這個指標比 PSNR 更進一步，它不只看像素，更關心人類眼睛看到的「結構」。例如亮度、對比度和物體邊緣。SSIM 分數越高（↑），代表人眼看起來感覺越像原始影像。感知相似性 (LPIPS) ↓：這是最「聰明」的指標。它利用另一個神經網路來模仿人類的視覺感知，判斷兩張圖片的相似度。它更能捕捉到那些人眼很敏感、但傳統指標可能會忽略的細節差異。所以，這個分數是越低越好（箭頭↓），代表在 AI 眼中，兩張圖片的「感覺」越接近。現在，我們帶著這些知識再來看 Voyager 的表現。

Sep 5, 2025 Read →

M …

tool

Matrix-3D橫空出世：單張圖片或文字，一鍵生成你的3D全景世界

厭倦了狹隘的3D場景生成？Skywork AI開源的Matrix-3D模型，透過創新的全景影片生成技術，讓你從一張圖、一句話，就能打造出可360度自由探索的宏大3D世界。一起來看看這個AI界的新寵兒有多厲害！你有沒有想過，有一天，只需要一句話、一張圖片，就能創造出一個專屬於你的、可以隨意漫遊的虛擬世界？這聽起來像是科幻電影的情節，但現在，這個夢想正被一個名為 Matrix-3D 的AI模型變為現實。最近，由 Skywork AI推出的這個開源專案在AI社群和開發者圈子裡掀起了不小的波瀾。 Matrix-3D 不是那種只能生成一張靜態圖片或一段固定視角短片的普通模型；它的目標宏大得多——直接生成一個廣闊、無死角、可供你360度自由探索的3D世界。這意味著，AI不僅僅是個繪圖工具，它正在進化成一個「世界模擬器」。不再只是「看」，而是真正「走進去」：Matrix-3D有何不同？過去，許多AI 3D生成技術就像是讓我們透過一扇小窗戶窺探一個虛擬場景。你能看到窗外的風景，但無法轉身看看背後，也無法繞到建築的另一側。生成的場景範圍有限，一旦超出預設的視角，就會出現惱人的邊界或失真，大大削弱了沉浸感。 Matrix-3D 徹底改變了這個遊戲規則。它採用了「全景」作為核心思路，目標是創造一個你可以真正「走進去」的空間。這就像是從看一張風景照，升級到戴上VR頭盔，親身在那個世界中漫步一樣。這個模型到底厲害在哪裡？主要有幾個讓人驚豔的特點：廣闊無垠的場景：和市面上現有的模型（如WorldLabs）相比，Matrix-3D能夠生成更大、更完整的虛擬環境，讓你擺脫視角束縛，實現真正的360度全向探索。超高自由度控制：它不僅支援文字和圖片輸入，還能讓你自訂攝影機的移動軌跡。想像一下，你可以像導演一樣，指揮AI生成一段沿著特定路線飛行的場景影片，然後再將它變成可以自由探索的3D空間。強大的泛用性：基於團隊自行開發的3D數據和影片模型，Matrix-3D能生成多樣化且品質極高的場景，無論是奇幻的浮空島，還是印象派風格的冬日雪景，都能信手拈來。魚與熊掌如何兼得？Matrix-3D的「雙軌制」重建魔法在3D生成領域，一直存在一個難題：生成速度和模型品質，似乎很難兩全其美。要嘛快速生成一個粗糙的模型，要嘛花費大量時間等待一個精細的作品。 Matrix-3D巧妙地用一種「雙軌制」的設計解決了這個問題，為使用者提供了兩種選擇：快狠準的「前饋重建模型」 (Feed-forward Reconstruction Model): 這可以理解為「速度優先」模式。它透過一個大型重建模型，直接從生成的全景影片中預測和還原3D屬性。這個過程非常高效，最快能在短短10秒內完成3D場景的重建。當你需要快速預覽效果或進行多次迭代時，這個模式簡直是天賜之物。精雕細琢的「優化重建管線」 (Optimization-based Pipeline): 這是「品質優先」模式。它會針對單一場景進行細緻的優化，確保模型的準確性和細節都達到最高水準。雖然耗時較長，但換來的是令人驚嘆的視覺效果和幾何準確性。打個比方，這就像是你同時擁有了一位能迅速勾勒出草圖的速寫畫家，和一位能精雕細琢的油畫大師。你可以根據自己的需求，隨時選擇最適合的工具。 AI也需要上學：Matrix-Pano數據集的幕後故事俗話說，名師出高徒。再強大的AI模型，也需要海量、高品質的數據來進行訓練。在開發Matrix-3D時，研究團隊發現了一個棘手的問題：市面上根本沒有完全符合他們需求的數據集。現有的3D數據集，要嘛規模不夠大，要嘛品質參差不齊，更重要的是，普遍缺乏像攝影機軌跡、深度圖這樣關鍵的標註資訊。怎麼辦？既然沒有，那就自己創造一個！於是，Matrix-Pano 數據集應運而生。這是一個大規模的合成全景影片數據集，包含了超過11.6萬個高品質的靜態全景影片序列。每一段影片都配有精確的3D探索軌跡、深度圖和文字註釋，堪稱是為了訓練3D世界模型而生的「教科書」。這個數據集不僅成就了Matrix-3D，它本身也成為對整個AI社群的一大貢獻。我也能玩嗎？Matrix-3D的硬體門檻與未來展望看到這裡，你肯定躍躍欲試了吧？不過，要驅動這樣一個強大的世界模型，硬體需求自然不低。根據官方公佈的資訊，目前生成480p解析度的場景需要40G的顯示卡記憶體（VRAM），而720p則需要高達60G。這對大多數普通使用者來說確實是個不小的門檻。但好消息是，Skywork AI 團隊承諾很快會釋出一個更輕量的模型版本，只需要24G VRAM（例如 NVIDIA RTX 4090 顯示卡）就能運行720p的生成任務。這意味著，不久之後，更多的開發者和創作者都能在自己的電腦上體驗創造世界的樂趣。如果你擁有合適的硬體，並且想立刻嘗試，可以前往官方的 GitHub 和 Hugging Face 頁面。官方提供了非常詳細的安裝和使用指南，甚至有一鍵生成的腳本，大大降低了上手難度。總結 Matrix-3D的開源，不僅僅是釋出了一個有趣的工具，它更像是一個宣言，宣告了AI生成內容的新時代已經來臨。它讓我們看到，AI正在從內容的生成者，轉變為環境的模擬者和世界的建構者。

Aug 14, 2025 Read →