tool

微軟 TRELLIS.2 開源登場:40 億參數模型如何重新定義單圖轉 3D 的高畫質標準

December 18, 2025
Updated Dec 18
1 min read

微軟研究團隊最新發布了 TRELLIS.2,這是一款擁有 40 億參數的圖片轉 3D 模型,採用創新的 O-Voxel 表徵與 SC-VAE 技術。本文將解析其如何實現 1536³ 解析度的高精細度生成,並探討其在 PBR 材質還原與幾何結構上的突破。


還記得在Microsoft TRELLIS嗎? 3D 生成技術的領域中,如何從一張平面圖片推導出既有精確幾何結構、又具備真實材質感的立體模型,一直是開發者面臨的巨大挑戰。微軟研究團隊與清華大學、中國科學技術大學等機構合作,正式推出了 TRELLIS.2。這不僅僅是一個版本號的更新,這款擁有 40 億參數(4B)的開源模型,正試圖通過全新的技術架構,解決過往 3D 生成中細節丟失與材質模糊的痛點。

TRELLIS.2 的核心優勢在於其高效與高畫質的平衡,它能夠生成高達 1536³ 解析度的 PBR(Physically Based Rendering,物理基礎渲染)紋理資產,且適用於從有機生物到硬表面機械等多種複雜場景。

核心突破:從平面到立體的原生結構化潛在空間

TRELLIS.2 的最大亮點在於其「原生」的 3D 處理能力。市面上許多模型傾向於將 3D 問題簡化為多視角圖像生成的拼接,而 TRELLIS.2 選擇了一條更為根本的路徑:構建原生的 3D 變分自編碼器(3D VAEs)。

這種架構利用了 16 倍的空間壓縮技術,將複雜的 3D 資訊編碼為緊湊的潛在空間(Latent Space)。這意味著模型在運算時,能夠以更低的資源消耗,處理更龐大的幾何與紋理資訊。對於開發者而言,這代表著在生成效率與最終資產的可擴展性之間,取得了一個令人滿意的平衡點。

O-Voxel 技術:幾何與外觀的同步精準編碼

為了讓生成的 3D 模型不再只是「形狀像」而是「質感真」,TRELLIS.2 引入了一種名為 O-Voxel (Omni-Voxel) 的全新表徵形式。這是一種無場(field-free)的稀疏體素結構,它的設計初衷是為了同時解決幾何形狀與複雜外觀的編碼問題。

O-Voxel 分為兩個關鍵部分運作:

  • 幾何層面 (Geometry): 採用了靈活的雙網格(Dual Grids)表示法。這項技術讓模型能夠處理任意的拓撲結構,無論是帶有孔洞的機械零件,還是飄逸的衣物皺褶,都能在保持邊緣銳利的同時被精確捕捉。
  • 外觀層面 (Appearance): 這是許多單圖轉 3D 模型容易忽略的地方。O-Voxel 支援完整的 PBR 屬性,包含基礎顏色(Base Color)、金屬度(Metallic)、粗糙度(Roughness)以及透明度(Alpha)。

這意味著,當用戶輸入一張生鏽金屬機器的圖片時,生成的 3D 模型不會只是一團灰色的塊狀物,而是能呈現出金屬特有的反光與鏽跡的粗糙質感。

SC-VAE:極致壓縮帶來的高效生成

在處理高解析度 3D 數據時,數據量往往是最大的瓶頸。TRELLIS.2 提出了一種 稀疏壓縮 3D VAE (SC-VAE) 來解決這個問題。它採用稀疏殘差自動編碼方案(Sparse Residual Autoencoding scheme),直接對體素數據進行壓縮。

數據顯示,這種技術實現了 16 倍的下採樣(Downsampling),將一個 1024³ 的複雜資產壓縮至僅約 9600 個潛在標記(Latent Tokens)。這種極致的壓縮率帶來了兩個好處:

  1. 感知無損: 儘管數據被大幅壓縮,但解碼後的 3D 資產在視覺感知上幾乎沒有細節損失。
  2. 大規模生成: 極低的 token 數量使得利用 Transformer 進行大規模生成建模成為可能,大大降低了運算門檻。

多樣化應用場景:從有機生物到精密機械

觀察 TRELLIS.2 官方展示 的案例,我們可以發現該模型的泛化能力極強。它不再侷限於某一類特定的物體,而是能夠處理多種截然不同的幾何特徵:

  • 有機體與角色 (Organic & Character): 如人物雕像、奇幻生物,模型能捕捉到肌肉線條與毛髮的大致流暢感。
  • 硬表面與內部結構 (Hard Surface & Interior): 針對機械引擎、家具等物體,模型能生成銳利的邊緣,甚至在某些透視結構中展現出對內部構造的理解。
  • 薄壁幾何與透明材質 (Thin Geometry & Transparent): 這是傳統 3D 掃描或生成的死穴,但 TRELLIS.2 在處理如昆蟲翅膀、玻璃器皿等物件時,展現了驚人的穩定性。

如何獲取與使用 TRELLIS.2

微軟此次採取了相當開放的態度,將 TRELLIS.2 作為一個開源研究項目發布。對於想要嘗試這項技術的開發者或 3D 藝術家,可以透過以下渠道獲取資源:

  • 模型下載: 完整的 40 億參數模型權重已上傳至 Hugging Face 模型頁面
  • 線上試玩: 如果不想在本地部署,可以直接訪問 Hugging Face Spaces Demo 進行線上測試,只需上傳一張圖片即可生成。
  • 程式碼庫: 相關的推理代碼與技術細節託管於 GitHub,方便研究人員進行二次開發。

這項工具的出現,對於遊戲開發、影視前期預覽以及 VR/AR 內容創作者來說,無疑是一個強有力的輔助工具,它大幅縮短了從概念圖到 3D 草模的製作時間。


常見問題解答 (FAQ)

Q1:TRELLIS.2 是免費的嗎?可以用於商業用途嗎? TRELLIS.2 是一個開源的研究項目。根據其發布頁面的免責聲明,提供的材料僅供學術和研究目的使用,不打算用於商業開發或利用。如果使用者希望將其整合至商業產品中,建議仔細閱讀其具體的開源授權條款或聯繫微軟相關部門。

Q2:運行這個 40 億參數的模型需要什麼樣的硬體配置? 雖然官方尚未列出最低硬體需求,但考慮到這是一個 4B 參數的模型且涉及 3D 體素運算,通常建議配備具有較大 VRAM(視訊記憶體)的 GPU,例如 NVIDIA RTX 3090 或 4090 等級的顯卡,以確保推理過程順暢並能處理高解析度的紋理生成。

Q3:TRELLIS.2 與之前的 3D 生成模型有何不同? 最大的區別在於其「原生 3D VAE」架構與「O-Voxel」表徵。許多模型是基於 NeRF 或單純的網格變形,往往導致紋理模糊或幾何不精確。TRELLIS.2 通過將幾何與 PBR 材質同時編碼進一個稀疏的體素空間,實現了更高的解析度(1536³)和更真實的物理材質表現。

Q4:我可以輸入任何圖片進行生成嗎? 是的,TRELLIS.2 設計為通用的圖像轉 3D 模型。它支持各種類型的輸入,包括詳細的物體照片、插畫或設計圖。不過,輸入圖片的清晰度與主體完整性會直接影響生成的 3D 模型品質。背景乾淨、視角明確的圖片通常能獲得最佳效果。

分享至:
Featured Partners

© 2026 Communeify. All rights reserved.