Microsoftの研究チームは、40億パラメータを持つ画像対3DモデルであるTRELLIS.2を新たに発表しました。革新的なO-Voxel表現とSC-VAE技術を採用しています。この記事では、1536³の解像度でどのように高精細な生成を実現しているかを解析し、PBRマテリアルの復元と幾何学構造における画期的な進歩について探ります。
Microsoft TRELLISを覚えていますか?3D生成技術の分野において、1枚の平面画像から、正確な幾何学構造とリアルな質感を兼ね備えた立体モデルを導き出すことは、開発者にとって常に大きな課題でした。Microsoftの研究チームは、清華大学や中国科学技術大学などの機関と協力し、正式に TRELLIS.2 を発表しました。これは単なるバージョン番号の更新ではありません。40億パラメータ(4B)を持つこのオープンソースモデルは、全く新しい技術アーキテクチャを通じて、過去の3D生成におけるディテールの欠落やテクスチャのぼやけといった問題点を解決しようとしています。
TRELLIS.2の中核となる利点は、効率と高画質のバランスにあります。最大1536³の解像度を持つPBR(Physically Based Rendering、物理ベースレンダリング)テクスチャアセットを生成でき、有機的な生物からハードサーフェスの機械まで、様々な複雑なシーンに適用可能です。
核となるブレークスルー:平面から立体へのネイティブな構造化潜在空間
TRELLIS.2の最大のハイライトは、その「ネイティブ」な3D処理能力にあります。市場に出回っている多くのモデルは、3Dの問題を多視点画像の生成と貼り合わせに単純化する傾向がありますが、TRELLIS.2はより根本的なパスを選択しました。それは、ネイティブな3D変分オートエンコーダ(3D VAEs)の構築です。
このアーキテクチャは、16倍の空間圧縮技術を利用して、複雑な3D情報をコンパクトな潜在空間(Latent Space)にエンコードします。これは、モデルが計算を行う際、より少ないリソース消費で、より膨大な幾何学情報とテクスチャ情報を処理できることを意味します。開発者にとっては、生成効率と最終的なアセットの拡張性の間で、満足のいくバランスポイントを得られることを表しています。
O-Voxel 技術:幾何学と外観の同時かつ正確なエンコーディング
生成された3Dモデルが単に「形が似ている」だけでなく、「質感がリアル」であるようにするために、TRELLIS.2は O-Voxel (Omni-Voxel) と呼ばれる新しい表現形式を導入しました。これはフィールドフリー(field-free)なスパースボクセル構造であり、幾何学的形状と複雑な外観のエンコーディング問題を同時に解決するために設計されました。
O-Voxelは2つの重要な部分に分かれて機能します:
- 幾何学レベル (Geometry): 柔軟なデュアルグリッド(Dual Grids)表現を採用しています。この技術により、モデルは穴のある機械部品であれ、なびく衣服のひだであれ、任意のトポロジー構造を処理でき、エッジの鋭さを保ちながら正確に捉えることができます。
- 外観レベル (Appearance): これは、多くの画像対3Dモデルが見落としがちな部分です。O-Voxelは、ベースカラー(Base Color)、メタリック(Metallic)、ラフネス(Roughness)、透明度(Alpha)を含む完全なPBR属性をサポートしています。
つまり、ユーザーが錆びた金属製の機械の画像を入力すると、生成される3Dモデルは単なる灰色の塊ではなく、金属特有の反射や錆のザラザラした質感を表現できるということです。
SC-VAE:極限の圧縮がもたらす高効率生成
高解像度の3Dデータを扱う際、データ量はしばしば最大のボトルネックとなります。TRELLIS.2は、この問題を解決するために スパース圧縮3D VAE (SC-VAE) を提案しました。これはスパース残差オートエンコーディングスキーム(Sparse Residual Autoencoding scheme)を採用し、ボクセルデータを直接圧縮します。
データによると、この技術は16倍のダウンサンプリング(Downsampling)を実現し、1024³の複雑なアセットをわずか約9600個の潜在トークン(Latent Tokens)に圧縮します。この極限の圧縮率は2つの利点をもたらします:
- 知覚的ロスレス: データは大幅に圧縮されますが、デコード後の3Dアセットは視覚的な知覚においてディテールの損失がほとんどありません。
- 大規模生成: トークン数が極めて少ないため、Transformerを利用した大規模な生成モデリングが可能になり、計算のハードルが大幅に下がります。
多様な応用シーン:有機的な生物から精密機械まで
TRELLIS.2 公式ショーケースの事例を観察すると、このモデルの汎化能力が極めて高いことがわかります。特定の種類の物体に限定されることなく、全く異なる幾何学的特徴を持つ様々な物体を処理できます:
- 有機体とキャラクター (Organic & Character): 人物の彫像やファンタジーの生き物など、モデルは筋肉のラインや毛並みのおおよその流れを捉えることができます。
- ハードサーフェスと内部構造 (Hard Surface & Interior): 機械エンジンや家具などの物体に対して、モデルは鋭いエッジを生成でき、特定の透視構造においては内部構造への理解さえ示します。
- 薄壁の幾何学と透明マテリアル (Thin Geometry & Transparent): これは従来の3Dスキャンや生成の鬼門でしたが、TRELLIS.2は昆虫の羽やガラス器具などの物体を処理する際、驚くべき安定性を示しています。
TRELLIS.2 の入手方法と使用方法
Microsoftは今回、非常にオープンな姿勢をとり、TRELLIS.2をオープンソースの研究プロジェクトとして公開しました。この技術を試してみたい開発者や3Dアーティストは、以下のチャネルを通じてリソースを入手できます:
- モデルのダウンロード: 完全な40億パラメータのモデルウェイトが Hugging Face モデルページ にアップロードされています。
- オンラインデモ: ローカルにデプロイしたくない場合は、Hugging Face Spaces Demo にアクセスしてオンラインでテストできます。画像をアップロードするだけで生成可能です。
- コードベース: 関連する推論コードと技術詳細はGitHubでホストされており、研究者が二次開発を行うのに便利です。
このツールの登場は、ゲーム開発、映像のプリビジュアライゼーション、VR/ARコンテンツクリエイターにとって、間違いなく強力な補助ツールとなり、コンセプトアートから3Dラフモデルまでの制作時間を大幅に短縮するでしょう。
よくある質問 (FAQ)
Q1:TRELLIS.2は無料ですか?商用利用は可能ですか? TRELLIS.2はオープンソースの研究プロジェクトです。公開ページの免責事項によると、提供される資料は学術および研究目的のみを対象としており、商用開発や利用を意図していません。ユーザーが商用製品への統合を希望する場合は、具体的なオープンソースライセンス条項を注意深く読むか、Microsoftの関連部門に問い合わせることをお勧めします。
Q2:この40億パラメータのモデルを実行するにはどのようなハードウェア構成が必要ですか? 公式には最低ハードウェア要件は記載されていませんが、これが4Bパラメータのモデルであり、3Dボクセル計算を伴うことを考慮すると、推論プロセスをスムーズにし、高解像度のテクスチャ生成を処理するために、NVIDIA RTX 3090または4090クラスのグラフィックカードなど、大容量のVRAM(ビデオメモリ)を搭載したGPUを推奨します。
Q3:TRELLIS.2は以前の3D生成モデルと何が違いますか? 最大の違いは、その「ネイティブ3D VAE」アーキテクチャと「O-Voxel」表現にあります。多くのモデルはNeRFや単純なメッシュ変形に基づいており、テクスチャがぼやけたり、幾何学形状が不正確になったりしがちです。TRELLIS.2は、幾何学とPBRマテリアルを同時にスパースなボクセル空間にエンコードすることで、より高い解像度(1536³)とよりリアルな物理マテリアル表現を実現しています。
Q4:どんな画像でも入力して生成できますか? はい、TRELLIS.2は汎用的な画像対3Dモデルとして設計されています。詳細な物体の写真、イラスト、設計図など、様々なタイプの入力をサポートしています。ただし、入力画像の鮮明さと被写体の完全性は、生成される3Dモデルの品質に直接影響します。背景がきれいで、視点が明確な画像が通常、最高の結果をもたらします。


