Tencentは、最新のHunyuan World ModelであるVoyagerを正式にオープンソース化しました。このモデルは、WorldScoreベンチマークテストで1位を獲得しただけでなく、1枚の画像から世界の一貫性を持つ3Dポイントクラウドビデオを生成し、ユーザーが没入感を持って探索できるようにします。この技術はどれほど魔法のようなものなのでしょうか?見てみましょう。
AIに1枚の写真を渡すだけで、完全な3D世界を構築してくれる、そんな世界を自由に「歩き回って」探索できると想像してみてください。これはSF映画のようですが、Tencentが新たにオープンソース化した「HunyuanWorld-Voyager」は、それを現実にしています。
このモデルは単なるおもちゃではありません。業界初のネイティブ3D再構築をサポートするワールドモデルであり、権威あるWorldScoreベンチマークテストで総合1位にランクされています。さらに驚くべきことに、ポイントクラウドビデオを直接出力でき、3Dアプリケーション、ゲーム開発、バーチャルリアリティに全く新しい可能性を開きます。
ご自身で体験したい場合は、オンラインデモが利用可能で、技術愛好家はGitHubですべてのオープンソースデータを見つけることができます。
この魔法のような技術はどのようにして実現されたのか?
多くの人が、Voyagerが静止画像から動的な3D世界をどのように変換するのか疑問に思うかもしれません。実際、舞台裏では2つの重要なコアコンポーネントが機能しています。
1. 世界と一致したビデオ拡散技術
まず、Voyagerは、正確にキャリブレーションされたカラービデオ(RGB)と深度ビデオシーケンスを同時に生成できる統一されたアーキテクチャを採用しています。これはどういう意味でしょうか?簡単に言うと、表示されるシーンを「描く」だけでなく、シーン内の各オブジェクトの距離を同時に「理解」します。これにより、この仮想世界を移動する際に、すべてのオブジェクトの位置とスケールが正しく保たれ、奇妙な歪みや反りが発生せず、グローバルなシーンの一貫性が保証されます。
2. 長距離の世界探査能力
単一のシーンだけでは不十分です。「世界」を創造するには、常に拡張する必要があります。Voyagerは、効率的な「世界バックアップメカニズム」を提案しています。このメカニズムは、AIに超強力なメモリを搭載するようなもので、ポイントクラウドのクリーニングと自己回帰推論機能を融合して、生成されたシーンのすべての詳細を記憶します。
これにより、さらに遠くを探索する必要がある場合、AIはこのメモリに基づいてシーンを反復的に外側に拡張できます。グローバルな認知技術を通じて、古いシーンと新しいシーンの間にシームレスな接続が保証され、非常に滑らかなビデオが作成されます。
成功の裏側:巨大なデータトレーニングエンジン
このような強力なAIモデルをトレーニングするには、膨大な量のデータが必要です。この目的のために、Tencentチームはスケーラブルなデータ構築エンジンを構築しました。
このエンジンは非常にインテリジェントです。入力されたビデオのカメラ位置、ポーズ、深度情報を完全に自動で推定し、手動での注釈付けの必要性を完全に排除します。これにより効率が大幅に向上し、大規模で高品質なトレーニングデータの構築が可能になります。Voyagerはこのエンジンに基づいており、現実世界でキャプチャされたビデオとUnreal Engineでレンダリングされたリソースを統合して、10万を超えるビデオクリップを含む巨大なデータセットを作成しました。
仮想世界の品質を客観的に評価する方法は?
これらすべてを踏まえて、Voyagerによって生成された世界が本当に「良い」ものであり、単に見栄えが良いだけのものではないことをどのようにして知ることができるのでしょうか?これには、いくつかの客観的な評価基準が必要です。次の表には、いくつかの専門用語が表示されます。心配しないでください、それらは実際には理解しやすいものです。
ビデオ/画質を測定するための3つの主要な指標
AIがビデオを生成する場合、それを「本物の」ビデオと比較する必要があります。この目的のために、次の3つの指標が使用されます。
- ピーク信号対雑音比(PSNR)↑: これを「ピクセルレベルの比較」と考えることができます。生成された画像と実際の画像の各ピクセルを1つずつ比較します。スコアが高いほど(矢印↑は高いほど良いことを意味します)、2つの画像のピクセル差が小さくなり、歪みが少なくなります。
- 構造的類似性(SSIM)↑: この指標はPSNRよりも一歩進んでいます。ピクセルだけでなく、明るさ、コントラスト、オブジェクトのエッジなど、人間の目が見る「構造」にもっと関心があります。SSIMスコアが高いほど(↑)、人間の目には元の画像に似ているように感じられます。
- 学習済み知覚的画像パッチ類似性(LPIPS)↓: これは「最も賢い」指標です。別のニューラルネットワークを使用して人間の視覚知覚を模倣し、2つの画像の類似性を判断します。人間の目には敏感ですが、従来の指標では見過ごされる可能性のある微妙な違いを捉えるのに優れています。したがって、このスコアは低いほど良く(矢印↓)、AIの目には2つの画像の「感じ」が近いことを意味します。
さて、この知識を持ってVoyagerのパフォーマンスを見てみましょう。
論より証拠:パフォーマンス比較
ビデオ生成品質の比較
他の4つのオープンソースモデル(Swerve、ViewCrafter、See3D、FlexWorld)との比較では、Voyagerはすべての主要な指標で最高のパフォーマンスを示しました。
| 手法 | ピーク信号対雑音比(PSNR)↑ | 構造的類似性(SSIM)↑ | 学習済み知覚的画像パッチ類似性(LPIPS)↓ |
|---|---|---|---|
| Swerve | 16.648 | 0.613 | 0.349 |
| ViewCrafter | 16.512 | 0.636 | 0.332 |
| See3D | 18.189 | 0.694 | 0.290 |
| FlexWorld | 18.278 | 0.693 | 0.281 |
| Voyager | 18.751 | 0.715 | 0.277 |
データから、Voyagerが最高のPSNRおよびSSIMスコアと最低のLPIPSスコアを持っていることは明らかです。これは、生成されたビデオがピクセルレベルで現実に最も近いだけでなく、人間の目とAIの知覚においても最も現実的であることを意味します。
実際に生成されたビデオから、カメラが大幅に移動すると、他のモデルは合理的な予測を生成するのが難しく、しばしば明らかな「ゴースト」や詳細の損失が発生します。一方、Voyagerは、例のシャンデリアなど、入力画像の詳細な特徴を効果的に保持し、非常にリアルなビデオシーケンスを生成できます。
3Dシーン再構築品質の比較
Voyagerのもう1つの大きな利点は、RGB-D(カラー+深度)ビデオを直接生成できることであり、これにより3D再構築タスクで大きな利点が得られます。他のモデルはカラービデオしか生成できず、深度を推定するためにVGGTなどの追加ツールが必要であり、当然結果が損なわれます。
| 手法 | 後処理 | ピーク信号対雑音比(PSNR)↑ | 構造的類似性(SSIM)↑ | 学習済み知覚的画像パッチ類似性(LPIPS)↓ |
|---|---|---|---|---|
| Swerve | VGGT | 15.581 | 0.602 | 0.452 |
| ViewCrafter | VGGT | 16.161 | 0.628 | 0.440 |
| See3D | VGGT | 16.764 | 0.633 | 0.440 |
| FlexWorld | VGGT | 17.623 | 0.659 | 0.425 |
| Voyager | VGGT | 17.742 | 0.712 | 0.404 |
| Voyager | - | 18.035 | 0.714 | 0.381 |
この表は、後処理ツールを使用して深度情報を追加して他のモデルに「不正行為」をさせたとしても、Voyagerの再構築結果は幾何学的な一貫性の点で依然として優れていることを示しています。Voyager独自の深度情報を直接使用すると(表の最後の行、後処理は「-」、つまり処理は不要)、結果ははるかに優れており、ネイティブ3D生成機能の能力を改めて証明しています。
WorldScoreの頂点へ:オールラウンドチャンピオン
最後に、包括的なWorldScoreベンチマークを見てみましょう。画質だけでなく、モデルが「世界」を生成する能力を複数の側面から評価します。
- カメラ制御: モデルは指示に従って視点を正確に移動できますか?
- オブジェクト制御: シーン内のオブジェクトは安定しており、ランダムに変形したり消えたりしませんか?
- コンテンツの整合性: 生成されたコンテンツのスタイルとテーマは元の画像と一致していますか?
- 3D一貫性: 同じオブジェクトを異なる角度から見た場合、その3D構造は合理的ですか?
- 主観的品質: 最後に、人間が採点します。この世界はリアルに見えますか?魅力的ですか?
| 手法 | 世界平均スコア | カメラ制御 | オブジェクト制御 | コンテンツの整合性 | 3D一貫性 | … | 主観的品質 |
|---|---|---|---|---|---|---|---|
| WonderJourney | 63.75 | 84.6 | 37.1 | 35.54 | 80.6 | … | 66.56 |
| WonderWorld | 72.69 | 92.98 | 51.76 | 71.25 | 86.87 | … | 49.81 |
| Voyager | 77.62 | 85.95 | 66.92 | 68.92 | 81.56 | … | 71.09 |
結果は明らかです。HunyuanWorld-Voyagerは、「世界平均スコア」と「主観的品質」の両方で最高のスコアを達成し、正式にトップの座を獲得しました。これは、Voyagerが技術的なハードメトリックと人間の主観的知覚の両方で強力な競争力を発揮し、3Dコンテンツ生成の分野で新しいベンチマークを確立したことを完全に示しています。
結論として、Tencent Hunyuan Voyagerの出現は、単なる技術的なブレークスルーではありません。それはまた、将来私たちがデジタル世界と対話する方法の根本的な変化を告げるものでもあります。ゲームや映画製作からバーチャルリアリティまで、この技術の応用可能性は無限です。AI主導の3Dコンテンツ作成の新時代が、すでに静かに到来しているのかもしれません。


