テンセントは、Hunyuan World Model 1.1 (WorldMirror)を正式にオープンソース化しました。これは、ユーザーがビデオや複数の画像を使用するだけで、プロ級の3Dシーンを数秒で生成できる画期的なテクノロジーです。この記事では、そのコア機能、技術アーキテクチャ、そして3D再構築の分野に革命をもたらす方法について詳しく説明します。
何気なく撮影したビデオや数枚の写真が、瞬く間に自由に探索できる3D仮想世界に変わることを想像したことがありますか? SF映画のような話に聞こえますが、今では現実のものとなっています。
テンセントは最近、最新の「混元世界モデル1.1」(HunyuanWorld-Mirror)を正式にリリースし、オープンソース化しました。これは3D再構築技術の分野に衝撃を与えました。この新バージョンは、マルチビューとビデオ入力、シングルカード展開、生成速度の点で大幅なアップグレードを特徴としており、かつては専門家だけのものであった3D再構築技術を、一般のユーザーでも簡単に習得できるツールにすることを目指しています。
「プロフェッショナルツール」から「誰でも使える」へ、3D再構築の壁はなくなったのか?
これまで、3Dモデルを作成するには、高価なソフトウェア、強力なハードウェア、そして数時間から数日かかる専門的な操作が必要でした。しかし、混元世界モデル1.1は、このゲームのルールを完全に変えました。ビデオや画像セットから、わずか数秒でプロ級の3Dシーンを直接生成できます。
この効率はどれほど素晴らしいのでしょうか?携帯電話でリビングルームを撮影し、ビデオをアップロードすると、ほぼ瞬時に正確な3Dデジタルツインが得られると想像してみてください。
実際、今年7月にリリースされた前身の混元世界モデル1.0は、すでに業界初のオープンソースのローミング可能な世界生成モデルであり、従来のコンピュータグラフィックス(CG)ワークフローと互換性がありました。そして、この1.1バージョンはさらに一歩進んで、いわゆる「マルチモーダル事前注入」と「マルチタスク統合出力」を実現し、3D再構築プロセス全体をよりインテリジェントで自動化されたものにしました。
WorldMirror 1.1の3つのコアハイライト
では、この新しいモデルのどこがそんなに強力なのでしょうか?簡単に言えば、3つの印象的な特徴にまとめることができます。
1. さまざまな入力を柔軟に処理し、情報が多いほど精度が向上
混元世界モデル1.1の最も賢い点は、「マルチモーダル事前ガイダンス」メカニズムを採用していることです。これはどういう意味でしょうか?簡単に言えば、モデルは画像のピクセルを見るだけでなく、次のような追加情報も理解して利用できるということです。
- カメラポーズ: 撮影中のカメラの位置と角度。
- カメラ内部パラメータ: レンズの焦点距離や光学中心などのパラメータ。
- 深度マップ: 画像内の各点とカメラとの距離。
この情報がモデルに「注入」されると、生成された3Dシーンの幾何学的構造がより正確になり、奇妙な歪みや変形が発生しなくなります。これは、物体の外観だけでなく、物体間の距離や遠近関係も知っている画家のようなもので、結果として得られる絵は当然よりリアルになります。
2. ユニバーサル3Dビジュアル予測、一度にすべてを完了
従来の3D再構築ワークフローは通常、工場の生産ラインのように各リンクが1つのタスクを処理する段階的なものでした。しかし、混元世界モデル1.1は、一度にすべてを実行できるオールインワンワークステーションのようなものです。
点群、深度マップ、カメラパラメータ、表面法線、新しいビュー合成など、複数の3D幾何学的予測を実現します。これは、モデルが1回の操作でシーンのすべての主要な3D属性を出力でき、驚くべきパフォーマンス上の利点を発揮することを示しています。
3. シングルカード展開、秒速推論
速度は、混元世界モデル1.1の最も評価の高い利点の1つです。反復的な最適化を必要とする従来の3D再構築方法とは異なり、純粋な「フィードフォワードアーキテクチャ」を使用します。
従来の方法は、作品を完成させるために絶えず彫ったり、磨いたり、磨いたりする必要がある彫刻家と考えることができます。一方、フィードフォワードアーキテクチャは、設計が入力されると完成品を直接出力できる高精度の3Dプリンターのようなものです。一般的な8〜32ビューの入力の場合、モデルは推論を完了するのにわずか1秒しかかからず、リアルタイムアプリケーションの厳しい要件を完全に満たしています。
テクノロジーの背後にある秘密:どのようにしてそれを実現したのか?
混元世界モデル1.1の強力なパフォーマンスは、その独自の技術アーキテクチャに由来します。これは、「マルチモーダル事前プロンプト」と「ユニバーサル幾何学的予測アーキテクチャ」を組み合わせ、「カリキュラム学習」と呼ばれる戦略で補完されており、複雑な実世界環境でもモデルが高い効率と正確な分析能力を維持できるようにします。
巧妙な動的注入メカニズムにより、モデルはさまざまな事前情報に柔軟に対応できます。完全なカメラパラメータを提供する場合でも、散在するいくつかの画像しかない場合でも、3D構造の一貫性と再構築品質を向上させるために最善を尽くします。
未来の3Dテクノロジーを直接体験
いろいろ言ってきましたが、自分で試してみるのが一番です。テンセントは今回、混元世界モデル1.1を完全にオープンソース化するという非常に寛大な措置を取りました。開発者でも一般ユーザーでも、その魅力を体験する機会があります。
- 開発者: GitHubプロジェクトアドレスに直接アクセスし、コードリポジトリ全体を複製してローカルに展開できます。
- 一般ユーザー: Hugging Face Spaceオンライン体験ページを使用して、マルチビュー画像やビデオを直接アップロードし、生成された3Dシーンをリアルタイムでプレビューできます。
- 詳細情報: 詳細については、プロジェクトホームページをご覧ください。
このテクノロジーのリリースは、間違いなく3D再構築の分野における大きな一歩です。将来的には、仮想現実(VR)、拡張現実(AR)、ゲーム開発、映画の特殊効果、建築設計など、すべてがこのような効率的なツールの出現により新たな発展を遂げるでしょう。誰もが3Dコンテンツを作成する時代は、そう遠くないかもしれません。


