tool

Matrix-Game 2.0が登場:世界初のオープンソース・リアルタイム対話型ワールドモデル、仮想世界体験を再構築

August 14, 2025
Updated Aug 14
1 min read

Skywork AIが発表したMatrix-Game 2.0は、世界初のオープンソース、リアルタイム、長時間対話可能なワールドモデルとして、その驚異的な性能で仮想世界の生成と対話に対する我々の想像を覆しています。このモデルは、毎秒25フレーム(FPS)の速度で高画質ビデオをリアルタイムに生成できるだけでなく、数分間の連続した対話も実現します。本稿では、Matrix-Game 2.0の中核技術、重要なブレークスルー、そしてゲーム、シミュレーション訓練、メタバースなどの分野への深い影響について掘り下げていきます。


2025年8月、人工知能の分野は大きなブレークスルーを迎えました。スタートアップ企業Skywork AIがリリースしたMatrix-Game 2.0が、全世界にオープンソースとして公開されました。これは単なる新しいモデルの登場ではなく、新しい時代の幕開けとなる可能性があります。あなたのあらゆる指示にリアルタイムで応答し、生き生きとした仮想世界を動的に生成するAIを想像してみてください。今、それが手の届くところにあります。

最近DeepMindがリリースしたもののオープンソース化されていないGenie 3モデルとは異なり、Matrix-Game 2.0は完全にオープンなルートを選択し、モデルの重みとコードリポジトリをすべて公開し、対話型ワールドモデル研究全体の進展を促進することを目指しています。この動きは、世界中の開発者や研究者にとって大きな活力となることは間違いありません。

ワールドモデルとは何か?なぜそれほど重要なのか?

Matrix-Game 2.0を深く理解する前に、まず**ワールドモデル (World Model)**という概念を明確にしておきましょう。簡単に言えば、ワールドモデルとは、世界の仕組みを理解し、シミュレートできるAIモデルのことです。単に画像を生成するだけでなく、物理法則、空間関係、因果関係を理解することができます。あなたがそれと対話すると、あなたの行動の結果を予測し、論理的な後続シーンを生成することができます。

この技術の重要性は言うまでもありません。より没入感のあるビデオゲームの作成から、自動運転やロボット工学のための効率的なシミュレーション訓練環境の提供、そして私たちが待ち望んでいる「メタバース」の構築まで、ワールドモデルは不可欠なインフラです。

Matrix-Game 2.0の3つの核心的ブレークスルー

Matrix-Game 2.0が注目を集めているのは、主に3つの重要な分野で革命的な進歩を遂げたためです。これらのブレークスルーは、既存のモデルが抱えるリアルタイム性、対話性、データ規模における多くの課題をまとめて解決します。

1. リアルタイム蒸留技術:25 FPSの滑らかな対話体験

過去のビデオ生成モデルは、多くの場合、長い計算時間を必要とし、リアルタイムの対話を実現するのは困難でした。Matrix-Game 2.0は、革新的な**「リアルタイム蒸留技術 (Real-Time Distillation)」**によって、この状況を完全に変えました。

効率的な少数ステップ拡散(few-step diffusion)メカニズムを採用し、複数の最適化戦略を組み合わせています。

  • 因果的拡散モデル蒸留 (Causal Diffusion Model Distillation): 過去のフレームを参照して新しいフレームを生成することで、シーケンスの遅延を大幅に削減しました。
  • 分布マッチング蒸留 (Distribution Matching Distillation): モデルの訓練時と実際の推論時でデータ分布を一致させることで、より安定した生成結果を得ることができます。
  • KVキャッシュメカニズム (KV Cache Mechanism): 過去の情報の重複計算を回避し、モデルが単一のGPU上で無制限の長さのビデオをスムーズに生成できるようにします。

これらの努力の結果、Matrix-Game 2.0は複雑な環境において、25 FPSの安定したフレームレートで高画質ビデオを数分間にわたって継続的に生成することができます。これは、ユーザーがシルクのように滑らかでシームレスなリアルタイム対話を享受できることを意味し、これまでにない没入感と使いやすさをもたらします。

2. 正確なアクション注入:あなたのマウスとキーボードが魔法の杖に

リアルタイム生成が基礎であるとすれば、正確な対話は魂です。Matrix-Game 2.0は、革新的な**「正確なアクション注入 (Precise Action Injection)」**モジュールを導入し、ユーザーの操作が生成されたビデオにリアルタイムかつ正確に反映されるようにしました。

この**「マウス/キーボードからフレームへ (mouse/keyboard-to-frame)」**のモジュールは、ユーザーの入力コマンド(移動、ジャンプ、視点回転など)を各フレームの生成プロセスに直接埋め込むことができます。これは、あなたがもはやビデオの受動的な視聴者ではなく、仮想世界の真の主導者であることを意味します。『グランド・セフト・オート』(GTA)風の都市を駆け抜けたり、『マインクラフト』のようなブロックの世界を探検したりする場合でも、あなたの一つ一つのアクションに対して、リアルタイムで物理的に論理的な応答が得られます。

3. 大量の対話型データパイプライン:仮想ゲームから栄養を吸収

高品質のAIモデルには、大量で質の高い訓練データが不可欠です。そのために、Skywork AIはスケーラブルなデータ生産システムを構築し、Unreal Engine (UE)と『グランド・セフト・オートV』(GTA5)という2つのトップクラスのゲームエンジンを利用して、約1200時間に及ぶ高品質の対話型ビデオデータを生成しました。

これらのデータは、リアルな映像と多様なシーンだけでなく、さらに重要なことに、各フレームに正確な対話情報が含まれています。ゲームの世界から学ぶこの方法は、Matrix-Game 2.0が複雑な物理的ダイナミクスと対話行動をより深く理解することを可能にし、その強力な生成能力の強固な基盤を築きました。

ハードウェア要件とモデル詳細

もちろん、このような強力なモデルを動かすには、それに対応するハードウェアサポートも必要です。公式データとコミュニティの議論によると、リアルタイムの対話体験を実現するための推奨ハードウェア構成は、24GBのVRAMを搭載したグラフィックカードと64GBのシステムメモリです。

Matrix-Game 2.0 (1.8B)は、18億のパラメータを持つモデルです。有名なWanXモデルをベースに派生開発され、テキストブランチを削除し、アクションモジュールを追加することで、視覚コンテンツとユーザーの行動に基づいて次のフレームを予測することに特化しています。

未来の無限の可能性:ゲームから汎用人工知能へ

Matrix-Game 2.0のオープンソース化は、開発者に強力なツールを提供するだけでなく、いくつかの最先端分野の発展に新たな扉を開きます。

  • 次世代ゲームエンジン: 開発者はこのモデルを利用して、動的で対話可能なゲーム世界を迅速に構築し、開発コストとサイクルを大幅に削減できます。
  • 身体性AI(Embodied AI)訓練: ロボットや自動運転システムに、安全で効率的、かつ低コストのシミュレーション訓練プラットフォームを提供し、AIが仮想世界で物理世界との対話を学ぶことを可能にします。
  • バーチャルヒューマンとメタバース: よりリアルで対話性の高いバーチャルアバターとバーチャル空間を創造し、メタバースの実現を加速させます。
  • 映像コンテンツ制作: 映画やアニメーションに、シーンの迅速な生成と効果のプレビューツールを提供し、コンテンツ制作プロセスを革新します。

Skywork AIのこの動きは、オープンソースとオープンサイエンスを通じて人工知能の民主化を推進するという同社の決意を強調しています。Matrix-Game 2.0のリリースにより、世界中の開発者が共同で参加し、協力して構築する次世代の仮想世界プラットフォームが加速的に到来することが予測されます。


よくある質問(FAQ)

Q1: Matrix-Game 2.0は、他のビデオ生成モデル(Sora、Genie 3など)とどう違いますか?

A1: 主な違いはリアルタイム対話性オープンソースである点です。Soraのようなモデルは、テキストプロンプトに基づいて高品質だが非対話的な短編ビデオを生成することに特化しています。DeepMindのGenie 3はリアルタイム対話を実現しましたが、オープンソースではありません。Matrix-Game 2.0は、リアルタイム、長時間対話、完全なオープンソースを組み合わせた最初のワールドモデルであり、誰でもダウンロード、使用、変更が可能です。

Q2: Matrix-Game 2.0を実行するには、どのようなコンピュータが必要ですか?

A2: リアルタイム(約25 FPS)の対話効果を得るためには、公式には少なくとも24GBのVRAMを搭載したGPUと64GBのシステムメモリを使用することが推奨されています。

Q3: Matrix-Game 2.0は、私のキーボードとマウスの操作をどのように理解するのですか?

A3: 特殊な「アクション注入モジュール」を介して、キーボードのキー押下やマウスの移動などの入力信号をモデルが理解できるデータに変換し、次のフレームを生成する際にこれらのアクションを考慮に入れることで、正確な制御を実現します。

Q4: Matrix-Game 2.0の将来の開発方向は何ですか?

A4: Skywork AIは、より高度なAIソリューションをオープンソース化することに引き続き取り組むと述べています。将来的には、モデルが物理的一貫性、シーンの汎化能力、より複雑な対話の理解において進化し続け、最終的に汎用人工知能(AGI)の発展に貢献することが期待されます。

関連リンク:

シェアする:
Featured Partners

© 2026 Communeify. All rights reserved.