智源研究院がEmu3.5を発表:Gemini 2.5に挑む、速度と性能を両立したマルチモーダルワールドモデル
智源研究院(BAAI)が発表した最新のEmu3.5をご覧ください。この強力なマルチモーダルワールドモデルは、画像生成と編集で競合を凌駕するだけでなく、革新的なDiDA技術により20倍の推論高速化を実現します。それがデジタルワールドとのインタラクションをどのように変えるかをご覧ください。
人工知能の波の中で、マルチモーダルモデルの開発は常に注目の的でした。つい最近、北京智源人工智能研究院(BAAI)は、Emu3.5という名前の大型マルチモーダルワールドモデルを正式に発表し、大きな衝撃を与えました。これは単なる技術的なアップデートではなく、未来の人間とコンピュータのインタラクションのあり方を深く予見させるものです。
Emu3.5の核心的なコンセプトは非常に直感的です。次の「視覚言語」ステップを直接予測することで、スムーズでシームレスな世界の構築とコンテンツ作成を実現します。AIがもはや受動的に命令に応答するだけでなく、先見の明のある監督のように次の展開を予測し、伏線を張ることができると想像してみてください。
1兆個以上のデータで訓練された「次のステップ」予測の達人
Emu3.5の強力さは偶然ではありません。その背後には、無数のビデオフレームとテキストからなる10兆個以上の混合視覚言語トークンという膨大な訓練データがあります。さらに特別なのは、統一された「次のトークン予測」目標を採用していることで、モデルが画像とテキストを処理する際に、同じことを考えているかのように自然に処理できることです。
それだけではありません。Emu3.5を単なる「記憶の達人」以上のものにするために、研究チームは強化学習(RL)技術も導入しました。この一手により、モデルはより優れた思考力と概念統合能力を学び、複雑なタスクに直面したときに、より賢く、より論理的に振る舞うようになりました。
DiDA技術:速度を20倍向上させる秘密兵器
AIが生成するコンテンツの速度がいつも少し遅いと感じているなら、Emu3.5がもたらす変化に驚くかもしれません。その重要な新機能の1つが、**離散拡散適応(Discrete Diffusion Adaptation、略してDiDA)**です。
これは少し複雑に聞こえるかもしれませんが、その効果は非常に直接的です。生成品質を一切犠牲にすることなく、双方向の並列予測を通じて推論速度を実に20倍も向上させます!これは何を意味するのでしょうか?以前は1分待たなければならなかった複雑な画像編集が、今ではわずか数秒で完了するかもしれません。この速度の飛躍は、リアルタイムの創作やインタラクティブなアプリケーションに全く新しい可能性を開きます。
データが物語る:Emu3.5は複数のベンチマークで傑出
もちろん、どんなモデルの発表も実力で語られなければなりません。公式に発表されたデータチャートを見ると、Emu3.5のパフォーマンスは確かに印象的です。

上の図(a)の比較では、Emu3.5(紫色のバー)は、LongText-Bench、LeX-Bench、CVTG-2Kなど、複数の画像生成・編集ベンチマークにおいて、業界トップのQwen-Image/Editモデルと遜色ない性能を発揮し、一部の項目ではそれを上回り、GPT-Image-1やGoogleのNano Bananaを大幅に上回っています。
直接対決:Google Nano Bananaに完勝
さらに興味深いのは、Emu3.5とGoogle Gemini 2.5 Flash Image(コードネーム:Nano Banana)との直接対決です。下の図(b)の勝率円グラフからわかるように、Emu3.5は4つの主要な分野すべてで優位に立っています。
- 世界探査(World Exploration): 勝率は65.5%に達します。これは、モデルが仮想環境の理解とナビゲーションに優れていることを示しています。
 - 身体操作(Embodied Manipulation): 勝率はさらに67.1%に達し、現実世界の物理的な相互作用をシミュレートする上での潜在能力を示しています。
 - 視覚的誘導(Visual Guidance): 勝率は51.5%です。
 - 視覚的物語(Visual Narrative): 勝率も半数に近く、49.2%に達します。
 
これらのデータは、Emu3.5が単なる画像生成器ではなく、動的な世界を理解し予測する上で、より深いレベルの能力を示していることを明確に示しています。
画像を生成するだけでなく、現実世界のアクターでもある
Emu3.5のもう1つの大きな特徴は、内蔵のマルチモーダル入力・出力機能です。これにより、視覚情報とテキストが混在する複雑なシーケンスを簡単に処理でき、長期的に一貫した創作が必要なタスク(例えば、物語に基づいて一連のイラストを生成するなど)や、現実世界のロボット操作にも余裕で対応できます。
これは、ロボットの行動をシミュレートする「身体操作」のようなタスクで、なぜこれほど優れたパフォーマンスを発揮するのかを説明しています。次のステップを予測できるモデルは、当然ながら優れた「アクター」になる可能性も秘めています。
将来の展望とリソース
要約すると、Emu3.5の発表は、マルチモーダルAI分野に新たな基準を打ち立てました。性能面でトップモデルと肩を並べるだけでなく、革新的なDiDA技術によって生成速度のボトルネックを解消し、同時に現実世界の相互作用をシミュレートする上で大きな可能性を示しました。
開発者や研究者にとって、これは間違いなくエキサイティングなニュースです。チームは関連リソースを公開しており、興味のある方はぜひご覧ください。
- GitHub: https://github.com/baaivision/Emu3.5
 - Hugging Face: https://huggingface.co/collections/BAAI/emu35 (現在、ページには「近日公開」と表示されており、注目に値します!)
 
よくある質問(FAQ)
Q1:Emu3.5と他のモデル(Geminiなど)との最大の違いは何ですか?
Emu3.5の最大の違いは、革新的なDiDA技術にあります。品質を犠牲にすることなく推論速度を20倍向上させることができ、これはリアルタイムアプリケーションにおいて大きな利点です。さらに、「ワールドモデル」として、その設計思想は連続的な視覚言語ステップをより良く予測することにあり、これにより長期的な創作や物理的な相互作用のシミュレーションなどのタスクでより大きな可能性を秘めています。
Q2:「ワールドモデル」とは何ですか?SFのように聞こえます。
簡単に言うと、「ワールドモデル」とは、データ内のパターンを学習するだけでなく、環境(現実世界であれ仮想世界であれ)の内部ルールや物理法則を理解しようとするAIのことです。この理解を通じて、「これをしたら次に何が起こるか」を予測することができ、これにより計画、推論、環境との相互作用において従来のモデルよりも優れています。
Q3:DiDA技術は本当にそんなにすごいのですか?
はい。AI生成の分野では、速度と品質の両立は難しいことが多いです。多くの高速化技術は、詳細の損失や完成品の品質低下につながります。DiDA技術は、高品質の出力を維持しながら20倍の高速化を実現できるため、これはエンジニアリング上の大きなブレークスルーであり、この種のモデルの実用的なシナリオを大幅に拡大します。


