Metaの最新AIデュオ：SAM 3とSAM 3Dは、コンピューターが現実世界を理解するのをどのように助けるか

SAM 2のリリースから1年以上が経ち、Metaは次世代のビジョンモデルであるSAM 3とSAM 3Dを同時に発表しました。前者は指示を理解し、動画内の物体を正確に追跡でき、後者は平面写真を瞬時に立体モデルに変換できます。この2つの技術の組み合わせは、画像編集のロジックを変えるだけでなく、コンピュータビジョンを「認識」から「空間理解」へと進化させます。本稿では、これら2つの主要モデルの技術的コア、実際の応用、そしてそれらが私たちのデジタルライフをどのように変えているかをご紹介します。

携帯電話で芝生を駆け回るペットの犬の動画を撮影していると想像してみてください。以前は、動画から犬だけを「切り抜いて」特殊効果を加えるには、フレームごとに編集するか、あまり賢くない自動選択ツールに頼る必要がありました。

しかし今、状況は全く異なります。

Metaは先ほど、2つの大きなアップデートを発表しました：SAM 3 (Segment Anything Model 3) と SAM 3Dです。これは単なるバージョン番号の更新ではなく、質的な飛躍です。以前のAIが図を認識することを学んだばかりの子供のようだったとすれば、現在のSAM 3は大人の指示を理解することを学び、記憶力さえ備え、SAM 3Dはそれに空間感覚を与え、物体が3次元世界でどのように見えるかを知っています。

これら2つの技術は、クリエイターが動画を編集する方法や、私たちがオンラインで買い物したり世界を見たりする体験を静かに変えつつあります。この2つのパズルのピースを組み合わせて、Metaが一体どんな素晴らしい料理を出してくれたのか見てみましょう。

SAM 3：人間の言葉を理解する視覚の達人

まずSAM 3から始めましょう。その前身であるSAM 1とSAM 2はすでに「何でも分割できる」能力を証明していましたが、SAM 3はより賢く、より直感的になりました。

最も明らかな進化はコミュニケーション方法にあります。以前は、何を選択するかをAIに教えるために、あちこちクリックしたり、ボックスを描いたりする必要があったかもしれません。今は？「あのペンギンを選択」または「赤い服を着ているすべての人をハイライト」とタイプするだけです。SAM 3はオープンボキャブラリー（Open Vocabulary）の理解能力を導入しました。これは、あなたのテキスト指示と目の前の画面を結びつけることができることを意味します。

それに加え、動画処理におけるパフォーマンスも印象的です。動画で最も厄介なのは、物体が動いたり、向きを変えたり、さらには遮蔽されてから再び現れたりすることです。SAM 3は記憶メカニズムを継続・強化しており、たとえあのペンギンが氷山の後ろに泳いで行ってから再び現れても、AIはそれが同じペンギンであると認識し、見失うことはありません。これは、Instagramでショートビデオを作成している人々にとって、間違いなく朗報です。Metaは、この技術をInstagramの「Edits」機能に統合し、モバイルでの編集を魔法のように簡単にする計画さえ立てています。

SAM 3D：平面から立体空間へジャンプ

SAM 3が物事を「はっきり見る」役割を担っているとすれば、SAM 3Dは物事を「再構築する」役割を担っています。

長い間、単一の2D写真から3Dモデルを復元することは、コンピュータビジョン分野の聖杯でした。以前のモデルのほとんどは、コンピュータで描かれた完璧な3Dモデルを使ってAIを教える、つまり合成データで訓練されていました。しかし、現実世界は乱雑で、照明は不均一で、物体は互いに遮蔽し合っています。

SAM 3Dのブレークスルーは、大量の現実世界の画像を学習したことにあります。これには2つの専用モデルが含まれています：

SAM 3D Objects： 椅子、靴、テーブルランプなどの物体を専門に扱います。
SAM 3D Body： 人間の複雑な四肢の動きを専門に扱います。

これは、Facebook Marketplaceで中古の椅子の写真を見たとき、この技術がシステムの椅子の立体構造を理解するのに役立つことを意味します。「View in Room」機能を使えば、この仮想的に復元された椅子を自宅の居間の写真に配置して、スタイルが合うかどうかを確認することさえできます。これはもはや単純な貼り付けではなく、遠近法を考慮した空間シミュレーションです。

SAM 3がSAM 3Dに出会うとき：強力な連携の統一アーキテクチャ

この2つの発表は偶然ではなく、実際には相互補完的です。

ストリートダンスの動画を撮ったシーンを想像してみてください：

まず、SAM 3が登場します。あなたは「白いTシャツのダンサーを追跡」という指示を入力します。SAM 3は、彼がどのようにジャンプしたり回転したりしても、複雑な背景からダンサーを正確に分離します。
次に、SAM 3Dが引き継ぎます。SAM 3が選択した画像を分析し、ダンサーの3Dスケルトンと体形を計算します。

この背後にある技術アーキテクチャは非常に巧妙です。Metaは、MHR (Meta Momentum Human Rig) と呼ばれる新しいフォーマットを使用して人体モデルを処理します。これは、「骨格構造」と「筋肉と皮膚」を賢く分離して計算します。これにより、生成された3Dキャラクターの動きがより自然になり、ゴム人間のようなくねくねした奇妙な歪みが生じなくなります。

さらに、これらのモデルをより現実に即したものにするために、Metaは巨大なデータエンジンを構築しました。彼らは単に計算能力だけで勝負するのではなく、人間のフィードバックメカニズムを導入しました。AIがいくつかの可能な3D形状を生成したとき、人間がどれが最も本物に近いかを判断し、AIがどうしても解決できない難問に遭遇した場合にのみ、プロの3Dアーティストに修正を依頼します。この「人間と機械の協調」によるトレーニング方法は、モデルが人間の視覚的な常識を迅速に学習することを可能にしました。

現実的な考慮事項：完璧ではない

これらの機能は夢のように聞こえますが、私たちは客観的でなければなりません。現在の技術にはまだ物理的な制限があります。

SAM 3Dを例にとると、非常に細かい物体を処理する際の解像度はまだ改善の余地があります。複雑な彫刻が施されたアンティークを復元したい場合、現在のモデルでは大まかな形しか復元できず、細部は少しぼやけて見えるかもしれません。

もう一つの課題は物理的な相互作用です。現在のSAM 3D Objectsは一度に一つの物体に集中して処理します。写真に雑然と積み重なった物体の山がある場合、AIはそれらが互いに押し合ったり、力を受けたりする物理的な状態を理解するのが難しいです。形は見えますが、重さや素材の物理的特性はまだ理解していません。

SAM 3D Bodyについては、全身の動きは非常に正確に捉えられますが、手の細部を処理する際にはまだ苦労しています。結局のところ、指の動きは非常に柔軟で多様であり、専門の手の追跡装置でさえも間違えることがあるのですから、単一の写真に頼るとなおさらです。

結論

SAM 3とSAM 3Dの同時登場は、AIビジョン分野におけるMetaの野心を示しています。彼らはコンピュータにピクセルを「見せる」だけでなく、人間のように、画面の中の意味（これは何か？）と空間構造（どこにあるのか？どんな形か？）を理解させたいと考えています。

この技術は、研究室から私たちの携帯電話へと急速に移行しています。Instagramのクリエイターであろうと、オンラインで家具を買いたい消費者であろうと、直接的な恩恵を受けるでしょう。完璧なデジタルツインにはまだ道のりがありますが、3D理解への扉は完全に開かれました。

よくある質問（FAQ）

Q1：SAM 3とSAM 3Dの根本的な違いは何ですか？ 簡単に言えば、SAM 3は「2Dセグメンテーションの達人」で、クリックやテキスト指示によって画像や動画内の物体を正確に識別・選択することに特化しています。一方、SAM 3Dは「3Dの創造主」で、その任務は識別された2D画像を空間感覚を持つ3Dモデルに変換することです。両者はしばしば組み合わせて使用され、まず分割し、次に再構築します。

Q2：一般ユーザーはこれらの機能をどのように体験できますか？ 主に3つの方法があります：

Segment Anything Playground： Metaが提供するウェブベースのデモプラットフォームで、写真をアップロードしてセグメンテーションと3D再構築機能を体験できます。
Instagram： SAM 3の技術は、特殊効果の作成のためにInstagramの動画編集ツール「Edits」に統合される予定です。
Facebook Marketplace： SAM 3D技術は「View in Room」機能をサポートし、ユーザーが実際の空間で商品がどのように見えるかをプレビューできるようになります。

Q3：SAM 3はどのような種類の指示をサポートしていますか？ SAM 3はマルチモーダル入力をサポートしています。従来の「クリック」や「ボックス描画」に加えて、その最も強力な機能は「自然言語」指示（例：「あの黒い犬を追跡」と入力）のサポートです。さらに、視覚的なプロンプトもサポートしており、例を選択すると、AIが自動的に画面内のすべての類似物体を見つけ出します。

Q4：これらのモデルはオープンソースですか？ はい、Metaはオープンリサーチの伝統を続けています。SAM 3とSAM 3Dのモデルの重み（チェックポイント）、推論コード、および関連データセット（SA-3DAOなど）は、研究者や開発者がHugging Faceなどのプラットフォームで利用できるようにリリースされています。

Q5：SAM 3Dが人体を処理する際に言及されているMHRとは何ですか？ MHR（Meta Momentum Human Rig）は、Metaが開発した新しい3D人体メッシュフォーマットです。その特徴は、「骨格」と「体形」を分けて計算することです。これにより、AIが生成した人体モデルは、動きが正確であるだけでなく、解剖学的に論理的な構造を持つため、アニメーション制作やバーチャルアバターの応用に非常に適しています。

Q6：これらのモデルの現在の最大の弱点は何ですか？ 現在の課題は主に、精細度と物理的論理にあります。たとえば、SAM 3Dが生成したモデルの表面の詳細は十分に高解像度でない可能性があり、物体間の複雑な積み重ねや押し合いなどの物理的相互作用を処理する際に、まだ完全にリアルに再現することはできません。さらに、手などの微細な身体の動きの捕捉精度も向上させる必要があります。

関連リソースとリンク：

Metaの最新AIデュオ：SAM 3とSAM 3Dは、コンピューターが現実世界を理解するのをどのように助けるか

SAM 3：人間の言葉を理解する視覚の達人

SAM 3D：平面から立体空間へジャンプ

SAM 3がSAM 3Dに出会うとき：強力な連携の統一アーキテクチャ

現実的な考慮事項：完璧ではない

結論

よくある質問（FAQ）

DMflow.chat

DMflow.chat

videoweaver.app

DMflow.chat

DMflow.chat

videoweaver.app

Metaの最新AIデュオ：SAM 3とSAM 3Dは、コンピューターが現実世界を理解するのをどのように助けるか

SAM 3：人間の言葉を理解する視覚の達人

SAM 3D：平面から立体空間へジャンプ

SAM 3がSAM 3Dに出会うとき：強力な連携の統一アーキテクチャ

現実的な考慮事項：完璧ではない

結論

よくある質問（FAQ）

DMflow.chat

DMflow.chat

videoweaver.app

DMflow.chat

DMflow.chat

videoweaver.app

Recommended for You