tool

ByteDance Vidi2登場:動画理解と生成を正確に制御するマルチモーダルモデル

December 2, 2025
Updated Dec 2
1 min read

ByteDance Vidi2が衝撃の登場!ByteDanceがこの大規模マルチモーダルモデルを通じて、いかにして長編動画の正確な理解と生成を実現したかを深く掘り下げます。Vidi2は「茶色のスーツを着た男性がドラムを叩いている」といった特定のイベントを正確に特定できるだけでなく、ベンチマークテストでGemini 3 ProやGPT-5 (Preview)を凌駕しています。Vidi2のコア技術を探り、動画編集の未来を予見しましょう!

これはコンテンツクリエイターや開発者が深く共感するシーンでしょう。手元に30分の動画があるのに、「茶色のスーツを着て室内でドラムを叩いている男性」のような特定のシーンを探すために、タイムライン上を行ったり来たりドラッグして、多くの時間を無駄にしてしまう。このような干し草の山から針を探すようなプロセスは、往々にして退屈で非効率的です。

ByteDance(バイトダンス)のインテリジェント・クリエーション・チーム(Intelligent Creation Team)は最近、Vidi2をリリースしました。これは、動画理解(Video Understanding)と動画生成(Video Creation)のために設計された大規模マルチモーダルモデル(Large Multimodal Models)です。Vidi2は単に動画を「見た」だけでなく、動画内で起きている詳細を理解し、イベントが発生した時間と場所を正確に指摘することができます。公式に発表されたレポートによると、このモデルは特定のベンチマークテストにおいて、Gemini 3 Pro (Preview)やGPT-5などの有名モデルを凌ぐパフォーマンスを見せています。

この記事では、読者の皆さんにVidi2のコア技術、全く新しい評価ベンチマーク、そしてそれが動画編集の未来をどのように変えるかをご案内します。

Vidi2とは何か?単純な視聴から正確な位置特定へ

Vidi2はByteDanceが発表した第2世代のマルチモーダルモデルで、動画処理における2つの大きな課題、**動画理解(Video Understanding)動画生成(Video Creation)**の解決に注力しています。

一般的な視覚モデルとは異なり、Vidi2は「きめ細かい時空間グラウンディング」(Fine-grained Spatio-Temporal Grounding, STG)と呼ばれる能力を備えています。これは少し専門的に聞こえるかもしれませんが、原理は非常に直感的です。テキストによる説明を入力すると、Vidi2は2つのことを行います:

  1. 時間的特定:その説明が動画内で出現する正確な時間帯(タイムスタンプ)を見つけます。
  2. 空間的特定:その時間帯の各フレーム内で、バウンディングボックス(Bounding Boxes)を使ってターゲットオブジェクトを正確にマークします。

これは、モデルが「何が起きたか」だけでなく、「どこで」「画面のどの位置で」起きたかを知っていることを意味します。このエンドツーエンドの能力により、視点の自動切り替え、ストーリー展開の理解、あるいは画面構成に基づいたインテリジェントなトリミングなど、複雑な編集シーンがはるかに簡単になります。

なぜこれが重要なのか?

動画編集ソフトにとって、画面の内容を理解できることは自動化の基礎です。Vidi2が示した応用シーンには「Smart Split」(スマート分割)が含まれており、これは長い動画を自動的に素晴らしいショートクリップに編集し、スマートフォンの縦画面に適応するように再構成し、さらにはタイトルと字幕を自動生成することができます。これは、大量の素材を処理する必要があるクリエイターにとって、間違いなく大きな福音です。

基準の再定義:VUE-STGとVUE-TR-V2ベンチマーク

Vidi2の実力を証明するために、研究チームは既存のテスト基準ではモデルの能力を完全に測定するには不十分であることに気づきました。そこで彼らは2つの全く新しいベンチマーク(Benchmark)を導入しました。これも今回のリリースの大きなハイライトです。

VUE-STG:長編動画の時空間グラウンディングへの挑戦

既存のデータセットは通常動画が短く、長いコンテンツに対するモデルの理解能力をテストするのが困難でした。VUE-STGはこの点に対して4つの重要な改善を行いました:

  • 動画の長さの幅が広い:10秒から30分までの動画をカバーし、モデルに長いコンテキストと長い時間スパンの推論能力を要求します。
  • クエリ形式の最適化:クエリを名詞句に変換しつつ、文の表現力を保持し、人間の自然な検索習慣に近づけました。
  • 高品質なアノテーション:すべての時間範囲とオブジェクトのバウンディングボックスは、テスト結果の正確性を保証するために手動で正確に注釈付けされています。
  • より厳格な評価指標:改良されたvIoUとtIoUメカニズムを採用し、マルチセグメントの時空間評価向けに最適化されています。

VUE-TR-V2:アップグレード版の時間検索

空間的な特定に加えて、チームは以前の時間検索ベンチマークもアップグレードし、VUE-TR-V2をリリースしました。この新バージョンは動画の長さの分布のバランスを取り、より多くの「ユーザースタイル」のクエリ文を導入しました。これは、テストシナリオが実験室の理想的な状況だけでなく、現実世界で人々が動画を検索する方法により近いことを意味します。

公式に発表されたデータから見ると、Vidi2はこれら2つのベンチマークテストで非常に素晴らしいパフォーマンスを見せており、特に長編動画や複雑なクエリを処理する際に、極めて高い精度を示しています。

パフォーマンス比較:GPT-5やGeminiとの勝負

技術レポートの中で最も注目すべきは、パフォーマンス比較チャートです。VUE-STG(時空間グラウンディング)とVUE-TR-V2(時間検索)のテストにおいて、Vidi2のデータバーは他の競合他社よりも明らかに高くなっています。

具体的には、VUE-STGのテストにおいて、Vidi2はtIoU(時間的Intersection over Union)やvIoU(動画的Intersection over Union)などの指標で、スコアが大幅にリードしています。レポートでは特にGemini 3 Pro (Preview)やGPT-5と比較しており、結果はVidi2のようなターゲットを絞って最適化されたモデルが、特定の動画理解タスクにおいて汎用的な超大型モデルを凌駕できることを示しています。

これは実は一つのトレンドを反映しています。汎用的な大規模モデルは何でも少し知っていますが、特定の領域(例えばきめ細かい動画の時空間グラウンディング)においては、専門的に最適化されたモデルの方がより正確な結果を提供できることが多いのです。もちろん、Vidi2は一般的な動画QA(Video QA)ベンチマークテストでも、同規模のオープンソースモデルと同等の競争力を獲得しています。

実際の応用:Smart Splitと今後の展望

技術がいかに優れていても、最終的には応用に回帰しなければなりません。Vidi2の技術はすでに実際のツールで潜在能力を発揮し始めています。レポートでは「TikTok Studio」という名前のインターフェースのスクリーンショットが公開されており、その中の Smart Split 機能こそがVidi2の能力を具体的に示したものです。

1時間の旅行Vlogをアップロードしたと想像してください。Vidi2は自動的に以下のことを行ってくれます:

  1. ハイライトの識別:最も面白い瞬間を見つけ出します。
  2. リフレーム:主人公が常に画面の中央にいるようにしながら(これには強力なSTG能力が必要です)、横向きの動画をスマートフォンでの視聴に適した縦向きの動画にトリミングします。
  3. 字幕とタイトルの生成:会話と状況を理解し、自動的にテキストを付けます。

これは編集時間を節約するだけでなく、動画制作の敷居を下げます。

現在、Vidi2の関連コードと評価スクリプトはGitHubでオープンソース化されており、公式も「Demo Coming Very Soon」と約束しています。開発者や研究者にとって、これはマルチモーダル動画理解を深く研究するための絶好のリソースです。


よくある質問 (FAQ)

Q1:Vidi2は具体的に何ができますか? Vidi2は大規模マルチモーダルモデルであり、主な機能には動画理解と生成が含まれます。最も核心的な特徴は「きめ細かい時空間グラウンディング」(STG)であり、テキストの指示に基づいて、動画内の対応する時間セグメントを正確に見つけ出し、画面内でターゲットオブジェクトを枠で囲むことができます。さらに、動画QA(Video QA)や時間検索の能力も備えています。

Q2:Vidi2は他のモデル(GPT-4VやGeminiなど)とどう違いますか? 多くのモデルが視覚理解能力を備えていますが、Vidi2は特に「長編動画」の理解と「正確な位置特定」の能力を強化しています。公式が提案したVUE-STGおよびVUE-TR-V2ベンチマークにおいて、Vidi2は時空間グラウンディングの精度で優れたパフォーマンスを発揮し、これらの特定のタスクにおいては一部の汎用的なプロプライエタリモデルさえも凌駕しました。

Q3:Spatio-Temporal Grounding (STG)とは何ですか? STGは「時空間グラウンディング」を指します。簡単に言えば、「走っている犬はどこ?」とモデルに尋ねたとき、モデルは「2分30秒から2分45秒の間」と答えるだけでなく、これらのフレーム上に枠を描いて、犬の位置を直接指し示すことができます。これは自動化された精密な編集を実現するための重要な技術です。

Q4:どこでVidi2を使用またはダウンロードできますか? ByteDanceは現在、GitHub上で関連レポート、評価コード、およびベンチマークデータセット(VUE-STGとVUE-TR-V2)を公開しています。公式はデモ(Demo)が間もなく公開されると述べています。

Q5:Vidi2はどのくらいの長さの動画をサポートしていますか? 提案されたベンチマークVUE-STGに基づくと、Vidi2の設計は長いコンテキストの推論を考慮しており、わずか10秒から約30分までの動画コンテンツを処理できます。これは、短いクリップしか処理できない多くのモデルよりも実用性が高いです。

シェアする:
Featured Partners

© 2025 Communeify. All rights reserved.