tool

ByteDance:Video-As-Promptモデルをオープンソース化、ビデオをプロンプトに静止画を数秒でアニメーションに!

October 24, 2025
Updated Oct 24
1 min read

AIビデオ生成の分野で新たなブレークスルー!ByteDanceは、革新的なVideo-As-Prompt(VAP)モデルを正式にオープンソース化しました。この技術により、ユーザーは参照ビデオを「プロンプト」として直接使用して、静止画をアニメーション化し、参照ビデオのセマンティクスとダイナミックなスタイルを完全に複製できます。この記事では、VAPのコアコンセプト、2つのモデルの違い、そしてなぜKlingやViduなどのトップ商用モデルとパフォーマンスで競合できるのかを詳しく解説します。


AIビデオ生成の新しい遊び方:もはや単なる言葉遊びではない

静止した写真が、あるビデオの主人公のように踊ったり、走ったり、さらには繊細な表情をしたりできたら、どれほどクールだろうと思ったことはありませんか?これまで、私たちはテキスト(Text-to-Video)を使ってAIにビデオを生成させることに慣れていましたが、テキストによる説明では、頭の中にある複雑な動きや感情を正確に伝えるのが難しいことがよくありました。

今、そのすべてが変わろうとしています。

ByteDanceは最近、Video-As-Prompt (VAP) という新しい技術をオープンソース化し、従来のビデオ生成モデルを完全に覆しました。そのコアコンセプトは非常に直感的です。ビデオを直接コマンドとして使用して、静止画を動かすのです。

これは、マイケル・ジャクソンのダンスビデオを指差して、モナ・リザの肖像画に「ねえ、彼女にこんな風に踊らせて!」と言うようなものです。VAPは、ダンスの「セマンティクス」、つまり動きの軌跡だけでなく、リズム、スタイル、力強さまで理解し、それをモナ・リザに適用することができます。

Video-As-Promptのコアコンセプトとは?

簡単に言うと、VAPのタスクは次のとおりです。特定のセマンティクスを持つ参照ビデオ(Video Prompt)が与えられた場合、参照画像(Reference Image)を参照ビデオとまったく同じセマンティクスで動かすことができます。

この背後には、「インコンテキスト生成」と呼ばれる新しいパラダイムがあります。もはや複雑なテキスト説明や複数の条件制御は必要なく、代わりにサンプルビデオから直接学習し、そのダイナミクスの本質を理解し、それを模倣して転移させます。これにより、ビデオ生成はかつてないほど直感的で柔軟になります。

2つのモデル、2つの選択肢:Wan2.1 vs. CogVideoX

さまざまなユーザーのニーズに応えるため、ByteDanceはVAPの2つのバージョンを thoughtfully 提供しており、それぞれ能力と安定性の間で異なるトレードオフを行っています。

1. Wan2.1-I2V-14B:より強力で、人間をよりよく理解する

  • 利点: この140億パラメータの大規模モデルは、その強力なベースモデル能力のおかげで、人間の行動や斬新なコンセプトの生成において非常に優れたパフォーマンスを発揮します。複雑なダンスの動きであれ、「イカゲーム」のような特定の文化的コンセプトであれ、正確に捉えて再現することができます。
  • 制限事項: モデルが大きすぎるため、限られた計算リソースの下ではトレーニングステップが比較的少なくなります。これにより、特定のセマンティック条件下では安定性が若干低下し、予期しない結果が生じることがあります。

2. CogVideoX-I2V-5B:より安定した信頼性の高い選択肢

  • 利点: 50億パラメータのモデルとして、より軽量であるため、開発チームは同じリソースでより長時間のトレーニングを行うことができます。その結果、ほとんどのセマンティック条件下で非常に高い安定性を示します。通常の動画生成タスクでは、ほとんど間違いを犯さない優等生です。
  • 制限事項: バックボーンネットワークの能力に制限されているため、人間中心の生成タスクの処理では若干劣ります。同時に、事前トレーニングデータにあまり見られない概念(ladudu、Minecraftなど)に対する理解と生成能力も弱いです。

どちらを選ぶべきか? 結論は簡単です。複雑な人間の動きやニッチでトレンディなコンテンツを生成する必要がある場合は、Wan2.1が最初の選択肢です。さまざまな一般的なシナリオで高い安定性と信頼性を求める場合は、CogVideoXがより安定した選択肢となります。

技術詳細:VAPはどのように機能するのか?

VAPのアーキテクチャは非常に巧妙です。新しいモデルをゼロから構築するのではなく、巧みに巨人の肩の上に立っています。

システム全体のコアは、**「凍結された」ビデオ拡散モデルトランスフォーマー(Video DiT)**です。これは、すでにビデオ生成に非常に長けた汎用脳と考えることができます。「凍結」とは、そのパラメータをロックして、新しいタスクを学習するときに元の強力な能力を忘れないようにすることであり、AI分野で一般的な「壊滅的忘却」の問題を効果的に回避します。

では、この汎用脳に「ビデオコマンド」を理解させるにはどうすればよいでしょうか?答えは、プラグアンドプレイの**混合エキスパートモデル(Mixture-of-Transformers, MoT)**です。このMoTエキスパートは翻訳者のようなもので、参照ビデオの動的セマンティクスを解釈し、これらの指示をコアのDiTモデルに伝達して、要件に合ったアニメーションを生成するようにガイドします。

さらに、VAPは時間的にバイアスされた位置埋め込み技術も採用しており、これにより、モデルは参照ビデオからコンテキストの関連性をより正確に把握し、誤った時間的対応を生成することなく行うことができます。

驚異的なパフォーマンス!VAPは商用大手に挑戦できるか?

これだけ話してきましたが、VAPの実際のパフォーマンスはどうなのでしょうか?答えは、非常に驚くべきものです。

公式に発表されたデータによると、VAPは、統一された一般化可能なセマンティック制御ビデオ生成モデルとして、既存のすべてのオープンソースモデルのパフォーマンスを上回っています。さらに重要なことに、そのユーザー嗜好スコアは、KlingやViduなどのトップクラスのクローズドソース商用モデルとほぼ同等です!

モデルClipスコア (⬆)モーションの流暢さ (⬆)ダイナミズム (⬆)美的品質 (⬆)アライメントスコア (⬆)ユーザー嗜好率 (⬆)
VACE (オリジナル)5.8897.6068.7553.9035.380.6%
VACE (ディープ)22.6497.6575.0056.0343.350.7%
VACE (オプティカルフロー)22.6597.5679.1757.3446.711.8%
CogVideoX-I2V22.8298.4872.9256.7526.046.9%
CogVideoX-I2V (LoRA)23.5998.3470.8354.2368.6013.1%
Kling / Vidu24.0598.1279.1759.1674.0238.2%
Video-As-Prompt24.1398.5977.0857.7170.4438.7%

表から明らかなように、Video-As-Promptはいくつかの主要な指標で最高スコアを達成しており、特に38.7%のユーザー嗜好率は、他のモデルとのブラインドテスト比較で、ユーザーの40%近くがVAPが生成したビデオが最高であると考えたことを意味します。オープンソースモデルにとって、これは画期的な成果です。

今後の展望:ユニバーサルビデオ生成への次の一歩

VAPの登場は、開発者やクリエイターに強力な新しいツールを提供するだけでなく、さらに重要なことに、AIビデオ生成技術の巨大な可能性を示しています。その強力なゼロショット汎化能力は、トレーニングで見たことのない多くのタスクを処理できることを意味し、これは、ユニバーサルで制御可能なビデオ生成の目標に向かって確実な一歩を踏み出していることを示しています。

ソーシャルメディアでのダイナミックなミームの作成から、アーティストが静止画を生き生きとさせること、映画・テレビ業界でのアニメーションプロトタイプの設計まで、VAPの応用可能性は無限です。コミュニティの参加と反復により、AIがかつてない方法で静止画に新しい命を吹き込むと信じる理由があります。

関連リソース

シェアする:
Featured Partners

© 2026 Communeify. All rights reserved.