ByteDance：Video-As-Promptモデルをオープンソース化、ビデオをプロンプトに静止画を数秒でアニメーションに！

AIビデオ生成の分野で新たなブレークスルー！ByteDanceは、革新的なVideo-As-Prompt（VAP）モデルを正式にオープンソース化しました。この技術により、ユーザーは参照ビデオを「プロンプト」として直接使用して、静止画をアニメーション化し、参照ビデオのセマンティクスとダイナミックなスタイルを完全に複製できます。この記事では、VAPのコアコンセプト、2つのモデルの違い、そしてなぜKlingやViduなどのトップ商用モデルとパフォーマンスで競合できるのかを詳しく解説します。

AIビデオ生成の新しい遊び方：もはや単なる言葉遊びではない

静止した写真が、あるビデオの主人公のように踊ったり、走ったり、さらには繊細な表情をしたりできたら、どれほどクールだろうと思ったことはありませんか？これまで、私たちはテキスト（Text-to-Video）を使ってAIにビデオを生成させることに慣れていましたが、テキストによる説明では、頭の中にある複雑な動きや感情を正確に伝えるのが難しいことがよくありました。

今、そのすべてが変わろうとしています。

ByteDanceは最近、Video-As-Prompt (VAP) という新しい技術をオープンソース化し、従来のビデオ生成モデルを完全に覆しました。そのコアコンセプトは非常に直感的です。ビデオを直接コマンドとして使用して、静止画を動かすのです。

これは、マイケル・ジャクソンのダンスビデオを指差して、モナ・リザの肖像画に「ねえ、彼女にこんな風に踊らせて！」と言うようなものです。VAPは、ダンスの「セマンティクス」、つまり動きの軌跡だけでなく、リズム、スタイル、力強さまで理解し、それをモナ・リザに適用することができます。

Video-As-Promptのコアコンセプトとは？

簡単に言うと、VAPのタスクは次のとおりです。特定のセマンティクスを持つ参照ビデオ（Video Prompt）が与えられた場合、参照画像（Reference Image）を参照ビデオとまったく同じセマンティクスで動かすことができます。

この背後には、「インコンテキスト生成」と呼ばれる新しいパラダイムがあります。もはや複雑なテキスト説明や複数の条件制御は必要なく、代わりにサンプルビデオから直接学習し、そのダイナミクスの本質を理解し、それを模倣して転移させます。これにより、ビデオ生成はかつてないほど直感的で柔軟になります。

2つのモデル、2つの選択肢：Wan2.1 vs. CogVideoX

さまざまなユーザーのニーズに応えるため、ByteDanceはVAPの2つのバージョンを thoughtfully 提供しており、それぞれ能力と安定性の間で異なるトレードオフを行っています。

1. Wan2.1-I2V-14B：より強力で、人間をよりよく理解する

利点： この140億パラメータの大規模モデルは、その強力なベースモデル能力のおかげで、人間の行動や斬新なコンセプトの生成において非常に優れたパフォーマンスを発揮します。複雑なダンスの動きであれ、「イカゲーム」のような特定の文化的コンセプトであれ、正確に捉えて再現することができます。
制限事項： モデルが大きすぎるため、限られた計算リソースの下ではトレーニングステップが比較的少なくなります。これにより、特定のセマンティック条件下では安定性が若干低下し、予期しない結果が生じることがあります。

2. CogVideoX-I2V-5B：より安定した信頼性の高い選択肢

利点： 50億パラメータのモデルとして、より軽量であるため、開発チームは同じリソースでより長時間のトレーニングを行うことができます。その結果、ほとんどのセマンティック条件下で非常に高い安定性を示します。通常の動画生成タスクでは、ほとんど間違いを犯さない優等生です。
制限事項： バックボーンネットワークの能力に制限されているため、人間中心の生成タスクの処理では若干劣ります。同時に、事前トレーニングデータにあまり見られない概念（ladudu、Minecraftなど）に対する理解と生成能力も弱いです。

どちらを選ぶべきか？ 結論は簡単です。複雑な人間の動きやニッチでトレンディなコンテンツを生成する必要がある場合は、Wan2.1が最初の選択肢です。さまざまな一般的なシナリオで高い安定性と信頼性を求める場合は、CogVideoXがより安定した選択肢となります。

技術詳細：VAPはどのように機能するのか？

VAPのアーキテクチャは非常に巧妙です。新しいモデルをゼロから構築するのではなく、巧みに巨人の肩の上に立っています。

システム全体のコアは、**「凍結された」ビデオ拡散モデルトランスフォーマー（Video DiT）**です。これは、すでにビデオ生成に非常に長けた汎用脳と考えることができます。「凍結」とは、そのパラメータをロックして、新しいタスクを学習するときに元の強力な能力を忘れないようにすることであり、AI分野で一般的な「壊滅的忘却」の問題を効果的に回避します。

では、この汎用脳に「ビデオコマンド」を理解させるにはどうすればよいでしょうか？答えは、プラグアンドプレイの**混合エキスパートモデル（Mixture-of-Transformers, MoT）**です。このMoTエキスパートは翻訳者のようなもので、参照ビデオの動的セマンティクスを解釈し、これらの指示をコアのDiTモデルに伝達して、要件に合ったアニメーションを生成するようにガイドします。

さらに、VAPは時間的にバイアスされた位置埋め込み技術も採用しており、これにより、モデルは参照ビデオからコンテキストの関連性をより正確に把握し、誤った時間的対応を生成することなく行うことができます。

驚異的なパフォーマンス！VAPは商用大手に挑戦できるか？

これだけ話してきましたが、VAPの実際のパフォーマンスはどうなのでしょうか？答えは、非常に驚くべきものです。

公式に発表されたデータによると、VAPは、統一された一般化可能なセマンティック制御ビデオ生成モデルとして、既存のすべてのオープンソースモデルのパフォーマンスを上回っています。さらに重要なことに、そのユーザー嗜好スコアは、KlingやViduなどのトップクラスのクローズドソース商用モデルとほぼ同等です！

モデル	Clipスコア (⬆)	モーションの流暢さ (⬆)	ダイナミズム (⬆)	美的品質 (⬆)	アライメントスコア (⬆)	ユーザー嗜好率 (⬆)
VACE (オリジナル)	5.88	97.60	68.75	53.90	35.38	0.6%
VACE (ディープ)	22.64	97.65	75.00	56.03	43.35	0.7%
VACE (オプティカルフロー)	22.65	97.56	79.17	57.34	46.71	1.8%
CogVideoX-I2V	22.82	98.48	72.92	56.75	26.04	6.9%
CogVideoX-I2V (LoRA)	23.59	98.34	70.83	54.23	68.60	13.1%
Kling / Vidu	24.05	98.12	79.17	59.16	74.02	38.2%
Video-As-Prompt	24.13	98.59	77.08	57.71	70.44	38.7%

表から明らかなように、Video-As-Promptはいくつかの主要な指標で最高スコアを達成しており、特に38.7%のユーザー嗜好率は、他のモデルとのブラインドテスト比較で、ユーザーの40%近くがVAPが生成したビデオが最高であると考えたことを意味します。オープンソースモデルにとって、これは画期的な成果です。

今後の展望：ユニバーサルビデオ生成への次の一歩

VAPの登場は、開発者やクリエイターに強力な新しいツールを提供するだけでなく、さらに重要なことに、AIビデオ生成技術の巨大な可能性を示しています。その強力なゼロショット汎化能力は、トレーニングで見たことのない多くのタスクを処理できることを意味し、これは、ユニバーサルで制御可能なビデオ生成の目標に向かって確実な一歩を踏み出していることを示しています。

ソーシャルメディアでのダイナミックなミームの作成から、アーティストが静止画を生き生きとさせること、映画・テレビ業界でのアニメーションプロトタイプの設計まで、VAPの応用可能性は無限です。コミュニティの参加と反復により、AIがかつてない方法で静止画に新しい命を吹き込むと信じる理由があります。

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

Recommended for You

音 …

tool

音声と動画の同期が新たな高みへ：LTX-2 オープンソースモデル登場、単一モデルで映像と音声を生成

Lightricks が新たに発表した LTX-2 モデルを探ります。DiT ベースのこのオープンソースツールは、高品質な動画を生成するだけでなく、効果音も同期して生成します。この記事では、技術仕様、ComfyUI との統合、トレーニング機能について詳しく解説し、クリエイターがこの最新の音声・動画生成ツールを簡単に使いこなせるようにします。音声・動画生成の新たなブレークスルー：LTX-2 到来最近、AI 動画生成ツールはたくさんありますが、何か物足りないと感じたことはありませんか？通常、生成される動画は「無声映画」であり、別途ツールを探してアフレコする必要があるため、その間の分断感が頭痛の種になることがよくあります。 Lightricks チームは明らかにこの痛点を理解していました。彼らは最近、LTX-2 という刺激的なオープンソースモデルを発表しました。これの最もクールな点は、DiT に基づく「音声・視覚統合基盤モデル（Joint Audio-Visual Foundation Model）」であることです。簡単に言えば、映像と音声を別々に生成してから苦労して合わせる必要はありません。LTX-2 は、動画を生成しながら、同期した音声を直接生成できます。これは、高品質な AI 動画生成をローカル環境で実行したいクリエイターにとって、間違いなく朗報です。この記事では、LTX-2 の特徴、技術仕様、および使用方法について詳しく説明します。難解な専門用語は極力避け、なぜこのモデルが注目に値するのかを最も分かりやすくお伝えします。 LTX-2 とは？コア技術の解説 LTX-2 は、前世代の製品を単にアップグレードしたものではありません。現代の動画生成のコアモジュールを統合した、真のマルチモーダルモデルです。 DiT アーキテクチャと単一モデルの利点 LTX-2 は DiT（Diffusion Transformer）アーキテクチャを採用しています。動画生成と音声生成を別々に処理していた過去のモデルとは異なり、LTX-2 の設計思想は「同期」です。つまり、モデルがプロンプトを理解する際、映像がどのように見えるべきか、音がどのように聞こえるべきかを同時に構想します。この統合生成モードにより、音声と映像の適合度はかつてないレベルに達しています。オープンソースとローカル実行へのコミットメント Lightricks は今回非常に気前が良く、モデルの重み（Open Weights）を直接公開しました。これは、開発者やクリエイターがモデルをダウンロードして自分のマシンで実行できることを意味し、データのプライバシーを心配したり、高価なクラウドサブスクリプションに縛られたりする必要がありません。技術を掘り下げるのが好きで、制作プロセスを完全にコントロールしたい人にとって、これは間違いなく天の恵みです。 LTX-2 の主要機能と特徴次世代モデルというからには、一体どこがすごいのでしょうか？そのキラー機能を見てみましょう。音声と動画の同期生成 (Synchronized Audio+Video) これは間違いなく LTX-2 の最大のハイライトです。テキストを入力しても画像を入力しても、モデルは動的な映像を生成すると同時に、それに対応する効果音をつけることができます。波が砂浜に打ち寄せる動画を生成し、同時に波の音が聞こえるところを想像してみてください。後から合成する必要はありません。これは制作ワークフローを大幅に簡素化します。多様なモデルバージョンと量子化の選択肢さまざまなハードウェア構成に対応するため、LTX-2 は複数のバージョンのモデルウェイトを提供しています。完全版 (Full Model): 最高の品質を提供し、強力なハードウェアを持つユーザーに適しています。蒸留版 (Distilled): 速度が速く、動画生成に必要なステップ数が少なくて済みます。量子化版 (fp8, fp4): VRAM を節約するために設計されています。例えば ltx-2-19b-dev-fp8 や ltx-2-19b-dev-fp4 は、グラフィックカードが最高スペックではない友人でも、この巨大なモデルを動かせるようにします。内蔵アップスケーラー (Upscalers) 生成された動画の解像度が足りない？フレームレートが滑らかでない？LTX-2 はこの点を考慮しています。以下のアップスケーリングツールが含まれています：空間アップスケーラー (Spatial Upscaler): 解像度を上げ、映像をより鮮明にするために使用します。時間アップスケーラー (Temporal Upscaler): フレームレート（FPS）を上げ、動きをより滑らかに見せるために使用します。これらのツールは、マルチステージのワークフローで直列に使用し、段階的に動画品質を向上させることができます。エコシステムの統合：ComfyUI とトレーニングツールモデルが使いやすいかどうかは、本体だけでなく、エコシステムのサポート度合いにもよります。

Jan 12, 2026 Read →

L …

tool

LongCat-Video登場：Meituanが統一動画生成モデルを発表、分単位の動画の限界に挑戦

Meituanが発表した最新のAI動画生成モデル、LongCat-Videoをご覧ください。これは、テキストから動画へ、画像から動画へなど、さまざまなタスクを処理できる統一されたフレームワークであるだけでなく、最大数分間の高品質な動画の生成にも優れており、「ワールドモデル」への重要な一歩を踏み出しています。 AI動画生成の競争は最近ますます激しくなっています。OpenAI SoraやKuaishou Klingが実証した驚くべき効果にまだ驚いている間に、別の有力なプレーヤーが独自の技術で競争に加わりました。それが、Meituanチームが発表した統一された基本動画生成モデルであるLongCat-Videoです。また別のAI動画ツールか、と思うかもしれません。何か特別なことがあるのでしょうか？正直なところ、現在のAI動画生成の核心的な問題点のいくつかを解決する上で、非常に魅力的なハイライトがいくつかあります。単一の機能だけでなく、これは「オールインワン」の統一モデルです多くのAIモデルは、「テキストから動画へ」や「画像から動画へ」など、単一のタスクに焦点を当てています。しかし、LongCat-Videoはより統合されたアプローチをとっています。複数の主流の動画生成タスクを1つのモデルに統合する統一されたアーキテクチャを採用しています。これは、あなたが望むかどうかにかかわらず、次のことを意味します。テキストから動画へ：テキストの説明を入力して、対応する動画を生成します。画像から動画へ：静止画像を与えて、それを動かします。動画の継続：既存の動画を継続して、後続のコンテンツを生成します。 LongCat-Videoは、同じコアモデルですべてを処理できます。これは、たくさんの個別のツールではなく、動画作成用のスイスアーミーナイフを持っているようなもので、ワークフローを大幅に簡素化します。真のハイライト：効率的に「分単位」の長い動画を生成するこれはおそらくLongCat-Videoの最もエキサイティングな機能です。他のAI動画ツールで遊んだことがあるなら、数秒の短いクリップを生成するのは簡単ですが、数分間の長さで、一貫したコンテンツと安定した画質の動画を作成するのは大きな課題であることがわかるでしょう。多くのモデルは、時間が長くなると、画面のスタイルが大きく変わったり、色がずれたり、キャラクターが矛盾したりするなど、まるで物語の途中で主人公の顔を忘れてしまった語り手のような問題が発生します。 LongCat-Videoはこの問題を巧みに解決します。その秘密兵器は、モデルが事前トレーニング段階で「動画の継続」タスクに焦点を当てていることです。言い換えれば、最初から「物語のリレー」の達人になるように訓練されているのです。このネイティブな継続機能により、長い動画を生成する際に、コンテンツの一貫性と品質の安定性をよりよく維持し、画面の崩壊やスタイルの混乱などの問題を回避できます。公式のデモンストレーションによると、品質を大幅に低下させることなく、最大数分間の動画を生成できます。どのようにしてそれを実現したのか？その背後にある技術的な魔法を垣間見るすごいと思いませんか？LongCat-Videoの高い効率と高品質は、主にいくつかの主要な技術の組み合わせによるものです。粗から密への生成：この方法は非常に直感的で、画家が絵を描くように、まず下書きをしてから徐々に詳細を改善していきます。モデルはまず低解像度の動画プロトタイプを生成し、次に解像度と詳細を徐々に改善して、最終的に720p、30fpsの高品質動画を生成します。これにより、効率が向上するだけでなく、最終的な品質も保証されます。ブロックスパースアテンション：これは、計算効率を向上させるための巧妙な設計です。従来のアテンションメカニズムでは、AIが画面上のすべての情報を一度に処理するため、非常にリソースを消費します。一方、ブロックスパースアテンションを使用すると、AIは画面の最も重要な部分に「集中」し、無関係な領域をスキップできるため、スマートで省力化され、生成速度が大幅に向上します。マルチリワードRLHF： RLHF（人間からのフィードバックによる強化学習）については聞いたことがあるかもしれません。これは、モデルが人間の好みから学ぶようにするものです。LongCat-Videoはさらに一歩進んで、「マルチリワード」メカニズムを採用しています。これは、「似ているかどうか」だけでなく、画面の美しさ、アクションの流暢さ、物語の論理、テキストの説明との適合度など、複数の側面から動画の品質を判断することを意味します。これにより、最終的に生成される動画は、人間の美学と期待により合致したものになります。生成だけでなく、「インタラクティブ」な動画作成も LongCat-Videoは、インタラクティブな動画生成という非常に興味深い機能も実証しました。これは、ユーザーが監督のように動画生成プロセスに介入し、新しい指示を与えることができることを意味します。たとえば、最初に「キッチンでパンを切る女の子」のシーンを生成し、次に動画を続けるときに、「彼女は牛乳を一杯注いだ」という新しい指示を入力すると、モデルはシームレスに次のアクションを生成します。この機能により、クリエイターはもはや受動的な受信者ではなく、物語の方向性を積極的に導くことができる参加者となり、動画作成に前例のない自由度と想像力の余地をもたらします。自分で試してみたい、またはもっと詳しく知りたいですか？ Meituanチームは、LongCat-Videoに関連するリソースを非常に寛大にオープンソース化しており、誰もがこの技術にアクセスできるようになっています。公式サイト： https://meituan-longcat.github.io/LongCat-Video/ GitHubコード： https://github.com/meituan-longcat/LongCat-Video Hugging Faceモデル： https://huggingface.co/meituan-longcat/LongCat-Video 興味のある開発者やクリエイターは、公式ページにアクセスして、さらに素晴らしいデモンストレーション動画を確認したり、GitHubやHugging Faceに直接アクセスして、モデルとコードをダウンロードして自分で体験したりすることができます。「ワールドモデル」への小さな一歩要約すると、LongCat-Videoは強力なAI動画生成ツールであるだけでなく、「統一されたアーキテクチャ」と「長い動画の生成」という2つの重要な方向で重要な進歩を遂げました。公式には、「ワールドモデルへの第一歩」と位置付けられています。いわゆる「ワールドモデル」とは、現実世界の動作法則を理解し、シミュレートできるAIシステムを指します。そして、一貫した長いシーケンスの動画を生成できることは、世界の動的な変化をシミュレートするための基礎です。この観点から見ると、LongCat-Videoは確かに大きな可能性を示しており、AIの未来についてさらに多くの想像力をかき立ててくれます。

Oct 27, 2025 Read →

A …

tool

AIビデオ生成は「リアルタイム」革命を迎えるか？Krea Realtimeモデルが登場、しかし未来への切符は誰もが手に入れられるわけではない

AIビデオ生成技術に新たなブレークスルー！Krea AIは、Krea Realtime 14Bというリアルタイムテキストからビデオへの変換モデルを発表しました。その驚異的な計算速度は、コンテンツ制作の新時代の到来を告げていますが、その背後にあるほぼ厳しいハードウェア要件は、この技術の普及に高い壁を築いています。 AIビデオ生成は、本当に「リアルタイム」になったのか？テキストを打ち込むと、鮮やかなビデオシーンがリアルタイムで目の前に現れ、長い待ち時間やレンダリングはもう必要ない、と想像してみてください。それはSF映画のワンシーンのように聞こえますが、Krea AIの最新リリースであるKrea Realtime 14Bモデルによって、この未来はこれまで以上に近づいているようです。これまで、テキストからビデオへの変換（Text-to-Video）は印象的でしたが、最大のボトルネックはしばしば「時間」でした。数秒の短いクリップを生成するのに数分、あるいはそれ以上かかることもあり、その応用範囲は大幅に制限されていました。しかし、Kreaは今回、モデル名に「リアルタイム」という言葉を直接書き込むことで、突破口を見つけたようです。コア技術：Self-Forcingとはどんな魔法か？では、Kreaはどのようにしてこの高速生成を実現しているのでしょうか？その答えは、「Self-Forcing」と呼ばれる技術に隠されています。簡単に言うと、Krea Realtime 14Bモデルは、より大きなビデオモデルであるWan 2.1 14Bから「蒸留」されたものです。従来のビデオ拡散モデルは、ビデオを生成するために段階的なノイズ除去と計算を必要とし、比較的面倒なプロセスでした。一方、Self-Forcing技術は、このモデルを巧みに「自己回帰モデル」に変換します。別の言い方をすれば、モデルに「自分でしりとりをする」ことを教えるようなものです。次のフレームを生成するとき、毎回最初からやり直すのではなく、前に生成したフレームを参照します。この方法により、計算プロセスが大幅に簡素化され、ビデオをフレームごとにすばやく生成できるため、ほぼリアルタイムの効果が得られます。どれくらい速いのか？数字が物語る Kreaが発表した公式データによると、Krea Realtime 14Bモデルは、単一のNVIDIA B200 GPU上でわずか4つの推論ステップで、**毎秒11フレーム（11fps）**という驚異的な速度を達成できます。毎秒11フレームとはどういう意味でしょうか？映画（24fps）や一般的なビデオ（30fps）ほど滑らかではありませんが、この速度はリアルタイムの視覚的フィードバックを提供するのに十分であり、クリエイターはアイデアをすばやくプレビューして調整できます。これは、インタラクティブエンターテインメント、ライブストリーミングエフェクト、クリエイティブなブレインストーミングなどの分野にとって、間違いなく大きな革新です。リアルタイムへの切符：手に入れるのが難しいハードウェアの高い壁これを見て、多くの人がこの技術を直接体験したいと熱望していることでしょう。しかし、急いではいけません。このパフォーマンスの獣を動かすために必要な「燃料」は、決して小さなものではありません。これをすべて実現する鍵は、今日のコンピューティングパワーピラミッドの頂点にあるハードウェア、NVIDIA B200 GPUです。このチップは、大規模なデータセンターやトップクラスのAI研究向けに設計されたプロフェッショナルグレードのデバイスです。その計算能力は確かに望ましいものですが、それはまた、通常のコンシューマーグレードのグラフィックスカードではないことも意味します。この驚異的な速度の背後には、一般のプレイヤーやクリエイターが乗り越えるのが難しいハードウェアのしきい値があると言えます。この最先端の構成は、現在の市場では確かに珍しいものです。この背後にある現実は、AI技術が急速に発展しているにもかかわらず、最先端技術の普及は、研究室から一般に公開される前に、ハードウェアエコシステムの成熟と追随を待つ必要があることが多いということです。リアルタイムビデオ生成の未来ハードウェアのしきい値が高いにもかかわらず、Krea Realtime 14Bの登場は、AIコンテンツ作成の無限の可能性を明らかにしています。インタラクティブなゲームと体験：ゲーム内のNPCやシーンは、プレイヤーの入力に基づいてリアルタイムでユニークなアニメーションを生成できます。ライブストリーミングとビデオ会議：ライブストリーマーは、リアルタイムで仮想背景や特殊効果を生成して、インタラクションをより鮮やかで興味深いものにすることができます。迅速なクリエイティブプロトタイピング：ディレクターやデザイナーは、テキストのアイデアをすばやくビデオドラフトに変換して、クリエイティブプロセスを加速できます。新しいアートフォーム：アーティストは、リアルタイム生成ツールを使用して、前例のないダイナミックなビジュアルアートを作成できます。要約すると、Krea Realtime 14Bは単なる新しいモデルではありません。それは、AIビデオ作成が「生成」から「インタラクション」へと移行していることを示すシグナルのようなものです。まだ最高級のハードウェアが必要ですが、技術の成熟とコストの削減により、近い将来、誰もがリアルタイム作成の楽しさを享受できるようになると信じています。よくある質問（FAQ） Q1：Krea Realtime 14Bモデルとは何ですか？ A1：Krea AIが開発したリアルタイムテキストからビデオへのAIモデルです。「Self-Forcing」と呼ばれる技術を利用して、ユーザーが入力したテキストに基づいてビデオフレームをすばやく生成し、毎秒11フレームの生成速度を実現します。 Q2：生成速度は本当に速いですか？どのようなコンピュータハードウェアが必要ですか？ A2：はい、AIビデオ生成の分野では、毎秒11フレームの速度は非常に大きな進歩です。ただし、この速度を達成するには、公式テストでは単一のNVIDIA B200 GPUを使用しています。これは、データセンター向けに設計された高価なプロフェッショナルグレードのAIコンピューティングチップであり、標準的な家庭用コンピュータのコンポーネントではなく、現在、一般のユーザーがアクセスするのは困難です。 Q3：「Self-Forcing」技術とは何ですか？ A3：これは、従来のビデオ拡散モデルを自己回帰モデルに変換する技術です。これにより、モデルは新しいフレームを生成する際に前のフレームの情報を効果的に使用し、「しりとり」のように連続したフレームをすばやく生成できるため、生成効率が大幅に向上します。 krea/krea-realtime-video Hugging Face

Oct 21, 2025 Read →