音声と動画の同期が新たな高みへ：LTX-2 オープンソースモデル登場、単一モデルで映像と音声を生成

Lightricks が新たに発表した LTX-2 モデルを探ります。DiT ベースのこのオープンソースツールは、高品質な動画を生成するだけでなく、効果音も同期して生成します。この記事では、技術仕様、ComfyUI との統合、トレーニング機能について詳しく解説し、クリエイターがこの最新の音声・動画生成ツールを簡単に使いこなせるようにします。

音声・動画生成の新たなブレークスルー：LTX-2 到来

最近、AI 動画生成ツールはたくさんありますが、何か物足りないと感じたことはありませんか？通常、生成される動画は「無声映画」であり、別途ツールを探してアフレコする必要があるため、その間の分断感が頭痛の種になることがよくあります。

Lightricks チームは明らかにこの痛点を理解していました。彼らは最近、LTX-2 という刺激的なオープンソースモデルを発表しました。これの最もクールな点は、DiT に基づく「音声・視覚統合基盤モデル（Joint Audio-Visual Foundation Model）」であることです。簡単に言えば、映像と音声を別々に生成してから苦労して合わせる必要はありません。LTX-2 は、動画を生成しながら、同期した音声を直接生成できます。これは、高品質な AI 動画生成をローカル環境で実行したいクリエイターにとって、間違いなく朗報です。

この記事では、LTX-2 の特徴、技術仕様、および使用方法について詳しく説明します。難解な専門用語は極力避け、なぜこのモデルが注目に値するのかを最も分かりやすくお伝えします。

LTX-2 とは？コア技術の解説

LTX-2 は、前世代の製品を単にアップグレードしたものではありません。現代の動画生成のコアモジュールを統合した、真のマルチモーダルモデルです。

DiT アーキテクチャと単一モデルの利点

LTX-2 は DiT（Diffusion Transformer）アーキテクチャを採用しています。動画生成と音声生成を別々に処理していた過去のモデルとは異なり、LTX-2 の設計思想は「同期」です。つまり、モデルがプロンプトを理解する際、映像がどのように見えるべきか、音がどのように聞こえるべきかを同時に構想します。この統合生成モードにより、音声と映像の適合度はかつてないレベルに達しています。

オープンソースとローカル実行へのコミットメント

Lightricks は今回非常に気前が良く、モデルの重み（Open Weights）を直接公開しました。これは、開発者やクリエイターがモデルをダウンロードして自分のマシンで実行できることを意味し、データのプライバシーを心配したり、高価なクラウドサブスクリプションに縛られたりする必要がありません。技術を掘り下げるのが好きで、制作プロセスを完全にコントロールしたい人にとって、これは間違いなく天の恵みです。

LTX-2 の主要機能と特徴

次世代モデルというからには、一体どこがすごいのでしょうか？そのキラー機能を見てみましょう。

音声と動画の同期生成 (Synchronized Audio+Video)

これは間違いなく LTX-2 の最大のハイライトです。テキストを入力しても画像を入力しても、モデルは動的な映像を生成すると同時に、それに対応する効果音をつけることができます。波が砂浜に打ち寄せる動画を生成し、同時に波の音が聞こえるところを想像してみてください。後から合成する必要はありません。これは制作ワークフローを大幅に簡素化します。

多様なモデルバージョンと量子化の選択肢

さまざまなハードウェア構成に対応するため、LTX-2 は複数のバージョンのモデルウェイトを提供しています。

完全版 (Full Model): 最高の品質を提供し、強力なハードウェアを持つユーザーに適しています。
蒸留版 (Distilled): 速度が速く、動画生成に必要なステップ数が少なくて済みます。
量子化版 (fp8, fp4): VRAM を節約するために設計されています。例えば ltx-2-19b-dev-fp8 や ltx-2-19b-dev-fp4 は、グラフィックカードが最高スペックではない友人でも、この巨大なモデルを動かせるようにします。

内蔵アップスケーラー (Upscalers)

生成された動画の解像度が足りない？フレームレートが滑らかでない？LTX-2 はこの点を考慮しています。以下のアップスケーリングツールが含まれています：

空間アップスケーラー (Spatial Upscaler): 解像度を上げ、映像をより鮮明にするために使用します。
時間アップスケーラー (Temporal Upscaler): フレームレート（FPS）を上げ、動きをより滑らかに見せるために使用します。これらのツールは、マルチステージのワークフローで直列に使用し、段階的に動画品質を向上させることができます。

エコシステムの統合：ComfyUI とトレーニングツール

モデルが使いやすいかどうかは、本体だけでなく、エコシステムのサポート度合いにもよります。

ComfyUI とのシームレスな統合

ComfyUI は現在、AI イラストや動画生成の分野で最も人気のあるインターフェースの一つです。LTX-2 はすでに ComfyUI のコアノードに組み込まれており、煩わしいインストール手順なしに、使い慣れたノードインターフェースで使用できます。LTXVideo ノードを使用してワークフローを簡単に構築し、テキストから動画、画像から動画、そして後処理の拡大まで、一連のプロセスを実現できます。

柔軟なトレーニング能力 (LoRA & Training)

特定のスタイルやキャラクターをトレーニングしたいクリエイターにとって、LTX-2 は非常に親切です。

LoRA サポート: 標準的な LoRA 技術を使用してモデルを微調整し、特定の画風を学習させることができます。
IC-LoRA 制御: より正確な生成制御を提供します。
高速トレーニング: 公式によると、動き、スタイル、または類似性（音声+視覚）のトレーニングは、多くの設定下で1時間もかからずに完了します。これにより、専用モデルのトレーニングのハードルが大幅に下がります。

インストールと技術要件

自分のコンピュータで LTX-2 を動かすには、多少の技術的な知識が必要です。以下はいくつかの重要な環境要件です。

ソフトウェアとハードウェアの要件

公式ドキュメントによると、このコードベース（Codebase）は、モデル定義、パイプライン、トレーニング機能を含むモノレポ（Monorepo）です。

Python バージョン: Python 3.12 以降が推奨されます。
CUDA バージョン: CUDA 12.7 以上が必要です。
PyTorch: PyTorch 2.7 前後をサポートしています。

簡単なインストール手順

Github 経由でリポジトリをクローンしてインストールできます：

git clone https://github.com/Lightricks/LTX-2.git
cd LTX-2
# リポジトリのルートディレクトリで実行
uv sync
source .venv/bin/activate

既存のライブラリを使用することに慣れている場合、LTX-2 は Diffusers Python ライブラリもサポートしており、開発者にとって統合がよりスムーズになります。詳細なモデル情報とダウンロードリンクは、Hugging Face の LTX-2 ページで直接見つけることができます。

使用時の注意点と制限

LTX-2 は強力ですが、その限界を直視する必要があります。AI はまだ完璧な魔法使いではありません。

解像度とフレームレートのルール

生成パラメータを設定する際、注意すべき小さな詳細があります：

縦横の設定: 32の倍数である必要があります。
フレームレートの設定: (8 x N) + 1 である必要があります。設定がこのルールを満たさない場合、入力は自動的にパディングおよびクロップされ、構図に予期しない変化が生じる可能性があります。

モデルの先天的な制限

事実の正確性: これはクリエイティブツールであり、検索エンジンではありません。正確な事実情報を提供することはできません。
社会的バイアス: 統計モデルとして、既存の社会的バイアスを反映または増幅する可能性があります。
音声品質: 音声を生成できますが、「非言語」音声の生成においてより優れたパフォーマンスを発揮します。生成された音声に話す内容が含まれていない場合、品質が低下する可能性があります。
プロンプト依存性: 生成結果はプロンプトのスタイルに大きく依存します。プロンプトがうまく書かれていない場合、動画はあなたが望む効果を完璧に表現できないかもしれません。

よくある質問 (FAQ)

以下は LTX-2 に関する最も一般的な質問です。疑問の解決に役立つことを願っています。

Q1: LTX-2 は商用利用できますか？

LTX-2 はコミュニティライセンス契約に基づいて公開されています。一般的に、完全版、蒸留版、アップスケーラー、および派生モデルを使用して創作を行うことができます。ただし、具体的な商用利用の制限については、コンプライアンスを確保するために Hugging Face ページ上の ltx-2-community-license-agreement を詳細に読むことをお勧めします。

Q2: VRAM が足りないのですが、使えますか？

量子化バージョンの使用を試みることができます。Lightricks は fp8 と nvfp4 の量子化モデルを提供しており、これらのバージョンは VRAM の要件を大幅に削減します。精度はわずかに低下しますが、消費者向けグラフィックカードで大規模モデルを実行するための最良の妥協案です。

Q3: 動画生成以外に何ができますか？

基本的なテキストから動画（Text-to-Video）や画像から動画（Image-to-Video）に加えて、LTX-2 は動画から動画（Video-to-Video）や、音声から動画（Audio-to-Video）や動画から音声（Video-to-Audio）など、さまざまな音声関連タスクもサポートしています。本質的には多機能な音声・動画処理プラットフォームです。

Q4: 自分の LTX-2 LoRA をトレーニングするにはどうすればよいですか？

公式が非常に使いやすいトレーニングツールを提供しています。Github の LTX-2 Trainer Readme を参照してください。データセットを準備すれば、動きやスタイル LoRA のトレーニングプロセスは非常に高速で、高価なサーバークラスターがなくても完了できます。

Q5: 生成された動画の音がずれることがあるのはなぜですか？

LTX-2 は同期生成を目的とした統合モデルですが、AI には依然としてランダム性があります。ずれる状況が発生した場合は、プロンプトを調整するか、IC-LoRA などの制御モデルを使用して生成精度を高めてみてください。また、フレームレート設定がモデルの推奨事項を満たしていることを確認することも、同期の改善に役立ちます。

Featured Partners

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

Recommended for You

L …

tool

LongCat-Video登場：Meituanが統一動画生成モデルを発表、分単位の動画の限界に挑戦

Meituanが発表した最新のAI動画生成モデル、LongCat-Videoをご覧ください。これは、テキストから動画へ、画像から動画へなど、さまざまなタスクを処理できる統一されたフレームワークであるだけでなく、最大数分間の高品質な動画の生成にも優れており、「ワールドモデル」への重要な一歩を踏み出しています。 AI動画生成の競争は最近ますます激しくなっています。OpenAI SoraやKuaishou Klingが実証した驚くべき効果にまだ驚いている間に、別の有力なプレーヤーが独自の技術で競争に加わりました。それが、Meituanチームが発表した統一された基本動画生成モデルであるLongCat-Videoです。また別のAI動画ツールか、と思うかもしれません。何か特別なことがあるのでしょうか？正直なところ、現在のAI動画生成の核心的な問題点のいくつかを解決する上で、非常に魅力的なハイライトがいくつかあります。単一の機能だけでなく、これは「オールインワン」の統一モデルです多くのAIモデルは、「テキストから動画へ」や「画像から動画へ」など、単一のタスクに焦点を当てています。しかし、LongCat-Videoはより統合されたアプローチをとっています。複数の主流の動画生成タスクを1つのモデルに統合する統一されたアーキテクチャを採用しています。これは、あなたが望むかどうかにかかわらず、次のことを意味します。テキストから動画へ：テキストの説明を入力して、対応する動画を生成します。画像から動画へ：静止画像を与えて、それを動かします。動画の継続：既存の動画を継続して、後続のコンテンツを生成します。 LongCat-Videoは、同じコアモデルですべてを処理できます。これは、たくさんの個別のツールではなく、動画作成用のスイスアーミーナイフを持っているようなもので、ワークフローを大幅に簡素化します。真のハイライト：効率的に「分単位」の長い動画を生成するこれはおそらくLongCat-Videoの最もエキサイティングな機能です。他のAI動画ツールで遊んだことがあるなら、数秒の短いクリップを生成するのは簡単ですが、数分間の長さで、一貫したコンテンツと安定した画質の動画を作成するのは大きな課題であることがわかるでしょう。多くのモデルは、時間が長くなると、画面のスタイルが大きく変わったり、色がずれたり、キャラクターが矛盾したりするなど、まるで物語の途中で主人公の顔を忘れてしまった語り手のような問題が発生します。 LongCat-Videoはこの問題を巧みに解決します。その秘密兵器は、モデルが事前トレーニング段階で「動画の継続」タスクに焦点を当てていることです。言い換えれば、最初から「物語のリレー」の達人になるように訓練されているのです。このネイティブな継続機能により、長い動画を生成する際に、コンテンツの一貫性と品質の安定性をよりよく維持し、画面の崩壊やスタイルの混乱などの問題を回避できます。公式のデモンストレーションによると、品質を大幅に低下させることなく、最大数分間の動画を生成できます。どのようにしてそれを実現したのか？その背後にある技術的な魔法を垣間見るすごいと思いませんか？LongCat-Videoの高い効率と高品質は、主にいくつかの主要な技術の組み合わせによるものです。粗から密への生成：この方法は非常に直感的で、画家が絵を描くように、まず下書きをしてから徐々に詳細を改善していきます。モデルはまず低解像度の動画プロトタイプを生成し、次に解像度と詳細を徐々に改善して、最終的に720p、30fpsの高品質動画を生成します。これにより、効率が向上するだけでなく、最終的な品質も保証されます。ブロックスパースアテンション：これは、計算効率を向上させるための巧妙な設計です。従来のアテンションメカニズムでは、AIが画面上のすべての情報を一度に処理するため、非常にリソースを消費します。一方、ブロックスパースアテンションを使用すると、AIは画面の最も重要な部分に「集中」し、無関係な領域をスキップできるため、スマートで省力化され、生成速度が大幅に向上します。マルチリワードRLHF： RLHF（人間からのフィードバックによる強化学習）については聞いたことがあるかもしれません。これは、モデルが人間の好みから学ぶようにするものです。LongCat-Videoはさらに一歩進んで、「マルチリワード」メカニズムを採用しています。これは、「似ているかどうか」だけでなく、画面の美しさ、アクションの流暢さ、物語の論理、テキストの説明との適合度など、複数の側面から動画の品質を判断することを意味します。これにより、最終的に生成される動画は、人間の美学と期待により合致したものになります。生成だけでなく、「インタラクティブ」な動画作成も LongCat-Videoは、インタラクティブな動画生成という非常に興味深い機能も実証しました。これは、ユーザーが監督のように動画生成プロセスに介入し、新しい指示を与えることができることを意味します。たとえば、最初に「キッチンでパンを切る女の子」のシーンを生成し、次に動画を続けるときに、「彼女は牛乳を一杯注いだ」という新しい指示を入力すると、モデルはシームレスに次のアクションを生成します。この機能により、クリエイターはもはや受動的な受信者ではなく、物語の方向性を積極的に導くことができる参加者となり、動画作成に前例のない自由度と想像力の余地をもたらします。自分で試してみたい、またはもっと詳しく知りたいですか？ Meituanチームは、LongCat-Videoに関連するリソースを非常に寛大にオープンソース化しており、誰もがこの技術にアクセスできるようになっています。公式サイト： https://meituan-longcat.github.io/LongCat-Video/ GitHubコード： https://github.com/meituan-longcat/LongCat-Video Hugging Faceモデル： https://huggingface.co/meituan-longcat/LongCat-Video 興味のある開発者やクリエイターは、公式ページにアクセスして、さらに素晴らしいデモンストレーション動画を確認したり、GitHubやHugging Faceに直接アクセスして、モデルとコードをダウンロードして自分で体験したりすることができます。「ワールドモデル」への小さな一歩要約すると、LongCat-Videoは強力なAI動画生成ツールであるだけでなく、「統一されたアーキテクチャ」と「長い動画の生成」という2つの重要な方向で重要な進歩を遂げました。公式には、「ワールドモデルへの第一歩」と位置付けられています。いわゆる「ワールドモデル」とは、現実世界の動作法則を理解し、シミュレートできるAIシステムを指します。そして、一貫した長いシーケンスの動画を生成できることは、世界の動的な変化をシミュレートするための基礎です。この観点から見ると、LongCat-Videoは確かに大きな可能性を示しており、AIの未来についてさらに多くの想像力をかき立ててくれます。

Oct 27, 2025 Read →

B …

tool

ByteDance：Video-As-Promptモデルをオープンソース化、ビデオをプロンプトに静止画を数秒でアニメーションに！

AIビデオ生成の分野で新たなブレークスルー！ByteDanceは、革新的なVideo-As-Prompt（VAP）モデルを正式にオープンソース化しました。この技術により、ユーザーは参照ビデオを「プロンプト」として直接使用して、静止画をアニメーション化し、参照ビデオのセマンティクスとダイナミックなスタイルを完全に複製できます。この記事では、VAPのコアコンセプト、2つのモデルの違い、そしてなぜKlingやViduなどのトップ商用モデルとパフォーマンスで競合できるのかを詳しく解説します。 AIビデオ生成の新しい遊び方：もはや単なる言葉遊びではない静止した写真が、あるビデオの主人公のように踊ったり、走ったり、さらには繊細な表情をしたりできたら、どれほどクールだろうと思ったことはありませんか？これまで、私たちはテキスト（Text-to-Video）を使ってAIにビデオを生成させることに慣れていましたが、テキストによる説明では、頭の中にある複雑な動きや感情を正確に伝えるのが難しいことがよくありました。今、そのすべてが変わろうとしています。 ByteDanceは最近、Video-As-Prompt (VAP) という新しい技術をオープンソース化し、従来のビデオ生成モデルを完全に覆しました。そのコアコンセプトは非常に直感的です。ビデオを直接コマンドとして使用して、静止画を動かすのです。これは、マイケル・ジャクソンのダンスビデオを指差して、モナ・リザの肖像画に「ねえ、彼女にこんな風に踊らせて！」と言うようなものです。VAPは、ダンスの「セマンティクス」、つまり動きの軌跡だけでなく、リズム、スタイル、力強さまで理解し、それをモナ・リザに適用することができます。 Video-As-Promptのコアコンセプトとは？簡単に言うと、VAPのタスクは次のとおりです。特定のセマンティクスを持つ参照ビデオ（Video Prompt）が与えられた場合、参照画像（Reference Image）を参照ビデオとまったく同じセマンティクスで動かすことができます。この背後には、「インコンテキスト生成」と呼ばれる新しいパラダイムがあります。もはや複雑なテキスト説明や複数の条件制御は必要なく、代わりにサンプルビデオから直接学習し、そのダイナミクスの本質を理解し、それを模倣して転移させます。これにより、ビデオ生成はかつてないほど直感的で柔軟になります。 2つのモデル、2つの選択肢：Wan2.1 vs. CogVideoX さまざまなユーザーのニーズに応えるため、ByteDanceはVAPの2つのバージョンを thoughtfully 提供しており、それぞれ能力と安定性の間で異なるトレードオフを行っています。

Oct 24, 2025 Read →

A …

tool

AIビデオ生成は「リアルタイム」革命を迎えるか？Krea Realtimeモデルが登場、しかし未来への切符は誰もが手に入れられるわけではない

AIビデオ生成技術に新たなブレークスルー！Krea AIは、Krea Realtime 14Bというリアルタイムテキストからビデオへの変換モデルを発表しました。その驚異的な計算速度は、コンテンツ制作の新時代の到来を告げていますが、その背後にあるほぼ厳しいハードウェア要件は、この技術の普及に高い壁を築いています。 AIビデオ生成は、本当に「リアルタイム」になったのか？テキストを打ち込むと、鮮やかなビデオシーンがリアルタイムで目の前に現れ、長い待ち時間やレンダリングはもう必要ない、と想像してみてください。それはSF映画のワンシーンのように聞こえますが、Krea AIの最新リリースであるKrea Realtime 14Bモデルによって、この未来はこれまで以上に近づいているようです。これまで、テキストからビデオへの変換（Text-to-Video）は印象的でしたが、最大のボトルネックはしばしば「時間」でした。数秒の短いクリップを生成するのに数分、あるいはそれ以上かかることもあり、その応用範囲は大幅に制限されていました。しかし、Kreaは今回、モデル名に「リアルタイム」という言葉を直接書き込むことで、突破口を見つけたようです。コア技術：Self-Forcingとはどんな魔法か？では、Kreaはどのようにしてこの高速生成を実現しているのでしょうか？その答えは、「Self-Forcing」と呼ばれる技術に隠されています。簡単に言うと、Krea Realtime 14Bモデルは、より大きなビデオモデルであるWan 2.1 14Bから「蒸留」されたものです。従来のビデオ拡散モデルは、ビデオを生成するために段階的なノイズ除去と計算を必要とし、比較的面倒なプロセスでした。一方、Self-Forcing技術は、このモデルを巧みに「自己回帰モデル」に変換します。別の言い方をすれば、モデルに「自分でしりとりをする」ことを教えるようなものです。次のフレームを生成するとき、毎回最初からやり直すのではなく、前に生成したフレームを参照します。この方法により、計算プロセスが大幅に簡素化され、ビデオをフレームごとにすばやく生成できるため、ほぼリアルタイムの効果が得られます。どれくらい速いのか？数字が物語る Kreaが発表した公式データによると、Krea Realtime 14Bモデルは、単一のNVIDIA B200 GPU上でわずか4つの推論ステップで、**毎秒11フレーム（11fps）**という驚異的な速度を達成できます。毎秒11フレームとはどういう意味でしょうか？映画（24fps）や一般的なビデオ（30fps）ほど滑らかではありませんが、この速度はリアルタイムの視覚的フィードバックを提供するのに十分であり、クリエイターはアイデアをすばやくプレビューして調整できます。これは、インタラクティブエンターテインメント、ライブストリーミングエフェクト、クリエイティブなブレインストーミングなどの分野にとって、間違いなく大きな革新です。リアルタイムへの切符：手に入れるのが難しいハードウェアの高い壁これを見て、多くの人がこの技術を直接体験したいと熱望していることでしょう。しかし、急いではいけません。このパフォーマンスの獣を動かすために必要な「燃料」は、決して小さなものではありません。これをすべて実現する鍵は、今日のコンピューティングパワーピラミッドの頂点にあるハードウェア、NVIDIA B200 GPUです。このチップは、大規模なデータセンターやトップクラスのAI研究向けに設計されたプロフェッショナルグレードのデバイスです。その計算能力は確かに望ましいものですが、それはまた、通常のコンシューマーグレードのグラフィックスカードではないことも意味します。この驚異的な速度の背後には、一般のプレイヤーやクリエイターが乗り越えるのが難しいハードウェアのしきい値があると言えます。この最先端の構成は、現在の市場では確かに珍しいものです。この背後にある現実は、AI技術が急速に発展しているにもかかわらず、最先端技術の普及は、研究室から一般に公開される前に、ハードウェアエコシステムの成熟と追随を待つ必要があることが多いということです。リアルタイムビデオ生成の未来ハードウェアのしきい値が高いにもかかわらず、Krea Realtime 14Bの登場は、AIコンテンツ作成の無限の可能性を明らかにしています。インタラクティブなゲームと体験：ゲーム内のNPCやシーンは、プレイヤーの入力に基づいてリアルタイムでユニークなアニメーションを生成できます。ライブストリーミングとビデオ会議：ライブストリーマーは、リアルタイムで仮想背景や特殊効果を生成して、インタラクションをより鮮やかで興味深いものにすることができます。迅速なクリエイティブプロトタイピング：ディレクターやデザイナーは、テキストのアイデアをすばやくビデオドラフトに変換して、クリエイティブプロセスを加速できます。新しいアートフォーム：アーティストは、リアルタイム生成ツールを使用して、前例のないダイナミックなビジュアルアートを作成できます。要約すると、Krea Realtime 14Bは単なる新しいモデルではありません。それは、AIビデオ作成が「生成」から「インタラクション」へと移行していることを示すシグナルのようなものです。まだ最高級のハードウェアが必要ですが、技術の成熟とコストの削減により、近い将来、誰もがリアルタイム作成の楽しさを享受できるようになると信じています。よくある質問（FAQ） Q1：Krea Realtime 14Bモデルとは何ですか？ A1：Krea AIが開発したリアルタイムテキストからビデオへのAIモデルです。「Self-Forcing」と呼ばれる技術を利用して、ユーザーが入力したテキストに基づいてビデオフレームをすばやく生成し、毎秒11フレームの生成速度を実現します。 Q2：生成速度は本当に速いですか？どのようなコンピュータハードウェアが必要ですか？ A2：はい、AIビデオ生成の分野では、毎秒11フレームの速度は非常に大きな進歩です。ただし、この速度を達成するには、公式テストでは単一のNVIDIA B200 GPUを使用しています。これは、データセンター向けに設計された高価なプロフェッショナルグレードのAIコンピューティングチップであり、標準的な家庭用コンピュータのコンポーネントではなく、現在、一般のユーザーがアクセスするのは困難です。 Q3：「Self-Forcing」技術とは何ですか？ A3：これは、従来のビデオ拡散モデルを自己回帰モデルに変換する技術です。これにより、モデルは新しいフレームを生成する際に前のフレームの情報を効果的に使用し、「しりとり」のように連続したフレームをすばやく生成できるため、生成効率が大幅に向上します。 krea/krea-realtime-video Hugging Face

Oct 21, 2025 Read →