tool

計算能力の壁を打破!ByteDance Lance:3Bパラメータで動画生成と編集を実現

May 21, 2026
Updated May 21
1 min read

わずか30億パラメータのAIダークホース:ByteDanceのオープンソース・マルチモーダルモデル「Lance」徹底解析

ByteDanceは、新しい軽量マルチモーダルモデル「Lance」を発表しました。わずか30億(3B)のパラメータと極めて低いハードウェアリソースで、高品質な画像・動画の生成、理解、編集機能を実現。本記事では、その「デュアルストリーム混合専門家アーキテクチャ」と複数回にわたる一貫した編集機能のハイライトを詳しく解説し、この有望なオープンソース・ツールの全貌に迫ります。

今日のテクノロジー業界では、「AIモデルのパラメータ数は多ければ多いほど良い」と考えられがちです。数千億、あるいはそれ以上のパラメータを持つ巨大プロジェクトが、連日ニュースを賑わせています。これらの大規模システムは強力ですが、極めて高いハードウェアの壁とトレーニングコストが伴い、一般のデベロッパーには手の届かない存在です。ここで重要なのは、本当に実用的な技術とは、合理化されたハードウェアリソースだけで驚くべき効果を発揮できるものであるということです。

先日ByteDanceがリリースした軽量オープンソース・プロジェクト「Lance」は、まさにこのことを証明しました。このコンパクトな「ハチドリ」のようなモデルは、画像と動画の理解、生成、そして編集をすべて一台でこなします。驚きではありませんか?極めて軽量なアーキテクチャでありながら、これほど多様なタスクを両立させているのです。それでは、なぜこのモデルがオープンソース・コミュニティでこれほど熱い議論を呼んでいるのか、その理由を詳しく見ていきましょう。

軽量化の奇跡:極めて少ないリソースで構築された3Bモデル

ハイエンドなグラフィックボードが高価であることは周知の事実です。最高峰のマルチモーダルモデルをトレーニングするには、通常、データセンター規模の膨大な計算能力が必要です。しかし、Lanceの開発チームは全く異なる結果を出しました。アクティブ・パラメータはわずか30億(3B)です。さらに驚くべきことに、システム全体をスクラッチ(ゼロから)でトレーニングし、使用した最大計算リソースは128枚未満のA100 GPUでした。

これが何を意味するかというと、高額なハードウェアの壁が完全に取り払われたということです。開発チームは無限の計算能力に頼るのではなく、極限までアーキテクチャを最適化することで、素晴らしい視覚生成・理解能力を磨き上げました。予算の限られた小規模チームや個人開発者にとって、これは間違いなく大きな福音です。40GBのVRAMを搭載したグラフィックボード1枚のデバイスがあれば、推論タスクを容易に実行できます。

デュアルストリーム混合専門家アーキテクチャ:理解と生成を別々に最適化

初期の統一モデルは、しばしば解決の難しいボトルネックに直面していました。システムに「画像を見て説明する」ことと「何もないところから画像を生成する」ことの両方を同時に求めると、内部でリソースを奪い合い、結果としてどちらも中途半端になってしまうのです。この課題を解決するために、Lanceは非常に賢い「デュアルストリーム混合専門家(Dual-stream Mixture-of-Experts:MoE)」アーキテクチャを採用しました。

一流レストランの忙しい厨房を想像してみてください。そこには、客の注文を記録し分析するマネージャーと、料理を専門に作るシェフがいます。彼らは同じ食材と厨房スペースを共有していますが、それぞれが高度に専門的な役割を担っています。Lanceの内部も同様です。テキスト、画像、動画を共通言語に変換する、共有されたマルチモーダル・シーケンスを持っています。そして、モデルは2つの独立したチャネルに分かれます。一方の専門家は意味推論とQ&Aを担当し、もう一方の専門家は視覚生成と編集を担当します。両者は互いに干渉しません。

さらに、独自に開発された「モダリティ対応回転位置エンコーディング(MaPE)」により、システムはテキスト、クリーンな画像、ノイズのある画像を明確に区別して処理できます。このメカニズムにより、異なる性質の情報の混同が完全に排除され、テキスト理解と画像生成が非常にスムーズに行われるようになります。

優れた実測パフォーマンス:小型ながら巨大モデルに挑む

正直なところ、サイズが小さいからといって、実力に妥協があるわけではありません。公式のGitHubプロジェクトで公開された評価データによると、Lanceは驚くべき成績を残しています。オブジェクトの数、色、空間的な位置などを正確に制御する画像生成テスト(GenEval)において、統一モデルの中で最高スコアを獲得しました。200億パラメータを持つQwen-Imageのような大規模モデルとも互角に渡り合っています。

動画生成においても同様に優れています。視覚的な品質、動きの滑らかさ、時空間的な一貫性のいずれにおいても、多くの統一アーキテクチャのライバルを圧倒しました。動画理解の分野でも、論理的推論や多肢選択式Q&Aのパフォーマンスで、単一タスク専門の巨大システムを上回る結果を出しています。読者はLance公式デモページで実測動画を直接見ることができます。滑らかにサーフィンをするレッサーパンダや、繊細な陶芸制作のシーンは、システムがテキスト指示をいかに忠実に再現しているかを物語っています。

キラー機能:複数回にわたる一貫した編集

現在、画像や動画を生成できるAIツールは数多く存在しますが、有能な「編集者」として機能するシステムはごくわずかです。Lanceは、実現が極めて困難な「複数回にわたる一貫した編集(Multi-turn Consistency Editing)」機能を備えています。

写真の背景をロマンチックなラベンダー畑に変えたり、動画の主人公にアロハシャツを着せたりしたい場合、Lanceは指示を正確に理解して修正を行います。最も素晴らしいのは、被写体の特徴や元の動きの滑らかさが、極めて自然に維持される点です。画面に変なチラつきや歪みが生じることはありません。素材を繰り返し微調整する必要があるクリエイターにとって、これは間違いなく強力な生産性向上ツールとなります。

Q&Aと開発者ガイド

多くのデベロッパーは、この「ハチドリ」が具体的にどのような仕事に役立つのか興味があるでしょう。Lanceは、テキストからの画像生成、テキストからの動画生成、画像・動画の編集、そして複雑な視覚理解を伴うQ&Aを同時にサポートしています。これらの強力な機能はすべて、単一のフレームワークに統合されています。

リソースはどこで入手できるのでしょうか?現在、プロジェクトはオープンソース・エコシステムを全面的に受け入れています。すべてのコードと操作スクリプトはGitHubに公開されており、モデルの重みはHugging Faceから直接ダウンロードできます。何より嬉しいのは、開発者に優しいApache 2.0ライセンスを採用している点です。学術研究から商用利用のテストまで、非常に高い自由度が保証されています。

優れたアーキテクチャ設計は、単なるハードウェアの物量を凌駕します。この軽量で万能なシステムの登場は、マルチモーダル技術がより賢く、より普及する方向へ向かっていることを告げています。関連アプリケーションの開発を検討している技術ファンにとって、今こそLanceをダウンロードして、その強力なポテンシャルを自ら体験する絶好の機会です。

シェアする:
Featured Partners

© 2026 Communeify. All rights reserved.