スマホで直接高画質!PrismML が Bonsai Image 4B を発表、高度な画像生成モデルをポケットに
AI で画像を生成するクリエイターにとって、デバイスのスペックは常に大きな悩みの一つです。精緻な画像を生成しようとすると、ハードウェアが大きなボトルネックになります。PC のファンが激しく回り、ビデオメモリ(VRAM)が頻繁に不足する中で、いつでもどこでもスマホで画像を生成するなど、かつては夢物語のように思えました。しかし、このハードウェアの限界が最近、静かに打ち破られました。
PrismML チームは、驚くべき Bonsai Image 4B の告知 を行いました。これはローカルデバイス向けに特別に構築された拡散モデルファミリーです。ノート PC はもちろん、スマートフォンでも高品質な画像生成タスクをスムーズに実行できるようになります。
「数十億のパラメータを持つ巨大なモデルをどうやってスマホに詰め込んだのか?」と疑問に思うかもしれません。その技術的な原理を探ってみましょう。
ハードウェアの限界に挑戦:魔法は二元および三元重みにあり
すべては、元のモデルである FLUX.2 Klein 4B から始まります。40億パラメータを持つ FLUX.2 は非常に強力ですが、フル精度では Transformer コアだけで 7.75 GB を占有します。テキストエンコーダーなどの周辺コンポーネントを含めると、モデル全体を動かすには約 16 GB のメモリが必要になります。スマホのメモリでは、このようなモンスター級の演算負荷には到底耐えられません。
PrismML チームは、極限の量子化技術という解決策を見出しました。彼らは巨大な Transformer の重みを信じられないほど圧縮し、2つの異なるモデルバリエーションを用意しました。
1つ目は、究極の軽量化を追求した 1-bit Bonsai Image 4B です。このモデルは、Transformer の重みを思い切って -1 と +1 の二元値に簡略化しました。グループ化されたスケーリングファクターと組み合わせることで、各重みは平均してわずか 1.125 ビットしか占有しません。この手法により、Transformer コアのサイズは 8.3倍縮小され、1 GB 未満(正確には 0.93 GB)になりました。不可欠なテキストエンコーダーや VAE モジュールをすべて含めても、Apple シリコン上での完全なデプロイメントサイズは約 3.42 GB にすぎません。これほどスリム化されたにもかかわらず、元のモデルの 88% の精度を維持しています。これは正直、驚くべき成果です。
ハードウェアのリソースをもう少し割いて、より詳細な画質を求めるなら、もう一つの選択肢があります。それが Ternary Bonsai Image 4B です。これは三元モデルで、重みに「ゼロ」の状態(-1、0、+1)が加わっています。このわずかな変化がモデルに大きな表現力を与え、視覚的な品質とプロンプトの理解力を大幅に向上させました。Transformer コアは約 1.21 GB、完全なデプロイメントサイズは 3.88 GB です。各権威あるベンチマークにおいて、この三元バージョンは元のモデルの 95% という高い精度を維持することに成功しました。
これらの驚異的な数字を知った後、実際に動かした時の速度やメモリ消費が気になるでしょう。その答えも同様に素晴らしいものです。
実測パフォーマンス:生成速度とリソース制御の二重の進化
サイズを縮小する最終的な目標は、一般の人々が日常的なデバイスで AI の利便性を享受できるようにすることです。512x512 解像度の画像を生成する際、Bonsai Image 4B は優れたリソース制御能力を発揮します。テキストエンコーダーはプロンプトの処理後に自動的にメモリを解放するため、1-bit バージョンの平均アクティブメモリ占有量はわずか 1.5 GB です。三元バージョンでも 1.96 GB しか必要ありません。元のモデルが 11.74 GB を消費していたのと比べると、それぞれ 7.8倍と 6.0倍も削減されています。
最も気になる生成時間についても、非常に優れた結果が出ています。
iPhone 17 Pro Max でのテストでは、わずか 9.4秒で高品質な画像を生成できました。Mac M4 Pro チップを搭載したノート PC では、生成時間はさらに短縮され約 6秒となりました。これは、元のフル精度の MFLUX ワークフローよりも 5.6倍高速です。クリックしてすぐに画像が生成されるこのスムーズさは、これまでの進捗バーをじっと待つストレスを完全に解消してくれます。
しかし、サイズの縮小と高速化は表面的なメリットにすぎません。この技術の発表背景には、より大きな産業的な意義があります。
なぜクリエイターと産業にとってローカル生成が重要なのか?
画像生成は単に画質が綺麗かどうかだけでなく、いかにスムーズに「デプロイ」できるかが本当の試練です。
現在、多くの高品質な画像生成サービスはクラウド接続に大きく依存しています。つまり、クリエイターがプロンプトを修正したりスタイルを変更したりするたびに、データを遠隔のサーバーに送信しなければなりません。ネットワーク送信は遅延をもたらし、サーバー演算はコストを蓄積させます。しかし、画像制作の本質は反復的な試行錯誤です。アーティストが一回で完璧な画像を得ることは稀で、何度も修正し、失敗作を捨て、再び生成する必要があります。
Bonsai Image 4B は、演算の主導権を賢くローカルデバイスに戻しました。強力な AI がスマホやノート PC で直接動作するようになれば、制作プロセス全体が安価になり、試行錯誤のペースも劇的に速まります。さらに重要なのはプライバシー保護です。すべてのプロンプト、ラフ、そして最終的に生成されたビジュアル資産は、ユーザーのデバイス内に安全に留まります。これは機密情報やプライバシーを重視するビジネスシーンにおいて、最大の懸念事項を解決するものです。
PrismML はハードウェアとプライバシーの難題を解決しただけでなく、開発コミュニティに対しても非常にオープンな姿勢をとっています。
オープンソースを全面的に支持、計算ファームをポケットに
最もエキサイティングなニュースは、この驚くべき技術が企業内部に秘匿されていないことです。PrismML チームは、1-bit および三元バージョンの重みとコードをすべて、柔軟性の高い Apache 2.0 ライセンスで公開しました。
開発者は今すぐ Hugging Face の Bonsai Image セクション で必要なリソースを入手できます。単にこの驚異的な生成速度を体験してみたいだけなら、公式が設置した WebGPU ベースの オンライン体験スペース があり、ブラウザを開くだけですぐに試せます。
技術的な深部に興味がある方向けには、公開されている 技術ホワイトペーパー にコンセプトから完成までのステップが詳細に記録されています。実装の詳細は GitHub プロジェクト でも確認できます。また、一般ユーザーも「Bonsai Studio」という iOS アプリを通じて、iPhone でこの次世代モデルの魅力を直接体験できます。計算ファームをポケットに詰め込むことは、もはや想像ではなく紛れもない現実となりました。
Q&A
Q1:Bonsai Image 4B はどのくらい圧縮されていますか?本当にスマホに入りますか? A: はい、入ります!1-bit バージョンの Bonsai Image 4B は極限の量子化技術により、Transformer コアをわずか 0.93 GB まで圧縮しました。テキストエンコーダーなどの必要コンポーネントを含めても、Apple シリコン上での完全なデプロイメントサイズは 3.42 GB で済みます。元のモデルが 16 GB 近かったのと比べると、ハードウェアの制限を見事に克服しており、iPhone で直接動作するこのクラス初の画像モデルとなりました。
Q2:1-bit と三元 (Ternary) の2つのバージョンはどう違いますか?どちらを選べばいいですか? A: この2つの違いは「極限のサイズ」か「画質の追求」かという選択にあります。
- 1-bit バージョンは究極の軽量化を追求し、重みを二元値に簡略化しています。デプロイサイズは約 3.42 GB で、メモリが極端に制限されたデバイスに適しており、元のモデルの 88% の精度を維持しています。
- 三元 (Ternary) バージョンは重みに「ゼロ」の状態を加え、サイズは 3.88 GB とわずかに増えますが、表現の柔軟性が増し、元のモデルの 95% という高い精度を維持することに成功しました。デバイスの容量が許すなら、三元バージョンの方がより詳細な画質とプロンプトの再現性が得られます。
Q3:スマホやノート PC で画像を生成する場合、速度は遅くありませんか? A: 驚くほど速いです!公式のテストでは、iPhone 17 Pro Max で 512x512 の高品質な画像を生成するのにわずか 9.4秒しかかかりませんでした。Mac M4 Pro チップ搭載の PC なら約 6秒で、これは元のフル精度の MFLUX ワークフローよりも 5.6倍も高速です。
Q4:クラウドツールも便利ですが、なぜモデルを「ローカル」で動かす必要があるのですか? A: クラウド API は便利ですが、通信遅延、蓄積されるサーバーコスト、そしてプライバシー漏洩のリスクという3つの大きな悩みがあります。画像制作は試行錯誤の連続であるため、ローカルで動かすことができれば、コストを気にせず何度でもやり直すことができます。また、すべてのプロンプトと生成されたビジュアル資産は個人のデバイスに安全に保管されるため、ビジネスの秘密やプライバシーを完璧に保護できます。
Q5:このモデルはどこで体験したりダウンロードしたりできますか?費用はかかりますか? A: 完全に無料です!PrismML は 1-bit と三元バージョンの重みとコードをすべて Apache 2.0 ライセンスでオープンソース化しました。開発者は Hugging Face や GitHub でリソースを入手でき、一般ユーザーもブラウザで公式の WebGPU オンライン体験スペースを試したり、iOS アプリの Bonsai Studio をダウンロードして iPhone でその実力を体感したりできます。


