手機直接跑出高畫質！PrismML 推出 Bonsai Image 4B 極致壓縮生圖模型

手機直接跑出高畫質！PrismML 推出 Bonsai Image 4B，把高階生圖模型放進口袋

喜歡用 AI 畫圖的創作者大概都有過類似的困擾。想要產出精緻的圖片，設備往往是一大瓶頸。電腦風扇狂轉、顯示卡記憶體頻頻吃緊，如果想要隨時隨地用手機算圖，往往流於天方夜譚。不過，這個硬體天花板最近被悄悄打破了。

PrismML 團隊推出了令人眼睛一亮的 Bonsai Image 4B 公告。這是一個專門為本地裝置打造的擴散模型家族。它讓筆記型電腦甚至智慧型手機，都能流暢執行高品質的圖片生成任務。

聽到這裡，大家心裡一定會冒出疑問：把一個包含數十億參數的龐然大物塞進手機，到底要怎麼做到？讓我們透過技術原理來一探究竟。

挑戰硬體極限，魔鬼藏在二元與三元權重裡

這一切要從它的原版模型 FLUX.2 Klein 4B 說起。擁有 40 億參數的 FLUX.2 當然非常強大，但它在完整精度下的 Transformer 核心就佔了 7.75 GB。若算上文本編碼器等其他周邊零件，整套模型運作起來需要將近 16 GB 的空間。手機的記憶體根本無法負擔這種怪物級別的運算量。

PrismML 團隊找到了解方，也就是極致的量化技術。他們將龐大的 Transformer 權重進行了不可思議的壓縮，並端出了兩種截然不同的模型變體。

第一種是追求極限輕量化的 1-bit Bonsai Image 4B。這款模型大膽地將 Transformer 權重簡化為只有負一與正一的二元數值。搭配分組縮放因子後，每個權重平均只佔用 1.125 個位元。這種作法讓 Transformer 核心體積直接縮減了 8.3 倍，剩下不到 1 GB（精確來說是 0.93 GB）。即使把那些不可或缺的文本編碼器和 VAE 模組全加進去，在蘋果晶片上的完整部署負載也只有 3.42 GB 左右。體積縮水了這麼多，它依然保留了原模型 88% 的準確度。說實話，這已經是相當了不起的成就。

如果你願意多撥出一點點硬體資源來換取更好的畫面細節，還有另一種選擇，那就是 Ternary Bonsai Image 4B。這是一個三元模型，權重裡多了一個「零」的狀態（包含負一、零、正一）。這看似微小的改變，卻給了模型更大的發揮空間，大幅提升了視覺品質與對提示詞的理解力。它的 Transformer 核心大約是 1.21 GB，完整部署大小為 3.88 GB。在各項權威評測中，這個三元版本成功保留了原模型高達 95% 的精準度。

了解這些驚人的數字後，也許有人會好奇，那麼實際跑起來的速度和記憶體消耗又是如何？答案同樣讓人驚豔。

實際效能實測，生成速度與資源控制的雙重進化

縮小體積的最終目標，就是要讓大眾真正在日常設備上享受 AI 的便利。在生成 512x512 解析度的圖片時，Bonsai Image 4B 展現了極佳的資源控制力。因為文本編碼器在處理完提示詞之後就會自動釋放記憶體，所以 1-bit 版本的平均活躍記憶體佔用只有 1.5 GB。三元版本也僅僅需要 1.96 GB。相比於原版模型動輒吃掉 11.74 GB 的龐大胃口，兩者分別減少了 7.8 倍與 6.0 倍之多。

至於大家最關心的生成時間，表現同樣亮眼。

在 iPhone 17 Pro Max 上實測，短短 9.4 秒內就能跑出一張高畫質圖片。若把戰場轉移到配備 Mac M4 Pro 晶片的筆記型電腦，生成時間更是縮短到約 6 秒左右。這比原本全精度的 MFLUX 流程快上了 5.6 倍。這種隨點隨開、即刻出圖的順暢感，絕對能徹底改變以往苦苦等待進度條的窘境。

不過，縮小體積和加快速度只是表面的好處。這項技術的發表，背後其實有著更龐大的產業考量。

為什麼本地生成對創作者與產業至關重要？

影像生成從來就不單純只看畫面精不精美，如何順利「部署」才是真正的考驗。

現今多數高品質的生圖服務都極度仰賴雲端連線。這代表創作者每次修改提示詞、每次嘗試換個風格，都得把資料傳到遠端的伺服器。網路傳輸會帶來延遲，伺服器運算也會不斷累積計費成本。然而影像創作本質上就是一個反覆試錯的過程。藝術家很少一次就能得到完美的圖片，他們需要不斷修改、丟棄失敗的作品、然後再次生成。

Bonsai Image 4B 巧妙地將算力主導權交還給了本地端設備。當強大的 AI 可以直接在你的手機或筆電上運作時，整個創作流程變得更便宜，迭代修改的節奏也大幅加快。更重要的一點是隱私保護。所有的提示詞、草圖和最終生成的視覺資產，都能安安穩穩地留在使用者的設備裡。這對注重商業機密與個人隱私的應用場景來說，無疑解決了最大的痛點。

PrismML 不僅解決了硬體和隱私的難題，他們對待開發社群的態度也十分開放。

全面擁抱開源，把算力農場帶回家

最讓人振奮的消息是，這項驚人的技術完全沒有被藏在企業內部的保險箱裡。PrismML 團隊已將 1-bit 與三元版本的權重和程式碼，全數以極具彈性的 Apache 2.0 授權條款對外公開。

開發者們現在就可以直接前往 Hugging Face 上的 Bonsai Image 專區獲取所需資源。如果單純只是想體驗一下這種飛快的生成速度，官方也架設了基於 WebGPU 的線上體驗空間，打開瀏覽器就能馬上玩。

對於那些喜歡研究底層邏輯的人，這份公開的技術白皮書詳細記錄了從概念到成品的每一步。所有實作的細節也都可以在 GitHub 專案裡找到。同時，一般用戶也能透過名為 Bonsai Studio 的 iOS 應用程式，直接在 iPhone 上感受這款跨世代模型的魅力。把算力農場塞進口袋，已經從想像變成了無可否認的現實。

問與答 (Q&A)

Q1：Bonsai Image 4B 到底被壓縮到多小？真的能放進手機嗎？ A：真的可以！Bonsai Image 4B 的 1-bit 版本透過極致的量化技術，將 Transformer 核心大幅壓縮到僅有 0.93 GB。即便加上必要的文本編碼器等元件，在蘋果晶片上的完整部署大小也僅需 3.42 GB。相比原版模型高達將近 16 GB 的龐大體積，它成功克服了硬體限制，是同級別中首款能直接在 iPhone 上運行的影像模型。

Q2：1-bit 和三元 (Ternary) 兩個版本有什麼差別？我該怎麼選？ A：這兩個版本的差異在於對「極限體積」與「畫面品質」的取捨：

1-bit 版本追求極致輕量化，將權重簡化為二元數值，整體部署約 3.42 GB，適合記憶體極度受限的設備，並保留了原模型 88% 的準確度。
三元 (Ternary) 版本則在權重中加入了一個「零」的狀態，體積稍微增加至 3.88 GB，但它提供了更大的表徵彈性，成功保留了原模型高達 95% 的精準度。如果您的設備容量允許，三元版本能提供更好的畫面細節與提示詞還原度。

Q3：在手機或筆記型電腦上產圖，生成速度會不會很慢？ A：速度非常驚人！根據官方實測，在 iPhone 17 Pro Max 上生成一張 512x512 的高畫質圖片只需要 9.4 秒。如果使用配備 Mac M4 Pro 晶片的電腦更是只要約 6 秒，這比原本全精度的 MFLUX 流程足足快上了 5.6 倍。

Q4：現在很多雲端生圖工具也很方便，為什麼我們還需要把模型放在「本地端」運行？ A：雲端 API 雖然方便，但會帶來三大痛點：傳輸延遲、不斷累積的伺服器成本，以及隱私外洩風險。影像創作通常需要不斷反覆修改與試錯，本地端運行能讓創作者毫無成本壓力地瘋狂迭代，而且所有的提示詞與生成的視覺資產都會安全地保留在個人設備內，完美保護了商業機密與隱私。

Q5：我現在可以去哪裡體驗或下載這個模型？需要付費嗎？ A：完全免費！PrismML 已經將 1-bit 與三元版本的模型權重和程式碼，全數以極具彈性的 Apache 2.0 授權開源。開發者可以在 Hugging Face 或 GitHub 取得資源，一般用戶也可以直接透過瀏覽器開啟官方的 WebGPU 線上體驗空間，或是下載名為 Bonsai Studio 的 iOS 應用程式，直接在 iPhone 上感受它的威力。

分享至:

Featured Partners

SPONSORED

scribis.app

Scribis: 字幕編輯、語音轉錄文字、即時顯示轉錄文字。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

scribis.app

Scribis: 字幕編輯、語音轉錄文字、即時顯示轉錄文字。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

Recommended for You

B …

tool

Boogu-Image-0.1 完整解析：10B 開源 AI 圖像生成模型，支援中英雙語文字渲染與編輯

解析 Boogu-Image-0.1 模型家族：高效能開源專案如何掌握中英雙語圖文生成探索擁有百億參數的 Boogu-Image-0.1 圖像生成與編輯模型。了解 Base、Turbo 與 Edit 變體如何透過少量訓練資料，實現頂尖的攝影級出圖與超密集中英文渲染，並剖析其實際應用與技術局限。大家可能會好奇，現今的生成式 AI 發展是否已經完全被龐大的運算資源與無止盡的資料量所綁架？老實說，當許多閉源多模態系統依賴極度龐大的資源來堆疊效能時，開源社群往往面臨著資源不對等的困境。這聽起來似乎無解。不過，最近登場的 Boogu-Image-0.1 專案提供了一個截然不同的答案。這是一個採用 Apache-2.0 授權的開源統一圖像生成與編輯模型家族。它之所以能在技術圈引起熱烈討論，原因其實非常直觀。開發團隊僅使用了比其他現有開源模型少一個數量級的訓練資料。沒錯，訓練資料大幅減少，卻依然能展現出媲美頂尖閉源系統的圖文生成能力。這一切得益於他們對模型理解力、資料品質以及訓練流程的系統性優化。有興趣探索底層程式碼的開發者，可以直接前往 Boogu-Image 的 GitHub 專案挖掘更多細節。打破算力迷思的核心定位在探討具體功能之前，必須先釐清這個模型家族的硬體門檻與核心理念。Boogu-Image-0.1 擁有高達一百億（10B）的參數規模。根據官方提供的硬體指南，依據不同的設定與任務複雜度，執行這些模型大約需要 12 到 80GB 的顯示卡記憶體（VRAM）。這意味著它保留了專業級應用的彈性，同時也兼顧了中高階消費級硬體使用者的需求。許多人會有個疑問，為什麼某些閉源系統的表現總是特別驚人？其實那些亮眼的效果通常來自於高度統一的系統能力整合。Boogu 團隊正是看透了這一點。他們將有限的運算資源花在刀口上，專注於提升模型的邏輯理解與資料純度。這種「以小搏大」的開發哲學，確實為多模態生成與理解的開源生態系注入了一劑強心針。滿足多元需求的三大模型變體為了讓不同的開發者與創作者都能找到最稱手的工具，Boogu-Image-0.1 家族特別針對不同的應用情境，釋出了三個針對性極強的變體版本。主打極速與真實感的 Turbo 版本有時候創作靈感稍縱即逝，等待圖片生成的過程總是令人焦慮。你知道嗎？這正是 Turbo 變體存在的意義。採用了先進的四步蒸餾（4-step distilled）技術，這個版本通常只需要 3 到 4 個運算步驟就能完成出圖。最令人驚豔的是，它在追求極致速度的同時，依然保留了高度還原的攝影級光影效果，並且完美維持了雙語文字的渲染能力與對提示詞的精準服從。如果您需要快速生成高品質的照片，非常推薦直接前往 Hugging Face 下載 Boogu-Image-0.1-Turbo 進行測試。專注排版與控制的 Base 基礎模型對於需要進行微調（Fine-tuning）或開發下游應用的專業人士來說，Base 版本絕對是不可或缺的基石。它具備極強的多樣性與控制力。很多開發者會問，處理超密集的文字排版到底該用哪一個版本？答案其實很明確。官方強烈建議，當工作負載主要集中在極度密集的文字渲染時，請挑選 Base 模型並設定為 2K 輸出解析度。這樣才能獲得最完美的版面佈局與字元準確度。無論是設計品牌指南、複雜文件還是雙語海報，Boogu-Image-0.1-Base 都能提供極度穩定的支援。靈活修圖的 Edit 編輯模型除了無中生有的生成能力，後期的影像修改同樣重要。Edit 版本專為圖生圖（Image-to-Image）任務打造。無論是想要精準插入新物件、抹除背景雜物，還是進行局部風格轉換，這個變體都能精確理解使用者的修改意圖。Boogu-Image-0.1-Edit 讓影像後製變得更加直覺且富有彈性。如果習慣使用節點式介面的朋友，也可以搭配 ComfyUI-Boogu 開源工具來建立自動化工作流，甚至可以從 Comfy-Org 的官方資源中找到更多整合應用。殺手級應用：它到底最擅長做什麼？探討完模型種類，接下來必須聊聊這個專案在實際應用上的真正亮點。

Jun 29, 2026 Read →

K …

tool

Krea 2 AI 影像生成模型解析：如何打破 Midjourney 與 Flux 的單一美學限制？

告別千篇一律的 AI 塑膠感：Krea 2 影像生成模型核心技術與雙版本完整解析想要打破 AI 繪圖的單一審美限制嗎？本文帶您全面了解 Krea 2 影像生成模型。從 120 億參數的 MMDiT 架構、Raw 與 Turbo 雙版本設計，到零 AI 合成資料的嚴苛訓練標準，看看這款模型如何成為創作者探索視覺多樣性的最強大引擎。大家有沒有發現一件有趣的事？當今影像生成技術發展迅速，市面上的工具產出的圖片一張比一張逼真，但看久了總覺得少了點靈魂。這就像是所有模型都套用了一套「標準美感濾鏡」。為了打破這種單一美學的框架，Krea AI 從頭打造了一款全新的基礎模型，也就是備受矚目的 Krea 2。 Krea 2 擁有 120 億 (12B) 參數，採用了擴散 Transformer (MMDiT) 架構。它在 Artificial Analysis 的文字轉影像排行榜中穩居前十名，並在獨立實驗室模型中拿下第二名的亮眼成績。這款模型的誕生並非只為了產出單一張符合大眾口味的漂亮圖片，它真正的野心是成為創作者手中探索多元視覺的強大引擎。如果您對這項技術的源頭感興趣，可以前往 Krea 2 官方技術報告了解更多原始數據。接下來，就讓我們稍微拆解一下這款模型背後的設計邏輯。雙引擎驅動：Raw 與 Turbo 版本的完美搭配為滿足不同開發與創作需求，Krea 2 非常聰明地釋出了兩個相互配合的模型版本。說真的，這是一個相當貼近實戰痛點的設計。 Krea 2 Raw (基礎版)：這是一個未經蒸餾 (undistilled) 的預訓練基礎模型。你可以把它想像成一塊極具可塑性的頂級陶土。由於保留了高度的多樣性，它非常適合開發者用來進行微調 (fine-tuning) 或是訓練 LoRA 模型。這個版本最高可以支援到 1K 的解析度生成。 Krea 2 Turbo (加速版)：顧名思義，這是一個追求速度的版本。它經過了 8 步蒸餾處理，專門用來執行快速且高品質的推論，而且完全不需要依賴無分類器引導 (CFG)。它能輕鬆支援 1K 到 2K 的解析度。這裡有一個官方強烈建議的黃金工作流，也就是「在 Raw 模型上訓練，在 Turbo 模型上執行」。使用者可以先在 Raw 版本上訓練出專屬的 LoRA，然後直接將這個 LoRA 搬到 Turbo 版本上進行極速推論。這兩者在設計上完美相容，讓創作者兼顧了客製化彈性與生成效率。

Jun 29, 2026 Read →

M …

tool

Moebius 模型解析：0.2B 參數如何打破圖像修復不可能三角，推論速度提升 15 倍

打破不可能的三角：華中科大 0.2B Moebius 模型如何重塑圖像修復技術工業級大模型生成效果驚人，但龐大的運算成本與硬體需求往往讓人卻步。由華中科技大學與 VIVO AI Lab 聯合研發的 Moebius 框架，僅用 2.26 億參數就實現了 15 倍的推論加速。來看看這款專精型 AI 如何成功逆襲臃腫的通用大模型，讓消費級設備也能輕鬆享受頂尖的圖像修復算力。當今的 AI 發展環境下，各種百億參數規模的基礎模型正如火如荼地佔據新聞版面。工業級巨頭像是 FLUX.1-Fill-Dev 或是 SD3.5 Large-Inpainting 在圖像修復領域的表現確實令人驚豔。這些模型能完美填補畫面空白，甚至無中生有地創造出極具真實感的細節。但是，這裡有一個很現實的問題。這些「巨無霸」模型實在太笨重、太貴了。高昂的運算預算、巨大的記憶體佔用，加上動輒數秒的推論延遲，讓這些模型幾乎無法在一般消費級顯示卡或邊緣設備上順暢運行。讀者可能會好奇，難道沒有一種方法可以讓模型變小，同時又保持聰明嗎？華中科技大學與 VIVO AI Lab 最新聯合研發的 Moebius 圖像修復框架，正是為了解決這個業界最大痛點而生。告別臃腫：破解圖像修復的「不可能三角」長期以來，生成式 AI 領域存在一個難以跨越的技術障礙。開發團隊想要讓模型適應行動裝置，就必須大幅減少參數。一旦參數減少，模型就會遭遇「表徵瓶頸」。這就像是把一個大學生的腦容量壓縮成小學生，它會瞬間忘記如何處理複雜的紋理與全局邏輯。這個困境被稱為圖像修復的「不可能三角」。過去的技術很難同時滿足低參數規模、快速推論以及高品質生成這三個條件。你知道嗎？Moebius 框架的誕生直接打破了這個魔咒。它的參數規模只有 0.22B（約 2.26 億）。這是一個什麼樣的概念？它的體積甚至不到 FLUX.1 模型的百分之二。然而，它卻能產出媲美百億參數級別的高畫質圖像。接下來，讓我來解釋一下它究竟是如何辦到的。第一重創新：LλMI 模組讓硬體運算卸下重擔 Moebius 的第一個核心突破，在於對底層硬體架構的徹底翻新。傳統擴散模型最消耗資源的地方，在於那套極度吃重算力的注意力機制（Attention Mechanism）。這套機制在處理高解析度圖片時，運算開銷會呈現平方級別的暴增。這對於輕量化模型來說，無疑是致命的拖累。為了解決這個問題，研發團隊並未採用傳統的注意力機制。他們開發了 Local-λ Mix Interaction (LλMI) 模組。這個模組的設計邏輯非常巧妙。它將空間上的上下文關係，以及全域的語義先驗知識，優雅地濃縮到一個固定大小的線性矩陣中。透過將運算複雜度從平方級降至線性級，Moebius 成功避開了運算塞車的窘境。搭配深度可分離殘差塊（DW.Res），模型骨幹變得極度精簡。這不僅大幅削減了參數，還保留了處理複雜影像的強大交互能力。大家如果對具體的程式碼實作感興趣，可以直接前往 Moebius 的 GitHub 原始碼頁面一探究竟。第二重創新：潛在空間中的自適應「師徒制」蒸餾架構變輕盈了，但要如何保證這個小傢伙夠聰明？這就得依靠極具巧思的訓練策略。當模型被極度壓縮到 0.2B 時，很容易出現「表徵飽和」的現象。也就是說，模型學不進去更多東西了。為了解決容量落差，研發團隊引進了一套自適應多粒度蒸餾技術。這可以理解為一種嚴格的「師徒制」。他們讓 862M 參數的 PixelHacker 擔任老師，親自指導只有 226M 參數的 Moebius 學生。

Jun 29, 2026 Read →