tool

手機直接跑出高畫質!PrismML 推出 Bonsai Image 4B 極致壓縮生圖模型

May 27, 2026
Updated May 27
2 min read

手機直接跑出高畫質!PrismML 推出 Bonsai Image 4B,把高階生圖模型放進口袋

喜歡用 AI 畫圖的創作者大概都有過類似的困擾。想要產出精緻的圖片,設備往往是一大瓶頸。電腦風扇狂轉、顯示卡記憶體頻頻吃緊,如果想要隨時隨地用手機算圖,往往流於天方夜譚。不過,這個硬體天花板最近被悄悄打破了。

PrismML 團隊推出了令人眼睛一亮的 Bonsai Image 4B 公告。這是一個專門為本地裝置打造的擴散模型家族。它讓筆記型電腦甚至智慧型手機,都能流暢執行高品質的圖片生成任務。

聽到這裡,大家心裡一定會冒出疑問:把一個包含數十億參數的龐然大物塞進手機,到底要怎麼做到?讓我們透過技術原理來一探究竟。

挑戰硬體極限,魔鬼藏在二元與三元權重裡

這一切要從它的原版模型 FLUX.2 Klein 4B 說起。擁有 40 億參數的 FLUX.2 當然非常強大,但它在完整精度下的 Transformer 核心就佔了 7.75 GB。若算上文本編碼器等其他周邊零件,整套模型運作起來需要將近 16 GB 的空間。手機的記憶體根本無法負擔這種怪物級別的運算量。

PrismML 團隊找到了解方,也就是極致的量化技術。他們將龐大的 Transformer 權重進行了不可思議的壓縮,並端出了兩種截然不同的模型變體。

第一種是追求極限輕量化的 1-bit Bonsai Image 4B。這款模型大膽地將 Transformer 權重簡化為只有負一與正一的二元數值。搭配分組縮放因子後,每個權重平均只佔用 1.125 個位元。這種作法讓 Transformer 核心體積直接縮減了 8.3 倍,剩下不到 1 GB(精確來說是 0.93 GB)。即使把那些不可或缺的文本編碼器和 VAE 模組全加進去,在蘋果晶片上的完整部署負載也只有 3.42 GB 左右。體積縮水了這麼多,它依然保留了原模型 88% 的準確度。說實話,這已經是相當了不起的成就。

如果你願意多撥出一點點硬體資源來換取更好的畫面細節,還有另一種選擇,那就是 Ternary Bonsai Image 4B。這是一個三元模型,權重裡多了一個「零」的狀態(包含負一、零、正一)。這看似微小的改變,卻給了模型更大的發揮空間,大幅提升了視覺品質與對提示詞的理解力。它的 Transformer 核心大約是 1.21 GB,完整部署大小為 3.88 GB。在各項權威評測中,這個三元版本成功保留了原模型高達 95% 的精準度。

了解這些驚人的數字後,也許有人會好奇,那麼實際跑起來的速度和記憶體消耗又是如何?答案同樣讓人驚豔。

實際效能實測,生成速度與資源控制的雙重進化

縮小體積的最終目標,就是要讓大眾真正在日常設備上享受 AI 的便利。在生成 512x512 解析度的圖片時,Bonsai Image 4B 展現了極佳的資源控制力。因為文本編碼器在處理完提示詞之後就會自動釋放記憶體,所以 1-bit 版本的平均活躍記憶體佔用只有 1.5 GB。三元版本也僅僅需要 1.96 GB。相比於原版模型動輒吃掉 11.74 GB 的龐大胃口,兩者分別減少了 7.8 倍與 6.0 倍之多。

至於大家最關心的生成時間,表現同樣亮眼。

在 iPhone 17 Pro Max 上實測,短短 9.4 秒內就能跑出一張高畫質圖片。若把戰場轉移到配備 Mac M4 Pro 晶片的筆記型電腦,生成時間更是縮短到約 6 秒左右。這比原本全精度的 MFLUX 流程快上了 5.6 倍。這種隨點隨開、即刻出圖的順暢感,絕對能徹底改變以往苦苦等待進度條的窘境。

不過,縮小體積和加快速度只是表面的好處。這項技術的發表,背後其實有著更龐大的產業考量。

為什麼本地生成對創作者與產業至關重要?

影像生成從來就不單純只看畫面精不精美,如何順利「部署」才是真正的考驗。

現今多數高品質的生圖服務都極度仰賴雲端連線。這代表創作者每次修改提示詞、每次嘗試換個風格,都得把資料傳到遠端的伺服器。網路傳輸會帶來延遲,伺服器運算也會不斷累積計費成本。然而影像創作本質上就是一個反覆試錯的過程。藝術家很少一次就能得到完美的圖片,他們需要不斷修改、丟棄失敗的作品、然後再次生成。

Bonsai Image 4B 巧妙地將算力主導權交還給了本地端設備。當強大的 AI 可以直接在你的手機或筆電上運作時,整個創作流程變得更便宜,迭代修改的節奏也大幅加快。更重要的一點是隱私保護。所有的提示詞、草圖和最終生成的視覺資產,都能安安穩穩地留在使用者的設備裡。這對注重商業機密與個人隱私的應用場景來說,無疑解決了最大的痛點。

PrismML 不僅解決了硬體和隱私的難題,他們對待開發社群的態度也十分開放。

全面擁抱開源,把算力農場帶回家

最讓人振奮的消息是,這項驚人的技術完全沒有被藏在企業內部的保險箱裡。PrismML 團隊已將 1-bit 與三元版本的權重和程式碼,全數以極具彈性的 Apache 2.0 授權條款對外公開。

開發者們現在就可以直接前往 Hugging Face 上的 Bonsai Image 專區 獲取所需資源。如果單純只是想體驗一下這種飛快的生成速度,官方也架設了基於 WebGPU 的 線上體驗空間,打開瀏覽器就能馬上玩。

對於那些喜歡研究底層邏輯的人,這份公開的 技術白皮書 詳細記錄了從概念到成品的每一步。所有實作的細節也都可以在 GitHub 專案 裡找到。同時,一般用戶也能透過名為 Bonsai Studio 的 iOS 應用程式,直接在 iPhone 上感受這款跨世代模型的魅力。把算力農場塞進口袋,已經從想像變成了無可否認的現實。

問與答 (Q&A)

Q1:Bonsai Image 4B 到底被壓縮到多小?真的能放進手機嗎? A: 真的可以!Bonsai Image 4B 的 1-bit 版本透過極致的量化技術,將 Transformer 核心大幅壓縮到僅有 0.93 GB。即便加上必要的文本編碼器等元件,在蘋果晶片上的完整部署大小也僅需 3.42 GB。相比原版模型高達將近 16 GB 的龐大體積,它成功克服了硬體限制,是同級別中首款能直接在 iPhone 上運行的影像模型

Q2:1-bit 和三元 (Ternary) 兩個版本有什麼差別?我該怎麼選? A: 這兩個版本的差異在於對「極限體積」與「畫面品質」的取捨:

  • 1-bit 版本追求極致輕量化,將權重簡化為二元數值,整體部署約 3.42 GB,適合記憶體極度受限的設備,並保留了原模型 88% 的準確度。
  • 三元 (Ternary) 版本則在權重中加入了一個「零」的狀態,體積稍微增加至 3.88 GB,但它提供了更大的表徵彈性,成功保留了原模型高達 95% 的精準度。如果您的設備容量允許,三元版本能提供更好的畫面細節與提示詞還原度。

Q3:在手機或筆記型電腦上產圖,生成速度會不會很慢? A: 速度非常驚人!根據官方實測,在 iPhone 17 Pro Max 上生成一張 512x512 的高畫質圖片只需要 9.4 秒。如果使用配備 Mac M4 Pro 晶片的電腦更是只要約 6 秒,這比原本全精度的 MFLUX 流程足足快上了 5.6 倍。

Q4:現在很多雲端生圖工具也很方便,為什麼我們還需要把模型放在「本地端」運行? A: 雲端 API 雖然方便,但會帶來三大痛點:傳輸延遲、不斷累積的伺服器成本,以及隱私外洩風險。影像創作通常需要不斷反覆修改與試錯,本地端運行能讓創作者毫無成本壓力地瘋狂迭代,而且所有的提示詞與生成的視覺資產都會安全地保留在個人設備內,完美保護了商業機密與隱私。

Q5:我現在可以去哪裡體驗或下載這個模型?需要付費嗎? A: 完全免費!PrismML 已經將 1-bit 與三元版本的模型權重和程式碼,全數以極具彈性的 Apache 2.0 授權開源。開發者可以在 Hugging Face 或 GitHub 取得資源,一般用戶也可以直接透過瀏覽器開啟官方的 WebGPU 線上體驗空間,或是下載名為 Bonsai Studio 的 iOS 應用程式,直接在 iPhone 上感受它的威力。

分享至:
Featured Partners

© 2026 Communeify. All rights reserved.