tool

阿里雲 Qwen-Image-Layered 登場:AI 終於學會用圖層修圖了

December 22, 2025
Updated Dec 22
1 min read

阿里雲最新發布的 Qwen-Image-Layered 模型,正試圖解決生成式 AI 長久以來的痛點。本文將解析該模型如何透過 RGBA 分層技術,將圖像分解為可獨立編輯的素材,實現精準的物件移除、文字修改與無限遞歸分解,讓 AI 生圖不再只是一張扁平的圖片,而是進入了專業工作流。


大家在使用 Stable Diffusion 或 Midjourney 這類 AI 生圖工具時,是否常遇到一個令人頭痛的問題?當你好不容易生成了一張構圖完美的圖片,卻發現畫面中的主角位置偏了一點,或是背景裡多了一個奇怪的雜物。這時候如果你嘗試重繪(Inpaint),往往會發現牽一髮動全身,修了一個地方,光影卻亂了,甚至連原本滿意的背景都變形了。

原因很簡單:目前的 AI 生成的圖像,本質上是一張「扁平」的 JPG 或 PNG。所有的像素都黏在一起,AI 並不真正理解「前景」和「背景」的物理區隔。

不過,阿里雲最近推出的 Qwen-Image-Layered 模型,似乎找到了一把解開這個死結的鑰匙。它不只是生成圖像,而是生成一套帶有 RGBA 通道 的分層素材,讓 AI 生圖終於有了「圖層」的概念。

告別扁平化:為什麼我們需要物理級隔離?

在平面設計或 Photoshop 的工作邏輯中,「圖層」是編輯的靈魂。Qwen-Image-Layered 的核心創新,就在於它引入了 物理級隔離 (Physical Isolation) 的概念。

當使用者輸入提示詞生成圖像時,這個模型不會只給你一張最終的合成圖,而是會根據語義結構,將畫面拆解成多個透明背景的圖層。例如,一張人物海報會被自動拆解為「背景層」、「人物層」和「文字裝飾層」。

這種 固有可編輯性 (Inherent Editability) 帶來了巨大的優勢。想像一下,如果你想把畫面中的女孩換成男孩,在傳統 AI 中這幾乎意味著要重畫整張圖。但在 Qwen-Image-Layered 的架構下,你只需要替換「人物層」,而完全不必擔心會影響到背景的紋理或光影效果。這對於追求畫面一致性的設計師來說,是一個極具實用價值的突破。

不只是分層,還能無限「套娃」

如果只是把人跟背景分開,那還不夠稀奇。Qwen-Image-Layered 最讓技術圈感到驚艷的,是它具備 無限遞歸分解 (Recursive & Infinite Decomposition) 的能力。

這聽起來有點抽象,我們用一個簡單的例子來理解:

假設你生成了一張「坐在沙發上的貓」的圖片。

  1. 第一層分解:模型可以先把「貓」和「客廳背景」分開。
  2. 第二層分解:針對已經獨立出來的「貓」圖層,你可以要求模型繼續拆解,把它分成「貓頭」、「身體」和「尾巴」。
  3. 第三層分解:甚至可以針對「貓頭」再細分出「眼睛」、「鬍鬚」和「耳朵」。

這就像是俄羅斯套娃一樣,任何一個圖層都可以被視為一個新的獨立畫布,進行再次分解。這意味著編輯的顆粒度可以無限細化,從宏觀的場景佈局到微觀的五官細節,都能夠被精準控制,而不會破壞周圍的像素。

解決文字與細節修復的難題

AI 生圖的另一個罩門是文字。通常 AI 生成的海報文字都是亂碼,或者即使拼寫正確,一旦想修改內容,往往會留下明顯的塗改痕跡。

官方展示了一個非常直觀的 Qwen-Image-Layered 案例。在一張寫著 “Sour Candy” 的海報中,透過分層技術,使用者可以輕易地將文字層提取出來,並將其修改為 “Qwen-Image”。

因為文字是獨立在一個透明圖層上的,修改後的字體不僅完美保留了原本的藝術風格,而且底下的背景圖案毫髮無傷。這在過去的 AI 修圖中是非常難以做到的,通常需要設計師手動在 Photoshop 中進行大量的修補工作。此外,使用者還能自定義圖層數量,無論是簡單的 3 層拆解,還是複雜的 8 層結構,模型都能根據需求靈活調整。

無損的基礎操作:移動、縮放與刪除

有了圖層之後,許多在傳統 AI 生圖中被視為「高難度」的操作,現在變成了最基礎的功能。這就是所謂的 無損基礎操作 (High-fidelity Elementary Operations)

  • 移動 (Reposition):覺得畫面左邊的檸檬太擠了嗎?直接把它拖到右邊去。因為它有獨立的 Alpha 通道,移動後原本的位置不會留下醜陋的破洞。
  • 縮放 (Resize):想要強調某個物件,可以直接將其放大,邊緣依然清晰銳利。
  • 刪除 (Delete):不喜歡畫面中的某個元素?直接刪除該圖層即可,背景會自動保持完整。

這些功能讓 AI 生成的圖像不再是一次性的「盲盒」產品,而是變成了可以被進一步加工的「半成品素材」,這對於將 AI 導入專業設計工作流至關重要。

開發者視角:開源協議與技術規格

對於開發者和企業來說,最關心的莫過於這個工具是否容易取得以及如何部署。

好消息是,Qwen-Image-Layered 採用了對商業應用非常友善的 Apache 2.0 授權。這意味著無論是個人研究還是商業專案,都可以自由使用這個模型。

在技術實作上,該模型已經整合進了 Hugging Face 的生態系。開發者只需要利用 Python 載入 diffusers 庫中的 QwenImageLayeredPipeline,幾行程式碼就能開始進行分層圖像生成。

至於硬體需求方面,雖然官方建議使用 bf16 精度來獲得最佳效能,但該模型支援 CUDA 加速,意味著主流的 NVIDIA 顯示卡都能跑得動。這比起一些需要龐大算力集群的閉源模型來說,門檻親民了許多。

結語:圖像生成的 Photoshop 時刻

Qwen-Image-Layered 的出現,或許標誌著 AI 圖像生成正從「隨機創作」走向「精確控制」。它填補了生成與編輯之間的巨大鴻溝,讓使用者不再需要為了修改一個小細節而反覆抽卡。

雖然目前這項技術還在持續演進中,但它所展現的「分層」與「遞歸」邏輯,無疑為未來的 AI 設計工具指明了一個清晰的方向。對於設計師、開發者乃至於一般使用者來說,這都是一個值得興奮的進展。

可以前往Qwen-Image-Layered Hugging face space試試看

分享至:
Featured Partners

© 2026 Communeify. All rights reserved.