tool

玩轉 AI 繪圖新高度:字節跳動 USO 模型,風格與主體從此不再二選一

September 2, 2025
Updated Sep 2
1 min read

AI 繪圖又迎來了重磅消息!字節跳動近期開源了一款名為 USO 的創新 AI 影像生成框架,巧妙地將過往看似對立的「風格驅動」與「主體驅動」兩大任務整合在單一模型中。這代表使用者未來在創作時,無需再為保留清晰的人物特徵或渲染獨特的藝術風格而苦惱。USO 的出現,讓兩者兼得成為可能,大幅提升了 AI 繪圖的自由度與精準度。


你有沒有過這樣的經驗?想用 AI 畫一張有著特定朋友樣貌,但風格卻是梵谷油畫的作品,結果生成出來的圖片,要么朋友的臉變了樣,要么就是風格渲染得「四不像」。這種在「忠於原樣」和「追求風格」之間的拉扯,一直是許多 AI 繪圖愛好者心中的痛。

不過,這個困擾創作者已久的問題,現在有了新的解答。字節跳動的研究團隊推出並開源了名為 USO (Unified Style and Subject-Driven Generation) 的統一生成框架,直接挑戰了這個「魚與熊掌不可兼得」的難題。

簡單來說,USO 就像一位技藝高超的畫家,既能精準捕捉模特兒的神韻,又能隨心所欲地切換各種繪畫風格。

為什麼這項技術如此重要?風格與主體的百年之爭

在過去的 AI 影像生成領域,大家習慣將「風格驅動」和「主體驅動」視為兩條平行線。

  • 風格驅動 (Style-driven): 專注於學習並複製特定藝術風格的紋理、筆觸和色彩,例如將一張普通照片變成賽博龐克風格。但缺點是,原始圖片中的主體(比如人臉)細節很容易在風格化的過程中失真。
  • 主體驅動 (Subject-driven): 則是以保持主體(例如某個人物、寵物或物品)的一致性為首要目標,確保無論背景如何變換,主體特徵都清晰可辨。但在這種模式下,要融入強烈的藝術風格就顯得力不從心。

這兩者之間的矛盾,源於模型難以判斷哪些特徵屬於「內容」,哪些又屬於「風格」。而 USO 的核心理念,正是要打破這道牆,讓模型學會聰明地「解構」與「重組」。

揭秘 USO 的幕後魔法:解耦與獎勵學習

那麼,USO 究竟是如何辦到的?研究人員提出了幾個關鍵性的創新方法:

  1. 大規模「三元組」資料集: 首先,他們建立了一個龐大的資料庫,裡面包含了「內容圖片」、「風格圖片」以及「風格化後的内容圖片」這樣的三件套組合。 這就像是給 AI 提供了無數個學習範例,讓它對照學習內容與風格結合的奧秘。

  2. 解耦學習機制 (Disentangled Learning): 這是 USO 的核心技術。透過精巧的演算法設計,模型被訓練去分辨一張圖片中的哪些部分是關於「主體內容」(如人物的五官、服裝輪廓),哪些是關於「風格特徵」(如筆觸、色調)。 透過「風格對齊」與「內容-風格解耦」兩種互補的訓練方式,USO 能夠將這兩者漂亮地分開。

  3. 風格獎勵學習 (Style Reward-Learning): 為了讓生成效果更上一層樓,團隊還引入了一種類似於「品味導師」的機制。 這個機制會評估生成圖片的風格相似度,並給予模型獎勵或指引,不斷提升其對風格的掌握能力。

值得一提的是,USO 模型是基於 FLUX.1-dev 這個強大的基礎模型進行微調的,並提供了 LoRA 權重,讓有技術能力的開發者可以更靈活地應用與客製化。

四種玩法,釋放你的無限創意

USO 不僅僅是一個技術概念,它還提供了四種非常實用的推理模式,幾乎涵蓋了所有主流的 AI 繪圖需求:

  • 精準主體控制: 上傳一張人物照片,你可以用文字指令(prompt)讓他出現在任何場景,同時完美保留臉部特徵,生成效果媲美寫真照。
  • 靈活風格遷移: 只需要一張風格參考圖,無論是吉卜力的動畫感、復古漫畫風還是水彩畫的朦朧美,都能一鍵應用到你的照片上,同時保持原始佈局。
  • IP-風格混合創作: 這是最令人興奮的模式。你可以同時上傳一張「主體圖」(例如你的寵物狗)和一張「風格圖」(例如星空油畫),USO 便能生成一張你的狗狗在星空下奔跑的奇幻畫作。
  • 多風格融合生成: 還在猶豫要用哪種風格嗎?USO 甚至支援同時參考多張風格圖片,創造出獨一無二的混合藝術效果(此功能目前仍在測試中)。

親身體驗 USO 的魅力

說了這麼多,不如親自動手試試看!字節跳動非常貼心地在知名的 AI 開發者社群 Hugging Face 上提供了 USO 的線上試玩 Demo。 你不需要懂程式碼,只要上傳圖片、輸入簡單的指令,就能立即體驗這項先進技術帶來的創作樂趣。

線上體驗傳送門: USO Hugging Face Demo

對於有興趣深入研究的開發者,USO 的完整程式碼和模型權重也都在 GitHub 上開源,可以自由下載使用。

結語:AI 創作的下一個里程碑

USO 模型的出現,不僅僅是解決了一個技術難題,它更象徵著 AI 影像生成正在朝向更精細、更自由、也更懂創作者需求的方向發展。 過去那種需要反覆「抽卡」、靠運氣才能得到滿意結果的時代正在過去。未來,AI 將成為更聽話、更強大的創作夥伴,幫助我們將腦海中的每一個奇思妙想,都精準地化為現實。

分享至:
Featured Partners

© 2026 Communeify. All rights reserved.