FLUX.2 發布：從展示模型到生產力工具的完整進化

Black Forest Labs 於 2025 年 11 月 25 日正式推出 FLUX.2，這不只是一次版本更新，更是開源圖像生成領域的重大突破。本文將詳細解析 FLUX.2 如何透過多參考圖編輯、4MP 高解析度與卓越的文字渲染能力，重新定義專業創作者的工作流。

大家有沒有發現，過去幾年的 AI 繪圖工具雖然有趣，但總覺得少了點什麼？沒錯，它們很適合拿來做些令人驚豔的展示圖，或者在社群媒體上博取眼球，但一旦要進入真正的「工作環節」，問題就來了。風格不統一、手指畫壞、文字變成亂碼，這些問題往往讓專業設計師卻步。

Black Forest Labs 顯然聽到了這些心聲。

就在 2025 年 11 月 25 日，他們正式發布了 FLUX.2。這一代的目標非常明確：它不再只是為了派對上的炫技而生，它是為了現實世界的創意工作流而設計的。無論是對於細節的極致追求，還是對品牌規範的嚴格遵守，FLUX.2 的出現，似乎正在填補「好玩」與「好用」之間的鴻溝。

這篇文章將帶領大家拆解 FLUX.2 的核心功能，看看它如何改變我們創作圖像的方式。

核心理念：開放核心與專業應用的平衡

Black Forest Labs 採取了一種相當聰明的策略，他們稱之為「Open Core（開放核心）」。

這意味著什麼？簡單來說，他們認為視覺智慧不應該只掌握在少數人手中。因此，他們一方面釋出強大、可檢視且可組合的「開源權重模型」（Open Weights），讓開發者社群可以自由探索、修改和創新；另一方面，他們也為需要大規模、高穩定性的企業團隊提供了生產級的 API 端點。

這種做法很聰明。透過 FLUX.1 [dev] 累積的全球高人氣，他們證明了開源模式的可行性。到了 FLUX.2，這種策略更加成熟。從開源的森林（Black Forest）到科技重鎮舊金山灣區（The Bay），他們正試圖建立一個可持續的開放創新生態系。

這對於使用者來說是個好消息，因為無論你是喜歡在自己電腦上跑模型的極客，還是需要穩定輸出的企業用戶，都能在 FLUX.2 的家族中找到適合的位置。

FLUX.2 的殺手級功能：多參考圖支援 (Multi-Reference Support)

這可能是這次更新中最讓人興奮的功能之一。

以前我們用 AI 算圖，往往只能丟一張參考圖，然後祈禱 AI 能看懂我們的意思。但現實是，設計師的腦袋裡往往融合了 A 圖片的光影、B 圖片的構圖，以及 C 圖片的人物特徵。

FLUX.2 支援同時參考 最多 10 張圖片。

想像一下這帶來的可能性。你可以指定一張圖作為產品主體，另一張圖作為背景風格，再用第三張圖來控制光線氛圍。模型能夠在這些參考圖像之間保持極高的一致性。這對於需要保持角色連貫性（Character Consistency）或產品外觀固定的商業專案來說，絕對是個巨大的進步。這解決了長期以來 AI 繪圖「抽卡」隨機性過高的痛點，讓控制權重新回到了創作者手上。

畫質與細節的飛躍：原生 400 萬像素 (4MP)

解析度一直是開源模型的罩門。雖然我們可以透過後期放大（Upscaling）來解決，但原生的細節往往會在放大過程中流失。

FLUX.2 直接支援高達 400 萬像素（4 megapixels） 的圖像生成與編輯。這不僅僅是把圖變大而已，它意味著在生成的時候，模型就已經考慮到了高解析度下的細節呈現。更銳利的紋理、更穩定的光影表現，讓生成的圖片可以直接用於產品展示、視覺化設計，甚至是攝影級的商業用途。

對於那些受夠了 AI 圖片放大後細節模糊的人來說，這無疑是一劑強心針。

文字渲染與指令遵循：終於看懂人話了

還記得那些 AI 生成出來的奇怪外星文字嗎？FLUX.2 在這方面做了大幅度的優化。

現在，複雜的排版、資訊圖表（Infographics）、迷因圖（Memes），甚至是 UI 介面設計草圖，都能在生產環境中穩定運作。模型對於細微文字的渲染變得清晰可讀。

此外，它對提示詞（Prompt）的理解能力也變強了。對於那種包含多個部分、結構複雜的長指令，FLUX.2 展現出了更好的依從性。如果你要求它「左邊放一個紅色的蘋果，右邊放一隻藍色的貓，中間要有午後的陽光」，它現在能更精確地執行這些空間邏輯，而不是隨機把物件混在一起。

FLUX.2 模型家族：各司其職

Black Forest Labs 這次一口氣推出了多個版本的模型，以滿足不同需求：

FLUX.2 [pro]：這是旗艦版本。擁有最頂尖的畫質，能夠與市面上最好的封閉模型一較高下。它的速度快、成本效益高，是追求極致品質的首選。目前主要透過 API 提供。
FLUX.2 [flex]：這個版本非常有趣。它允許開發者控制參數（如步數 steps 和引導比例 guidance scale）。你可以自己決定是要「畫得快一點」還是「畫得細一點」。從官方展示來看，它可以在 6 步、20 步或 50 步之間切換，在文字準確度和生成延遲之間取得平衡。
FLUX.2 [dev]：這是給開發者和非商業用途的禮物。這是一個 32B（320 億參數）的開源權重模型。它源自於基礎模型，具備強大的圖生圖和多圖編輯能力。你可以在 Hugging Face 下載，甚至在消費級顯卡（如 GeForce RTX）上配合優化過的 FP8 實現來運行。
FLUX.2 [klein]：雖然標記為 “Coming Soon”，但這是一個值得關注的輕量級版本。它是從基礎模型蒸餾（distilled）出來的，體積更小、效率更高，但保留了大部分老師模型（Teacher Model）的能力。

技術揭密：它是如何運作的？

稍微講點硬核的技術。FLUX.2 建立在一個潛在流匹配（Latent Flow Matching）架構之上。

它的核心大腦結合了 Mistral-3 24B 視覺語言模型 (VLM) 和一個 Rectified Flow Transformer。

VLM 的作用：帶來真實世界的知識和上下文理解能力。它讓模型知道「什麼是合理的」，比如杯子應該放在桌子上，而不是浮在半空中。
Transformer 的作用：捕捉空間關係、材質屬性和構圖邏輯。

這兩者的結合，加上從頭重新訓練的潛在空間（Latent Space），解決了著名的「可學習性－品質－壓縮率」三難困境（Trilemma）。這也是為什麼 FLUX.2 能夠在畫質提升的同時，還能保持良好的指令遵循能力。

常見問題解答 (FAQ)

為了幫助大家更快上手，整理了以下關於 FLUX.2 的常見疑問：

Q1：FLUX.2 [dev] 可以免費商用嗎？

根據目前的授權說明，FLUX.2 [dev] 的權重雖然公開，但主要是針對非商業用途或研究目的。如果需要進行商業應用，建議查看官方網站上的商業授權條款，或是使用 FLUX.2 [pro] 的 API 服務。

Q2：我要去哪裡下載 FLUX.2 的模型？

FLUX.2 [dev] 的權重已經上傳至 Hugging Face 平台。開發者可以前往下載並配合官方提供的推理代碼（Inference Code）進行本地部署。同時，Github 上也有相關的參考實作。

Q3：運行 FLUX.2 需要什麼樣的硬體配置？

FLUX.2 [dev] 是一個 32B 參數的模型，這對硬體有一定要求。不過，官方與 NVIDIA 和 ComfyUI 合作推出了優化的 FP8 實現，這意味著高階的消費級顯卡（如 GeForce RTX 3090/4090 系列）應該有機會能順暢運行。

Q4：FLUX.2 的多參考圖功能有什麼實際用途？

這對於電商設計、遊戲資產製作或漫畫創作非常有價值。例如，你可以固定角色的臉部特徵（圖 A），固定服裝樣式（圖 B），然後指定一個動作姿勢（圖 C），讓 AI 生成一張完美融合三者的新圖片，而不需要反覆抽卡碰運氣。

Q5：[flex] 版本提到的「可變步數」是什麼意思？

這是一個彈性功能。如果你需要快速生成預覽圖，可以設定較少的步數（例如 6 步），雖然細節可能稍差，但速度極快。當確定構圖後，可以將步數調高（例如 50 步），以獲得最清晰的文字和最細緻的紋理。這讓開發者能根據應用場景靈活調整成本與品質。

結語

FLUX.2 的出現，標誌著開源圖像生成技術進入了一個更務實的階段。它不再滿足於生成隨機的漂亮圖片，而是試圖解決創作者在實際工作中遇到的痛點——一致性、解析度和精準度。

對於設計師、開發者和企業來說，現在正是將這類工具整合進工作流的最佳時機。隨著開源社群對 [dev] 版本的挖掘，以及 [klein] 版本的即將到來，我們可以期待未來幾個月內會湧現更多基於 FLUX.2 的創新應用。

相關資源連結：

分享至:

Featured Partners

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

Recommended for You

讓 …

tool

讓設計動起來：多模態 Lottie 動畫生成器 OmniLottie 完整解析

或許讀者會好奇，每次打開手機應用程式，那些流暢又精緻的加載動畫究竟是如何製作出來的？這些通常被稱為 Lottie 的向量動畫格式，因為體積非常小、放大縮小都不失真，而且在網頁或手機端運行極度順暢，長久以來廣受開發者與設計師的喜愛。老實說，製作這些向量動畫從來都不簡單。傳統的工作流程需要專業設計師透過複雜的軟體，逐格調整關鍵影格與數學曲線。這個過程極度耗時。不過，開源社群最近迎來了一項令人振奮的突破，那就是 OmniLottie 專案。作為一款完整整合的多模態 Lottie 生成器家族，它甚至強勢入選了電腦視覺領域頂級會議 CVPR 2026。這項技術的出現，讓原本繁瑣的動畫製作過程變得就像寫幾句文字一樣簡單。為什麼 Lottie 動畫這麼難搞？事情是這樣的長久以來，人工智慧在生成點陣圖或一般影片上已經取得了巨大的進展。大家只要輸入一段文字，就能得到一張栩栩如生的圖片。然而，向量動畫完全是另一回事。向量動畫依賴的是數學公式與參數化的圖形節點，這需要極高的精確度。 OmniLottie 巧妙地解決了這個痛點。它利用預先訓練的視覺語言模型（VLMs），讓系統具備了理解複雜指令的能力。這意味著，原本只能由人類大腦構思的幾何變換與時間軸控制，現在可以直接交由 AI 來運算處理。打破單一輸入限制，圖文影音全包辦傳統的生成工具通常只接受文字提示詞，這在實際應用上往往不夠直覺。OmniLottie 的核心亮點在於它全面支援多模態輸入。這就像是委託一位專業動畫師，委託人不僅可以口頭描述需求，還可以拿著參考圖片或影片給他看。它主要支援三大生成任務：第一是文本到 Lottie 生成。使用者只要輸入一段簡單的文字描述，像是「一個紅色的球出現，上下彈跳後慢慢消失」，系統就會直接生成對應的複雜向量動畫。第二是圖文到 Lottie 生成。如果單純用文字難以描述特定的設計風格，使用者可以直接提供一張靜態圖片，並搭配文字指引。模型會以此作為視覺基礎，賦予靜態圖片動態效果。第三個功能最令人驚豔，也就是影片轉 Lottie。它可以直接讀取一段普通的 MP4 影片，然後從中提取動態特徵，將其完美轉換為輕量級的 Lottie 動畫格式。如果想要親自體驗這種神奇的轉換過程，任何人都可以前往開發團隊部署在Hugging Face Space 的線上展示介面動手玩玩看。藏在引擎蓋底下的硬核技術與友善門檻這聽起來需要極其龐大的運算資源，對吧？其實不然。它的硬體門檻比想像中來得親民。根據 OmniLottie 官方網站釋出的技術文件，這個模型是建立在 Qwen/Qwen2.5-VL-3B-Instruct 基礎模型之上進行微調的。目前發布的 OmniLottie (4B) 模型權重檔案大小約為 8.46 GB。對於想要在本地端部署這套系統的開發者來說，執行推理大約需要消耗 15.2G 的 GPU 記憶體。換句話說，一張當前主流的中高階顯示卡就能順利讓它跑起來。開發團隊也展現了極高的開源精神。目前所有的推理程式碼、模型權重以及訓練程式碼都已經對外公開。無論是想要整合進既有專案的企業團隊，還是純粹喜歡鑽研技術的獨立開發者，都能毫無阻礙地取得這些資源。給未來研究者的超級大禮包：兩百萬筆資料與評估協議任何強大的人工智慧模型背後，都少不了海量資料的支撐。為了解決向量動畫領域長期缺乏優質訓練資料的問題，團隊同步釋出了一個龐大的寶庫，也就是 MMLottie-2M 資料集。這個資料集採用 cc-by-nc-sa-4.0 授權，裡面包含了高達兩百萬個具備豐富註解的多模態 Lottie 動畫樣本。這就像是給了 AI 兩百萬本圖文並茂的教科書，讓它能徹底學會向量動畫的語言。此外，為了解決過去各家模型各說各話、難以客觀比較的問題，他們還建立了一套名為 MMLottieBench 的標準化測試集。這套評估協議包含了 900 個精選測試樣本，其中精準劃分了 450 個真實世界樣本與 450 個合成樣本，並平均涵蓋了前面提到的三大核心生成任務。這為後續的模型開發設定了一個清晰明確的比較標準。

Mar 9, 2026 Read →

F …

tool

FASHN VTON v1.5 登場：消費級顯卡也能跑的高畫質虛擬試穿 AI，細節保留更勝以往

FASHN VTON v1.5 是一款全新的開源虛擬試穿 AI 模型，採用 Apache-2.0 授權，允許商業用途。這款模型最大的特色在於直接在「像素空間」生成影像，而非傳統的潛在空間，能保留更多衣物材質細節。更棒的是，它只需要 8GB VRAM 的消費級顯卡即可運行。本文將詳細解析其技術架構、優勢以及如何安裝使用。對於經常在網上買衣服的人來說，最大的痛點莫過於「這件衣服穿在我身上到底好看不好看」。雖然虛擬試穿（Virtual Try-On，簡稱 VTON）技術已經存在一段時間，但過去的解決方案往往面臨兩個極端：要麼是效果極佳但需要昂貴算力的閉源商業軟體，要麼是效果平平、安裝複雜的開源專案。最近，FASHN AI 團隊發布了 FASHN VTON v1.5，這可能正是開發者和電商平台一直在尋找的平衡點。這款模型不僅開源（採用 Apache-2.0 授權），而且可以在一般的遊戲顯卡上運行。這意味著什麼，這代表高品質的虛擬試穿技術不再是科技巨頭的專利，中小型開發者甚至個人愛好者也能在家用電腦上部署這項技術。這款模型究竟有何特別之處，為什麼它選擇了一條與眾不同的技術路徑，以及它在實際應用中的表現如何，讓我們來仔細看看。告別模糊細節：像素空間生成的優勢在探討 FASHN VTON v1.5 之前，得先聊聊目前主流的 AI 生成技術。大多數基於擴散模型（Diffusion Models）的圖像生成工具，為了節省運算資源，通常會使用變分自動編碼器（VAE）將圖像壓縮到「潛在空間（Latent Space）」進行處理。雖然這樣速度快，但就像把圖片存成低畫質 JPEG 一樣，解壓縮後往往會丟失許多微小的細節。 FASHN VTON v1.5 選擇了一條不同的路。它直接在 RGB 像素空間（Pixel Space）進行操作。這聽起來可能只是技術術語的差異，但對於時尚產業來說，這可是天壤之別。這意味著衣物上的精細紋理、複雜的圖案，甚至是品牌 Logo 上的文字，都不會因為編碼壓縮而變得模糊不清。這種方法採用了 12x12 的區塊嵌入（Patch Embedding），完全消除了 VAE 編碼帶來的信息損失。如果您曾經因為虛擬試穿後的衣服看起來像是一團模糊的色塊而感到失望，那麼這種像素級生成的技術，正是為了解決這個問題而生的。無遮罩推論：讓衣服自然「穿」在身上傳統的虛擬試穿模型通常需要一個「遮罩（Mask）」，也就是需要人工或演算法先指定「這裡是身體，這裡是衣服，請把衣服填進這個區域」。這種做法最大的缺點是，新衣服的形狀會被舊衣服的輪廓限制住。試想一下，如果你原本穿著一件羽絨外套，想試穿一件緊身背心，傳統模型往往會不知所措，或者生成的影像看起來非常不自然。 FASHN VTON v1.5 引入了無遮罩推論（Maskless Inference）機制。它不需要預先分割遮罩，模型會自己學習衣服與身體的邊界。這讓衣物能夠展現其自然的垂墜感和形態，完全不受模特兒原始穿著的形狀限制。更重要的是，這種處理方式對於保持「身體特徵」非常有效。無論是模特兒身上的刺青、原本的體型特徵，甚至是佩戴的文化服飾（例如希賈布 Hijab），都能在換裝過程中被完整保留下來。這對於追求真實感和尊重多元文化的時尚應用來說，是一個巨大的進步。親民的硬體需求：消費級顯卡的福音談到 AI 模型，大家最擔心的通常是硬體門檻。動輒需要 A100 這種企業級顯卡的要求，往往讓許多開發者望而卻步。FASHN VTON v1.5 在這方面展現了極大的誠意。

Jan 29, 2026 Read →

會 …

tool

會思考的 AI 畫家？騰訊 HunyuanImage 3.0-Instruct 讓圖像編輯更懂你

你是否厭倦了 AI 繪圖工具「聽不懂人話」的窘境？騰訊最新推出的 HunyuanImage 3.0-Instruct 不僅僅是生成圖片，它更像是一位會先思考再動筆的藝術家。透過獨特的思維鏈（CoT）技術與強大的多模態架構，這款模型在理解複雜指令、精準修圖與多圖融合上展現了驚人的實力。本文將帶你深入了解這款開源模型的技術亮點與實際應用。 AI 繪圖的下一步：不僅是畫，更要懂老實說，目前的 AI 繪圖工具雖然厲害，但常常讓人感到挫折。你想要修改畫面中的一個小細節，結果 AI 卻把整張圖的背景都換掉了，這種「牽一髮動全身」的尷尬情況屢見不鮮。這是因為大多數模型只是在執行命令，並沒有真正理解圖像中的邏輯關係。騰訊推出的 HunyuanImage 3.0-Instruct 正是為了解決這個痛點而生。這款模型最大的特色在於它「會思考」。它不僅僅是一個圖像生成器，更是一個原生的多模態模型，能夠將視覺理解與精準的圖像合成完美結合。這意味著，當你發出指令時，它會先像人類畫家一樣，觀察現有的畫面，思考構圖與邏輯，然後才開始動筆。這款模型基於 800 億參數的 MoE（混合專家）架構構建，其中有 130 億參數處於活躍狀態。這種設計讓它在保持高效能的同時，擁有了深度的理解能力，能夠生成高品質、高保真度的圖像。對於那些追求細節的創作者來說，這無疑是一個令人興奮的消息。擁有「思維鏈」的大腦：它如何理解你的意圖？我們常說 AI 像個黑盒子，你丟進去指令，它吐出結果，中間發生了什麼沒人知道。但 HunyuanImage 3.0-Instruct 不一樣，它引入了一種名為「原生思維鏈」（Native Chain-of-Thought, CoT）的機制。這是什麼概念呢？簡單來說，模型在執行你的指令之前，會先進行一段「內心獨白」。它會分析你的要求，拆解複雜的步驟，並規劃如何執行才能最符合你的預期。配合騰訊自家研發的 MixGRPO 演算法，這個過程讓模型能夠處理非常複雜的指令，確保最終生成的結果與人類的偏好高度一致。這就像是原本的 AI 是一個只會聽關鍵字的學徒，叫他畫蘋果他就畫蘋果；而現在的 AI 變成了一位資深設計師，你會告訴他「我想要一顆蘋果放在桌上，光線要從左邊來，感覺要有點憂鬱」，他會先消化這些情緒與邏輯，再呈現出你想要的作品。這對於需要精細控制的專業工作流來說，是一個巨大的進步。精準修圖：只動該動的地方對於設計師或一般使用者來說，最大的惡夢莫過於修圖時破壞了原本完美的畫面。HunyuanImage 3.0-Instruct 在這方面展現了強大的「外科手術式」編輯能力。想像一下，你有一張完美的風景照，但想在草地上加一隻狗，或者把路邊的垃圾桶移除。傳統的 AI 可能會重繪整個區塊，導致草地紋理改變或光影不連貫。但這款模型能夠在添加、移除或修改特定元素時，保持非目標區域完全不變。它懂得分辨哪些是主角，哪些是背景，並小心翼翼地維護畫面的完整性。此外，多圖融合也是它的一大亮點。如果你想把 A 照片裡的人物，無縫放進 B 照片的場景中，這款模型能夠提取不同來源的元素，並將它們合成為一個統一、協調的輸出結果。光影、透視、色調，它都會自動幫你調整到最自然的狀態，彷彿這些元素原本就屬於同一個畫面。開源與社群：讓創意自由流動技術再強，如果鎖在實驗室裡也沒用。騰訊這次選擇將 HunyuanImage 3.0-Instruct 開源，顯示了他們推動社群發展的決心。這意味著開發者、研究人員和藝術家都可以直接訪問這些最先進的工具，並在此基礎上探索新的想法。你可以在 Github 上找到相關的程式碼與技術細節，或者直接到 Hugging Face 下載模型權重進行測試。對於硬體資源有限的使用者，他們甚至貼心地提供了蒸餾版（Distilled Version），讓更多人能夠在較低配置的設備上體驗高效的圖像生成與編輯。這種開放的態度有助於建立一個充滿活力的圖像生成生態系統。當全球的開發者都能參與優化與應用開發時，我們將會看到更多令人驚嘆的應用場景出現，從遊戲設計、廣告創意到個人娛樂，可能性是無限的。常見問題解答 (FAQ) 為了讓大家更清楚這款模型的特性，這裡整理了一些關鍵的問答： Q1：HunyuanImage 3.0-Instruct 與一般的文生圖模型有什麼不同？一般的模型通常是單向的，即從文字到圖像。而 HunyuanImage 3.0-Instruct 是原生的多模態模型，它能同時理解圖像和文字。這讓它在「圖生圖」或「圖像編輯」的任務上表現得更出色，因為它能看懂原圖的內容，而不僅僅是依賴文字描述。

Jan 29, 2026 Read →