Google 重磅發表 Gemini 2.5 Flash Image (nano-banana)：AI 圖片生成與編輯的新紀元

探索 Google 最新 AI 圖像模型 Gemini 2.5 Flash Image (nano-banana)。本文將深入解析其強大的多圖融合、角色一致性、自然語言編輯等革命性功能，以及如何為開發者和企業帶來前所未有的創意控制力。

坦白說，AI 圖片生成的世界既迷人又讓人有點頭痛。你可能也遇過這種情況：想讓同一個角色出現在不同場景，AI 卻總是畫出一個「長得很像的陌生人」；或者，只是想微調圖片裡的一個小細節，卻搞得整張圖面目全非。

這些創作過程中的小摩擦，正是創作者們最渴望解決的痛點。

就在今天，Google 給出了回應。他們正式推出了堪稱業界頂尖的圖像生成與編輯模型——Gemini 2.5 Flash Image（內部代號 nano-banana）。這不只是一次小小的更新，更像是一場徹底的進化。它讓創作者能將多張圖片無縫融合、在不同場景中維持驚人的角色一致性，甚至用一句話就能進行精準的局部修改。

當初 Gemini 2.0 Flash 推出時，大家都很喜歡它的低延遲、高性價比和簡單好上手的特性。但同時，社群也給了很多回饋：我們需要更高品質的圖片，以及更強大的創意掌控權。

現在，Gemini 2.5 Flash Image 正是為此而來。

目前，開發者可以透過 Gemini API 和 Google AI Studio 使用這個模型，而企業用戶則可以透過 Vertex AI 平台導入。至於大家關心的價格，Gemini 2.5 Flash Image 的定價為每百萬輸入 0.3 美元，每百萬輸出 token 收費 30 美元，換算下來，生成一張圖片的成本大約是 0.039 美元(每張圖片輸出1290 tokens)。

數據會說話：Gemini 2.5 Flash Image 的性能表現

空口無憑，性能如何還是要看數據。根據 lmarena.ai 的基準測試和 Google 內部的提示詞集測試，Gemini 2.5 Flash Image 在多個關鍵指標上都展現了領先的實力，尤其是在「整體偏好度」和「角色」生成方面，其表現甚至超越了市面上其他知名的模型。

以下是與其他主流模型的 Elo 評分比較（分數越高代表表現越好）：

評比類別	Gemini 2.5 Flash Image	ChatGPT 4o / GPT Image 1	FLUX.1 Kontext [max]	Qwen Image Edit	Gemini 2.0 Flash Image
角色 (Character)	~1230	~1100	~1020	~920	~860
創意 (Creative)	~1120	~1050	~970	~990	~880
物件/環境 (Object/Env)	~1080	~1020	~1000	~1010	~900
風格化 (Stylization)	~1050	~1180	~950	~1100	~730

排名 (UB) ↑	模型 ↑	分數 ↑	95% CI (±) ↑	投票數 ↑	組織 ↑	授權 ↑
1	`gemini-2.5-flash-image-preview (nano-banana)`	1362	±2	2,521,035	Google	專有
2	`flux-1-kontext-max`	1191	±3	357,196	Black Forest…	專有
3	`flux-1-kontext-pro`	1174	±2	2,015,530	Black Forest…	專有
3	`gpt-image-1`	1170	±3	1,026,399	OpenAI	專有
5	`flux-1-kontext-dev`	1152	±3	1,584,400	Black Forest…	專有
6	`qwen-image-edit`	1145	±2	1,585,904	Alibaba	Apache 2.0
6	`seededit-3.0`	1142	±4	1,285,080	Bytedance	專有
8	`gemini-2.0-flash-preview-image-generation`	1093	±3	1,700,785	Google	專有

資料來源: https://lmarena.ai/leaderboard/image-edit

從表格中可以清楚看到，Gemini 2.5 Flash Image 在多數項目中都處於領先地位，這也印證了它在生成品質和創意控制上的巨大進步。

Gemini 2.5 Flash Image 的超能力，實際應用見真章

為了讓大家更直觀地感受它的威力，Google AI Studio 的「建構模式 (build mode)」也進行了大幅更新。你不僅可以快速測試模型的能力，還能用一個簡單的提示詞就打造出客製化的 AI 應用，甚至一鍵部署或將程式碼存到 GitHub。

接下來，我們來看看幾個最讓人驚豔的功能。

角色一致性？再也不是問題了！

在 AI 圖片生成中，最大的挑戰之一就是「維持角色或物件的連貫性」。不管是為故事書創造主角、為電商產品製作不同角度的展示圖，或為品牌產生一系列風格一致的素材，維持主體不變都是關鍵。

Gemini 2.5 Flash Image 在這方面取得了重大突破。現在，你可以輕鬆地將同一個角色放入完全不同的環境或情境中，同時完整保留其外貌特徵。官方的展示中，就將同一位女性分別塑造成了西洋棋大師、賽車手、足球員和射箭選手，而她的臉部特徵在所有圖片中都保持了高度的一致性。

想像一下，開發者可以利用這個特性，僅僅透過一個設計範本，就能為整個公司的員工生成風格統一的識別證，或為房地產網站製作大量的房源卡片，甚至為整個產品目錄生成動態的商品模型。

用「說」的就能修圖：精準的提示詞編輯

除了搞定人物，精準的局部修改也是一大痛點。Gemini 2.5 Flash Image 讓你能用最直覺的方式——自然語言——來進行精準的圖像編輯。

這代表什麼？你可以用簡單的指令做到：

「模糊這張照片的背景。」
「把 T 恤上的污漬移除。」
「幫這張黑白照片上色。」
「改變主角的姿勢。」

基本上，只要你能想到的修改，都可以用一句話來實現。在 Google 的示範中，使用者上傳了一張穿著黑色上衣、戴著耳環的男性照片，並下達指令：「change my shirt color to red and remove earring」（把我的上衣顏色改成紅色並移除耳環）。模型精準地完成了這兩項修改，生成了一張他穿著紅色上衣且沒有耳環的逼真照片。

多圖融合，無縫創作新場景

Gemini 2.5 Flash Image 還具備理解並融合多張輸入圖片的能力。這項功能為創意工作打開了全新的大門。

你可以將一件商品（例如一盞檯燈）的圖片，和一個室內場景的圖片融合，AI 會自動生成一張極度逼真的合成圖，彷彿這盞燈原本就在那個房間裡。你也可以為一個空間重新設計配色或材質，或將兩張完全不同的圖片融合成一張全新的藝術作品。

為了方便大家體驗，Google 同樣在 AI Studio 中建立了一個名為「Home Canvas」的範本應用，你只需拖曳產品和場景圖片，就能快速創造出照片級的合成影像。

不只是畫圖，它還看得懂手繪草稿

這個模型的能力遠不止於此。它甚至能理解手繪的圖表，並根據指令進行互動。

在一個展示案例中，開發者建立了一個名為「Gemini Co-Drawing」的應用。它將一個簡單的畫布變成了一位互動式家教。使用者可以畫出一個標示了兩條邊長（30 和 40）的直角三角形，並用文字提問：「解出 x 的值，並用紅色把正確答案寫在 x 的位置上。」Gemini 2.5 Flash Image 不僅能看懂圖、理解問題，還能按照指令完成複雜的編輯步驟，將正確答案「50」用紅色字體填入圖中。

這項能力為教育、設計和協作領域帶來了巨大的想像空間。

如何開始使用？以及重要的合作夥伴

準備好開始動手玩了嗎？

開發者： 可以立即透過 Gemini API 和 Google AI Studio 開始建構。
企業： 可透過 Vertex AI 平台將其整合到工作流程中。

此外，為了讓更廣泛的開發者社群能接觸到這項技術，Google 也宣布了與兩個重要平台的合作：

OpenRouter.ai： Gemini 2.5 Flash Image 成為 OpenRouter 上超過 480 個模型中，第一個具備圖像生成能力的模型，將觸及超過 300 萬名開發者。
fal.ai： 作為一個領先的生成式媒體開發平台，fal.ai 的加入將進一步擴大 Gemini 2.5 Flash Image 在開發者社群中的應用。

值得一提的是，所有由 Gemini 2.5 Flash Image 創建或編輯的圖片，都會包含一個隱形的 SynthID 數位浮水印，以便在需要時能夠識別其為 AI 生成或編輯的內容。

未來的展望

這趟旅程才剛剛開始。Google 團隊仍在積極努力，致力於改善長文本的渲染效果、提供更穩定的角色一致性，以及在圖像中呈現更精確的真實細節。

他們非常期待看到全球的開發者和創作者們，會如何運用 Gemini 2.5 Flash Image 來打造出令人驚豔的作品。你的回饋將是推動它不斷進步的重要動力。

準備好迎接 AI 圖像創作的新浪潮了嗎？快來試試 Gemini 吧！

分享至:

Featured Partners

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

Recommended for You

讓 …

tool

讓設計動起來：多模態 Lottie 動畫生成器 OmniLottie 完整解析

或許讀者會好奇，每次打開手機應用程式，那些流暢又精緻的加載動畫究竟是如何製作出來的？這些通常被稱為 Lottie 的向量動畫格式，因為體積非常小、放大縮小都不失真，而且在網頁或手機端運行極度順暢，長久以來廣受開發者與設計師的喜愛。老實說，製作這些向量動畫從來都不簡單。傳統的工作流程需要專業設計師透過複雜的軟體，逐格調整關鍵影格與數學曲線。這個過程極度耗時。不過，開源社群最近迎來了一項令人振奮的突破，那就是 OmniLottie 專案。作為一款完整整合的多模態 Lottie 生成器家族，它甚至強勢入選了電腦視覺領域頂級會議 CVPR 2026。這項技術的出現，讓原本繁瑣的動畫製作過程變得就像寫幾句文字一樣簡單。為什麼 Lottie 動畫這麼難搞？事情是這樣的長久以來，人工智慧在生成點陣圖或一般影片上已經取得了巨大的進展。大家只要輸入一段文字，就能得到一張栩栩如生的圖片。然而，向量動畫完全是另一回事。向量動畫依賴的是數學公式與參數化的圖形節點，這需要極高的精確度。 OmniLottie 巧妙地解決了這個痛點。它利用預先訓練的視覺語言模型（VLMs），讓系統具備了理解複雜指令的能力。這意味著，原本只能由人類大腦構思的幾何變換與時間軸控制，現在可以直接交由 AI 來運算處理。打破單一輸入限制，圖文影音全包辦傳統的生成工具通常只接受文字提示詞，這在實際應用上往往不夠直覺。OmniLottie 的核心亮點在於它全面支援多模態輸入。這就像是委託一位專業動畫師，委託人不僅可以口頭描述需求，還可以拿著參考圖片或影片給他看。它主要支援三大生成任務：第一是文本到 Lottie 生成。使用者只要輸入一段簡單的文字描述，像是「一個紅色的球出現，上下彈跳後慢慢消失」，系統就會直接生成對應的複雜向量動畫。第二是圖文到 Lottie 生成。如果單純用文字難以描述特定的設計風格，使用者可以直接提供一張靜態圖片，並搭配文字指引。模型會以此作為視覺基礎，賦予靜態圖片動態效果。第三個功能最令人驚豔，也就是影片轉 Lottie。它可以直接讀取一段普通的 MP4 影片，然後從中提取動態特徵，將其完美轉換為輕量級的 Lottie 動畫格式。如果想要親自體驗這種神奇的轉換過程，任何人都可以前往開發團隊部署在Hugging Face Space 的線上展示介面動手玩玩看。藏在引擎蓋底下的硬核技術與友善門檻這聽起來需要極其龐大的運算資源，對吧？其實不然。它的硬體門檻比想像中來得親民。根據 OmniLottie 官方網站釋出的技術文件，這個模型是建立在 Qwen/Qwen2.5-VL-3B-Instruct 基礎模型之上進行微調的。目前發布的 OmniLottie (4B) 模型權重檔案大小約為 8.46 GB。對於想要在本地端部署這套系統的開發者來說，執行推理大約需要消耗 15.2G 的 GPU 記憶體。換句話說，一張當前主流的中高階顯示卡就能順利讓它跑起來。開發團隊也展現了極高的開源精神。目前所有的推理程式碼、模型權重以及訓練程式碼都已經對外公開。無論是想要整合進既有專案的企業團隊，還是純粹喜歡鑽研技術的獨立開發者，都能毫無阻礙地取得這些資源。給未來研究者的超級大禮包：兩百萬筆資料與評估協議任何強大的人工智慧模型背後，都少不了海量資料的支撐。為了解決向量動畫領域長期缺乏優質訓練資料的問題，團隊同步釋出了一個龐大的寶庫，也就是 MMLottie-2M 資料集。這個資料集採用 cc-by-nc-sa-4.0 授權，裡面包含了高達兩百萬個具備豐富註解的多模態 Lottie 動畫樣本。這就像是給了 AI 兩百萬本圖文並茂的教科書，讓它能徹底學會向量動畫的語言。此外，為了解決過去各家模型各說各話、難以客觀比較的問題，他們還建立了一套名為 MMLottieBench 的標準化測試集。這套評估協議包含了 900 個精選測試樣本，其中精準劃分了 450 個真實世界樣本與 450 個合成樣本，並平均涵蓋了前面提到的三大核心生成任務。這為後續的模型開發設定了一個清晰明確的比較標準。

Mar 9, 2026 Read →

F …

tool

FASHN VTON v1.5 登場：消費級顯卡也能跑的高畫質虛擬試穿 AI，細節保留更勝以往

FASHN VTON v1.5 是一款全新的開源虛擬試穿 AI 模型，採用 Apache-2.0 授權，允許商業用途。這款模型最大的特色在於直接在「像素空間」生成影像，而非傳統的潛在空間，能保留更多衣物材質細節。更棒的是，它只需要 8GB VRAM 的消費級顯卡即可運行。本文將詳細解析其技術架構、優勢以及如何安裝使用。對於經常在網上買衣服的人來說，最大的痛點莫過於「這件衣服穿在我身上到底好看不好看」。雖然虛擬試穿（Virtual Try-On，簡稱 VTON）技術已經存在一段時間，但過去的解決方案往往面臨兩個極端：要麼是效果極佳但需要昂貴算力的閉源商業軟體，要麼是效果平平、安裝複雜的開源專案。最近，FASHN AI 團隊發布了 FASHN VTON v1.5，這可能正是開發者和電商平台一直在尋找的平衡點。這款模型不僅開源（採用 Apache-2.0 授權），而且可以在一般的遊戲顯卡上運行。這意味著什麼，這代表高品質的虛擬試穿技術不再是科技巨頭的專利，中小型開發者甚至個人愛好者也能在家用電腦上部署這項技術。這款模型究竟有何特別之處，為什麼它選擇了一條與眾不同的技術路徑，以及它在實際應用中的表現如何，讓我們來仔細看看。告別模糊細節：像素空間生成的優勢在探討 FASHN VTON v1.5 之前，得先聊聊目前主流的 AI 生成技術。大多數基於擴散模型（Diffusion Models）的圖像生成工具，為了節省運算資源，通常會使用變分自動編碼器（VAE）將圖像壓縮到「潛在空間（Latent Space）」進行處理。雖然這樣速度快，但就像把圖片存成低畫質 JPEG 一樣，解壓縮後往往會丟失許多微小的細節。 FASHN VTON v1.5 選擇了一條不同的路。它直接在 RGB 像素空間（Pixel Space）進行操作。這聽起來可能只是技術術語的差異，但對於時尚產業來說，這可是天壤之別。這意味著衣物上的精細紋理、複雜的圖案，甚至是品牌 Logo 上的文字，都不會因為編碼壓縮而變得模糊不清。這種方法採用了 12x12 的區塊嵌入（Patch Embedding），完全消除了 VAE 編碼帶來的信息損失。如果您曾經因為虛擬試穿後的衣服看起來像是一團模糊的色塊而感到失望，那麼這種像素級生成的技術，正是為了解決這個問題而生的。無遮罩推論：讓衣服自然「穿」在身上傳統的虛擬試穿模型通常需要一個「遮罩（Mask）」，也就是需要人工或演算法先指定「這裡是身體，這裡是衣服，請把衣服填進這個區域」。這種做法最大的缺點是，新衣服的形狀會被舊衣服的輪廓限制住。試想一下，如果你原本穿著一件羽絨外套，想試穿一件緊身背心，傳統模型往往會不知所措，或者生成的影像看起來非常不自然。 FASHN VTON v1.5 引入了無遮罩推論（Maskless Inference）機制。它不需要預先分割遮罩，模型會自己學習衣服與身體的邊界。這讓衣物能夠展現其自然的垂墜感和形態，完全不受模特兒原始穿著的形狀限制。更重要的是，這種處理方式對於保持「身體特徵」非常有效。無論是模特兒身上的刺青、原本的體型特徵，甚至是佩戴的文化服飾（例如希賈布 Hijab），都能在換裝過程中被完整保留下來。這對於追求真實感和尊重多元文化的時尚應用來說，是一個巨大的進步。親民的硬體需求：消費級顯卡的福音談到 AI 模型，大家最擔心的通常是硬體門檻。動輒需要 A100 這種企業級顯卡的要求，往往讓許多開發者望而卻步。FASHN VTON v1.5 在這方面展現了極大的誠意。

Jan 29, 2026 Read →

會 …

tool

會思考的 AI 畫家？騰訊 HunyuanImage 3.0-Instruct 讓圖像編輯更懂你

你是否厭倦了 AI 繪圖工具「聽不懂人話」的窘境？騰訊最新推出的 HunyuanImage 3.0-Instruct 不僅僅是生成圖片，它更像是一位會先思考再動筆的藝術家。透過獨特的思維鏈（CoT）技術與強大的多模態架構，這款模型在理解複雜指令、精準修圖與多圖融合上展現了驚人的實力。本文將帶你深入了解這款開源模型的技術亮點與實際應用。 AI 繪圖的下一步：不僅是畫，更要懂老實說，目前的 AI 繪圖工具雖然厲害，但常常讓人感到挫折。你想要修改畫面中的一個小細節，結果 AI 卻把整張圖的背景都換掉了，這種「牽一髮動全身」的尷尬情況屢見不鮮。這是因為大多數模型只是在執行命令，並沒有真正理解圖像中的邏輯關係。騰訊推出的 HunyuanImage 3.0-Instruct 正是為了解決這個痛點而生。這款模型最大的特色在於它「會思考」。它不僅僅是一個圖像生成器，更是一個原生的多模態模型，能夠將視覺理解與精準的圖像合成完美結合。這意味著，當你發出指令時，它會先像人類畫家一樣，觀察現有的畫面，思考構圖與邏輯，然後才開始動筆。這款模型基於 800 億參數的 MoE（混合專家）架構構建，其中有 130 億參數處於活躍狀態。這種設計讓它在保持高效能的同時，擁有了深度的理解能力，能夠生成高品質、高保真度的圖像。對於那些追求細節的創作者來說，這無疑是一個令人興奮的消息。擁有「思維鏈」的大腦：它如何理解你的意圖？我們常說 AI 像個黑盒子，你丟進去指令，它吐出結果，中間發生了什麼沒人知道。但 HunyuanImage 3.0-Instruct 不一樣，它引入了一種名為「原生思維鏈」（Native Chain-of-Thought, CoT）的機制。這是什麼概念呢？簡單來說，模型在執行你的指令之前，會先進行一段「內心獨白」。它會分析你的要求，拆解複雜的步驟，並規劃如何執行才能最符合你的預期。配合騰訊自家研發的 MixGRPO 演算法，這個過程讓模型能夠處理非常複雜的指令，確保最終生成的結果與人類的偏好高度一致。這就像是原本的 AI 是一個只會聽關鍵字的學徒，叫他畫蘋果他就畫蘋果；而現在的 AI 變成了一位資深設計師，你會告訴他「我想要一顆蘋果放在桌上，光線要從左邊來，感覺要有點憂鬱」，他會先消化這些情緒與邏輯，再呈現出你想要的作品。這對於需要精細控制的專業工作流來說，是一個巨大的進步。精準修圖：只動該動的地方對於設計師或一般使用者來說，最大的惡夢莫過於修圖時破壞了原本完美的畫面。HunyuanImage 3.0-Instruct 在這方面展現了強大的「外科手術式」編輯能力。想像一下，你有一張完美的風景照，但想在草地上加一隻狗，或者把路邊的垃圾桶移除。傳統的 AI 可能會重繪整個區塊，導致草地紋理改變或光影不連貫。但這款模型能夠在添加、移除或修改特定元素時，保持非目標區域完全不變。它懂得分辨哪些是主角，哪些是背景，並小心翼翼地維護畫面的完整性。此外，多圖融合也是它的一大亮點。如果你想把 A 照片裡的人物，無縫放進 B 照片的場景中，這款模型能夠提取不同來源的元素，並將它們合成為一個統一、協調的輸出結果。光影、透視、色調，它都會自動幫你調整到最自然的狀態，彷彿這些元素原本就屬於同一個畫面。開源與社群：讓創意自由流動技術再強，如果鎖在實驗室裡也沒用。騰訊這次選擇將 HunyuanImage 3.0-Instruct 開源，顯示了他們推動社群發展的決心。這意味著開發者、研究人員和藝術家都可以直接訪問這些最先進的工具，並在此基礎上探索新的想法。你可以在 Github 上找到相關的程式碼與技術細節，或者直接到 Hugging Face 下載模型權重進行測試。對於硬體資源有限的使用者，他們甚至貼心地提供了蒸餾版（Distilled Version），讓更多人能夠在較低配置的設備上體驗高效的圖像生成與編輯。這種開放的態度有助於建立一個充滿活力的圖像生成生態系統。當全球的開發者都能參與優化與應用開發時，我們將會看到更多令人驚嘆的應用場景出現，從遊戲設計、廣告創意到個人娛樂，可能性是無限的。常見問題解答 (FAQ) 為了讓大家更清楚這款模型的特性，這裡整理了一些關鍵的問答： Q1：HunyuanImage 3.0-Instruct 與一般的文生圖模型有什麼不同？一般的模型通常是單向的，即從文字到圖像。而 HunyuanImage 3.0-Instruct 是原生的多模態模型，它能同時理解圖像和文字。這讓它在「圖生圖」或「圖像編輯」的任務上表現得更出色，因為它能看懂原圖的內容，而不僅僅是依賴文字描述。

Jan 29, 2026 Read →