Google 重磅發表 Gemini 2.5 Flash Image (nano-banana):AI 圖片生成與編輯的新紀元
探索 Google 最新 AI 圖像模型 Gemini 2.5 Flash Image (nano-banana)。本文將深入解析其強大的多圖融合、角色一致性、自然語言編輯等革命性功能,以及如何為開發者和企業帶來前所未有的創意控制力。
坦白說,AI 圖片生成的世界既迷人又讓人有點頭痛。你可能也遇過這種情況:想讓同一個角色出現在不同場景,AI 卻總是畫出一個「長得很像的陌生人」;或者,只是想微調圖片裡的一個小細節,卻搞得整張圖面目全非。
這些創作過程中的小摩擦,正是創作者們最渴望解決的痛點。
就在今天,Google 給出了回應。他們正式推出了堪稱業界頂尖的圖像生成與編輯模型——Gemini 2.5 Flash Image(內部代號 nano-banana)。這不只是一次小小的更新,更像是一場徹底的進化。它讓創作者能將多張圖片無縫融合、在不同場景中維持驚人的角色一致性,甚至用一句話就能進行精準的局部修改。
當初 Gemini 2.0 Flash 推出時,大家都很喜歡它的低延遲、高性價比和簡單好上手的特性。但同時,社群也給了很多回饋:我們需要更高品質的圖片,以及更強大的創意掌控權。
現在,Gemini 2.5 Flash Image 正是為此而來。
目前,開發者可以透過 Gemini API 和 Google AI Studio 使用這個模型,而企業用戶則可以透過 Vertex AI 平台導入。至於大家關心的價格,Gemini 2.5 Flash Image 的定價為每百萬輸入 0.3 美元,每百萬輸出 token 收費 30 美元,換算下來,生成一張圖片的成本大約是 0.039 美元(每張圖片輸出1290 tokens)。
數據會說話:Gemini 2.5 Flash Image 的性能表現
空口無憑,性能如何還是要看數據。根據 lmarena.ai 的基準測試和 Google 內部的提示詞集測試,Gemini 2.5 Flash Image 在多個關鍵指標上都展現了領先的實力,尤其是在「整體偏好度」和「角色」生成方面,其表現甚至超越了市面上其他知名的模型。
以下是與其他主流模型的 Elo 評分比較(分數越高代表表現越好):
評比類別 | Gemini 2.5 Flash Image | ChatGPT 4o / GPT Image 1 | FLUX.1 Kontext [max] | Qwen Image Edit | Gemini 2.0 Flash Image |
---|---|---|---|---|---|
角色 (Character) | ~1230 | ~1100 | ~1020 | ~920 | ~860 |
創意 (Creative) | ~1120 | ~1050 | ~970 | ~990 | ~880 |
物件/環境 (Object/Env) | ~1080 | ~1020 | ~1000 | ~1010 | ~900 |
風格化 (Stylization) | ~1050 | ~1180 | ~950 | ~1100 | ~730 |
排名 (UB) ↑ | 模型 ↑ | 分數 ↑ | 95% CI (±) ↑ | 投票數 ↑ | 組織 ↑ | 授權 ↑ |
---|---|---|---|---|---|---|
1 | gemini-2.5-flash-image-preview (nano-banana) | 1362 | ±2 | 2,521,035 | 專有 | |
2 | flux-1-kontext-max | 1191 | ±3 | 357,196 | Black Forest… | 專有 |
3 | flux-1-kontext-pro | 1174 | ±2 | 2,015,530 | Black Forest… | 專有 |
3 | gpt-image-1 | 1170 | ±3 | 1,026,399 | OpenAI | 專有 |
5 | flux-1-kontext-dev | 1152 | ±3 | 1,584,400 | Black Forest… | 專有 |
6 | qwen-image-edit | 1145 | ±2 | 1,585,904 | Alibaba | Apache 2.0 |
6 | seededit-3.0 | 1142 | ±4 | 1,285,080 | Bytedance | 專有 |
8 | gemini-2.0-flash-preview-image-generation | 1093 | ±3 | 1,700,785 | 專有 |
資料來源: https://lmarena.ai/leaderboard/image-edit
從表格中可以清楚看到,Gemini 2.5 Flash Image 在多數項目中都處於領先地位,這也印證了它在生成品質和創意控制上的巨大進步。
Gemini 2.5 Flash Image 的超能力,實際應用見真章
為了讓大家更直觀地感受它的威力,Google AI Studio 的「建構模式 (build mode)」也進行了大幅更新。你不僅可以快速測試模型的能力,還能用一個簡單的提示詞就打造出客製化的 AI 應用,甚至一鍵部署或將程式碼存到 GitHub。
接下來,我們來看看幾個最讓人驚豔的功能。
角色一致性?再也不是問題了!
在 AI 圖片生成中,最大的挑戰之一就是「維持角色或物件的連貫性」。不管是為故事書創造主角、為電商產品製作不同角度的展示圖,或為品牌產生一系列風格一致的素材,維持主體不變都是關鍵。
Gemini 2.5 Flash Image 在這方面取得了重大突破。現在,你可以輕鬆地將同一個角色放入完全不同的環境或情境中,同時完整保留其外貌特徵。官方的展示中,就將同一位女性分別塑造成了西洋棋大師、賽車手、足球員和射箭選手,而她的臉部特徵在所有圖片中都保持了高度的一致性。
想像一下,開發者可以利用這個特性,僅僅透過一個設計範本,就能為整個公司的員工生成風格統一的識別證,或為房地產網站製作大量的房源卡片,甚至為整個產品目錄生成動態的商品模型。
用「說」的就能修圖:精準的提示詞編輯
除了搞定人物,精準的局部修改也是一大痛點。Gemini 2.5 Flash Image 讓你能用最直覺的方式——自然語言——來進行精準的圖像編輯。
這代表什麼?你可以用簡單的指令做到:
- 「模糊這張照片的背景。」
- 「把 T 恤上的污漬移除。」
- 「幫這張黑白照片上色。」
- 「改變主角的姿勢。」
基本上,只要你能想到的修改,都可以用一句話來實現。在 Google 的示範中,使用者上傳了一張穿著黑色上衣、戴著耳環的男性照片,並下達指令:「change my shirt color to red and remove earring」(把我的上衣顏色改成紅色並移除耳環)。模型精準地完成了這兩項修改,生成了一張他穿著紅色上衣且沒有耳環的逼真照片。
多圖融合,無縫創作新場景
Gemini 2.5 Flash Image 還具備理解並融合多張輸入圖片的能力。這項功能為創意工作打開了全新的大門。
你可以將一件商品(例如一盞檯燈)的圖片,和一個室內場景的圖片融合,AI 會自動生成一張極度逼真的合成圖,彷彿這盞燈原本就在那個房間裡。你也可以為一個空間重新設計配色或材質,或將兩張完全不同的圖片融合成一張全新的藝術作品。
為了方便大家體驗,Google 同樣在 AI Studio 中建立了一個名為「Home Canvas」的範本應用,你只需拖曳產品和場景圖片,就能快速創造出照片級的合成影像。
不只是畫圖,它還看得懂手繪草稿
這個模型的能力遠不止於此。它甚至能理解手繪的圖表,並根據指令進行互動。
在一個展示案例中,開發者建立了一個名為「Gemini Co-Drawing」的應用。它將一個簡單的畫布變成了一位互動式家教。使用者可以畫出一個標示了兩條邊長(30 和 40)的直角三角形,並用文字提問:「解出 x 的值,並用紅色把正確答案寫在 x 的位置上。」Gemini 2.5 Flash Image 不僅能看懂圖、理解問題,還能按照指令完成複雜的編輯步驟,將正確答案「50」用紅色字體填入圖中。
這項能力為教育、設計和協作領域帶來了巨大的想像空間。
如何開始使用?以及重要的合作夥伴
準備好開始動手玩了嗎?
- 開發者: 可以立即透過 Gemini API 和 Google AI Studio 開始建構。
- 企業: 可透過 Vertex AI 平台將其整合到工作流程中。
此外,為了讓更廣泛的開發者社群能接觸到這項技術,Google 也宣布了與兩個重要平台的合作:
- OpenRouter.ai: Gemini 2.5 Flash Image 成為 OpenRouter 上超過 480 個模型中,第一個具備圖像生成能力的模型,將觸及超過 300 萬名開發者。
- fal.ai: 作為一個領先的生成式媒體開發平台,fal.ai 的加入將進一步擴大 Gemini 2.5 Flash Image 在開發者社群中的應用。
值得一提的是,所有由 Gemini 2.5 Flash Image 創建或編輯的圖片,都會包含一個隱形的 SynthID 數位浮水印,以便在需要時能夠識別其為 AI 生成或編輯的內容。
未來的展望
這趟旅程才剛剛開始。Google 團隊仍在積極努力,致力於改善長文本的渲染效果、提供更穩定的角色一致性,以及在圖像中呈現更精確的真實細節。
他們非常期待看到全球的開發者和創作者們,會如何運用 Gemini 2.5 Flash Image 來打造出令人驚豔的作品。你的回饋將是推動它不斷進步的重要動力。
準備好迎接 AI 圖像創作的新浪潮了嗎?快來試試 Gemini 吧!