Google 重磅發表 Gemini 2.5 Flash Image (nano-banana):AI 圖片生成與編輯的新紀元

探索 Google 最新 AI 圖像模型 Gemini 2.5 Flash Image (nano-banana)。本文將深入解析其強大的多圖融合、角色一致性、自然語言編輯等革命性功能,以及如何為開發者和企業帶來前所未有的創意控制力。


坦白說,AI 圖片生成的世界既迷人又讓人有點頭痛。你可能也遇過這種情況:想讓同一個角色出現在不同場景,AI 卻總是畫出一個「長得很像的陌生人」;或者,只是想微調圖片裡的一個小細節,卻搞得整張圖面目全非。

這些創作過程中的小摩擦,正是創作者們最渴望解決的痛點。

就在今天,Google 給出了回應。他們正式推出了堪稱業界頂尖的圖像生成與編輯模型——Gemini 2.5 Flash Image(內部代號 nano-banana)。這不只是一次小小的更新,更像是一場徹底的進化。它讓創作者能將多張圖片無縫融合、在不同場景中維持驚人的角色一致性,甚至用一句話就能進行精準的局部修改。

當初 Gemini 2.0 Flash 推出時,大家都很喜歡它的低延遲、高性價比和簡單好上手的特性。但同時,社群也給了很多回饋:我們需要更高品質的圖片,以及更強大的創意掌控權。

現在,Gemini 2.5 Flash Image 正是為此而來。

目前,開發者可以透過 Gemini APIGoogle AI Studio 使用這個模型,而企業用戶則可以透過 Vertex AI 平台導入。至於大家關心的價格,Gemini 2.5 Flash Image 的定價為每百萬輸入 0.3 美元,每百萬輸出 token 收費 30 美元,換算下來,生成一張圖片的成本大約是 0.039 美元(每張圖片輸出1290 tokens)。

數據會說話:Gemini 2.5 Flash Image 的性能表現

空口無憑,性能如何還是要看數據。根據 lmarena.ai 的基準測試和 Google 內部的提示詞集測試,Gemini 2.5 Flash Image 在多個關鍵指標上都展現了領先的實力,尤其是在「整體偏好度」和「角色」生成方面,其表現甚至超越了市面上其他知名的模型。

以下是與其他主流模型的 Elo 評分比較(分數越高代表表現越好):

評比類別Gemini 2.5 Flash ImageChatGPT 4o / GPT Image 1FLUX.1 Kontext [max]Qwen Image EditGemini 2.0 Flash Image
角色 (Character)~1230~1100~1020~920~860
創意 (Creative)~1120~1050~970~990~880
物件/環境 (Object/Env)~1080~1020~1000~1010~900
風格化 (Stylization)~1050~1180~950~1100~730
排名 (UB) ↑模型 ↑分數 ↑95% CI (±) ↑投票數 ↑組織 ↑授權 ↑
1gemini-2.5-flash-image-preview (nano-banana)1362±22,521,035Google專有
2flux-1-kontext-max1191±3357,196Black Forest…專有
3flux-1-kontext-pro1174±22,015,530Black Forest…專有
3gpt-image-11170±31,026,399OpenAI專有
5flux-1-kontext-dev1152±31,584,400Black Forest…專有
6qwen-image-edit1145±21,585,904AlibabaApache 2.0
6seededit-3.01142±41,285,080Bytedance專有
8gemini-2.0-flash-preview-image-generation1093±31,700,785Google專有

資料來源: https://lmarena.ai/leaderboard/image-edit

從表格中可以清楚看到,Gemini 2.5 Flash Image 在多數項目中都處於領先地位,這也印證了它在生成品質和創意控制上的巨大進步。

Gemini 2.5 Flash Image 的超能力,實際應用見真章

為了讓大家更直觀地感受它的威力,Google AI Studio 的「建構模式 (build mode)」也進行了大幅更新。你不僅可以快速測試模型的能力,還能用一個簡單的提示詞就打造出客製化的 AI 應用,甚至一鍵部署或將程式碼存到 GitHub。

接下來,我們來看看幾個最讓人驚豔的功能。

角色一致性?再也不是問題了!

在 AI 圖片生成中,最大的挑戰之一就是「維持角色或物件的連貫性」。不管是為故事書創造主角、為電商產品製作不同角度的展示圖,或為品牌產生一系列風格一致的素材,維持主體不變都是關鍵。

Gemini 2.5 Flash Image 在這方面取得了重大突破。現在,你可以輕鬆地將同一個角色放入完全不同的環境或情境中,同時完整保留其外貌特徵。官方的展示中,就將同一位女性分別塑造成了西洋棋大師、賽車手、足球員和射箭選手,而她的臉部特徵在所有圖片中都保持了高度的一致性。

想像一下,開發者可以利用這個特性,僅僅透過一個設計範本,就能為整個公司的員工生成風格統一的識別證,或為房地產網站製作大量的房源卡片,甚至為整個產品目錄生成動態的商品模型。

用「說」的就能修圖:精準的提示詞編輯

除了搞定人物,精準的局部修改也是一大痛點。Gemini 2.5 Flash Image 讓你能用最直覺的方式——自然語言——來進行精準的圖像編輯。

這代表什麼?你可以用簡單的指令做到:

  • 「模糊這張照片的背景。」
  • 「把 T 恤上的污漬移除。」
  • 「幫這張黑白照片上色。」
  • 「改變主角的姿勢。」

基本上,只要你能想到的修改,都可以用一句話來實現。在 Google 的示範中,使用者上傳了一張穿著黑色上衣、戴著耳環的男性照片,並下達指令:「change my shirt color to red and remove earring」(把我的上衣顏色改成紅色並移除耳環)。模型精準地完成了這兩項修改,生成了一張他穿著紅色上衣且沒有耳環的逼真照片。

多圖融合,無縫創作新場景

Gemini 2.5 Flash Image 還具備理解並融合多張輸入圖片的能力。這項功能為創意工作打開了全新的大門。

你可以將一件商品(例如一盞檯燈)的圖片,和一個室內場景的圖片融合,AI 會自動生成一張極度逼真的合成圖,彷彿這盞燈原本就在那個房間裡。你也可以為一個空間重新設計配色或材質,或將兩張完全不同的圖片融合成一張全新的藝術作品。

為了方便大家體驗,Google 同樣在 AI Studio 中建立了一個名為「Home Canvas」的範本應用,你只需拖曳產品和場景圖片,就能快速創造出照片級的合成影像。

不只是畫圖,它還看得懂手繪草稿

這個模型的能力遠不止於此。它甚至能理解手繪的圖表,並根據指令進行互動。

在一個展示案例中,開發者建立了一個名為「Gemini Co-Drawing」的應用。它將一個簡單的畫布變成了一位互動式家教。使用者可以畫出一個標示了兩條邊長(30 和 40)的直角三角形,並用文字提問:「解出 x 的值,並用紅色把正確答案寫在 x 的位置上。」Gemini 2.5 Flash Image 不僅能看懂圖、理解問題,還能按照指令完成複雜的編輯步驟,將正確答案「50」用紅色字體填入圖中。

這項能力為教育、設計和協作領域帶來了巨大的想像空間。

如何開始使用?以及重要的合作夥伴

準備好開始動手玩了嗎?

  • 開發者: 可以立即透過 Gemini APIGoogle AI Studio 開始建構。
  • 企業: 可透過 Vertex AI 平台將其整合到工作流程中。

此外,為了讓更廣泛的開發者社群能接觸到這項技術,Google 也宣布了與兩個重要平台的合作:

  1. OpenRouter.ai: Gemini 2.5 Flash Image 成為 OpenRouter 上超過 480 個模型中,第一個具備圖像生成能力的模型,將觸及超過 300 萬名開發者。
  2. fal.ai: 作為一個領先的生成式媒體開發平台,fal.ai 的加入將進一步擴大 Gemini 2.5 Flash Image 在開發者社群中的應用。

值得一提的是,所有由 Gemini 2.5 Flash Image 創建或編輯的圖片,都會包含一個隱形的 SynthID 數位浮水印,以便在需要時能夠識別其為 AI 生成或編輯的內容。

未來的展望

這趟旅程才剛剛開始。Google 團隊仍在積極努力,致力於改善長文本的渲染效果、提供更穩定的角色一致性,以及在圖像中呈現更精確的真實細節。

他們非常期待看到全球的開發者和創作者們,會如何運用 Gemini 2.5 Flash Image 來打造出令人驚豔的作品。你的回饋將是推動它不斷進步的重要動力。

準備好迎接 AI 圖像創作的新浪潮了嗎?快來試試 Gemini 吧!

分享至:
DMflow.chat Ad
廣告

DMflow.chat

探索DMflow.chat,開啟AI驅動的客戶服務新時代。

Learn More

© 2025 Communeify. All rights reserved.