news

掌握 Google 最新影像模型:Nano Banana Pro 開發者實戰手冊

November 24, 2025
Updated Nov 24
3 min read

想要深入了解 Google 最新的 Nano Banana Pro (Gemini 3 Pro Image) 模型嗎?本文將帶領讀者從環境設定、API 串接,到掌握其獨特的「思考能力」與「搜尋整合」功能。無論是追求 4K 高畫質輸出,還是複雜的圖文整合,這份完整指南將協助開發者充分發揮這款 AI 工具的潛力,打造令人驚艷的創意應用。


建議搭配原文https://x.com/GoogleAIStudio/article/1992267030050083091

導言:AI 繪圖的全新進化

想像一下,如果 AI 不僅僅是聽從指令畫圖,而是像一位真正的藝術家一樣,在動筆前會先仔細思考構圖、邏輯甚至去查閱最新的資料,那會是什麼樣的體驗?Google AI Studio 最新推出的 Nano Banana Pro(即 Gemini 3 Pro Image)正是這樣一款突破性的工具。

相較於強調速度與性價比的 Flash 版本(Nano Banana),這款 Pro 版本引入了更為高階的功能:它具備「思考」能力、能結合 Google 搜尋結果,甚至支援驚人的 4K 解析度輸出。對於開發者與專業創作者來說,這意味著創作複雜、高精細度應用的門檻大幅降低。這不僅僅是畫素的提升,更是創作邏輯的轉變。接下來,本文將一步步拆解如何使用這款強大的工具。


1. Google AI Studio:開發者的最佳試驗場

對於終端使用者來說,或許透過 Gemini App 就能體驗到新模型的功能,但對於開發者而言,Google AI Studio 才是真正展現身手的地方。這裡不僅是用來測試提示詞(Prompts)的沙盒,更是未來透過 Gemini API 建構應用程式的起點。

要開始使用 Nano Banana Pro,你需要前往 Google AI Studio 並登入 Google 帳號。在模型選擇器中,請準確選取 Nano Banana Pro (Gemini 3 Pro Image)。這裡有一個關鍵差異需要注意:與普通的 Nano Banana 不同,Pro 版本沒有免費層級。這意味著在開始之前,必須確保專案已連結計費帳戶。雖然這聽起來增加了一些門檻,但考慮到其提供的功能,這筆投資往往是值得的。

此外,Google AI Studio 還允許開發者直接在網頁上編寫和測試 Web App,甚至可以參考現有的範例程式碼進行修改,大大加速了原型的開發過程。


2. 專案環境設定與計費啟用

在撰寫任何程式碼之前,基礎建設必須先打好。要順利跟隨本指南操作,你需要準備好以下三樣東西:

  • 從 Google AI Studio 取得的 API Key。
  • 已設定計費(Billing)的 Google Cloud 專案。
  • 安裝好適用於 Python 或 JavaScript/TypeScript 的 Google Gen AI SDK。

步驟 A:獲取 API Key

當你首次登入 AI Studio 時,系統通常會自動建立一個 Google Cloud 專案與對應的 API Key。如果沒有,只需開啟 API 金鑰管理介面,點擊複製圖示即可。這個金鑰就像是通往 AI 世界的鑰匙,請務必妥善保管。

步驟 B:啟用計費功能

這是許多新手容易卡關的地方。由於 Nano Banana Pro 是付費模型,你必須在 API 金鑰管理頁面中,點擊專案旁邊的「設定計費」(Set up billing),並依照螢幕指示完成信用卡或帳戶綁定。

關於成本的小提示: Nano Banana Pro 的圖像生成成本高於 Flash 版本,特別是在 4K 解析度下。撰寫本文時,生成一張 1K 或 2K 圖片的成本約為 $0.134 美元,而 4K 圖片則為 $0.24 美元(尚未包含輸入與文字輸出的 Token 費用)。

省錢秘訣: 如果你的應用對時間不敏感,可以使用 Batch API。雖然可能需要等待較長時間(最多 24 小時)才能收到結果,但可以節省高達 50% 的生成成本。

步驟 C:安裝 SDK

選擇你偏好的程式語言進行安裝。以 Python 為例,指令非常簡單:

pip install -U google-genai
# 安裝 Pillow 函式庫以進行圖片處理
pip install -U Pillow

若使用 JavaScript / TypeScript:

npm install @google/genai

3. 初始化客戶端 (Client Initialization)

一切準備就緒後,就可以開始寫程式了。要呼叫 Pro 模型,我們需要指定正確的模型 ID:gemini-3-pro-image-preview

以下是 Python 的初始化範例:

from google import genai
from google.genai import types

# 初始化客戶端
client = genai.Client(api_key="YOUR_API_KEY")

# 設定模型 ID
PRO_MODEL_ID = "gemini-3-pro-image-preview"

這段程式碼建立了一個與 Google 伺服器溝通的橋樑,後續所有的指令都將透過這個 client 物件發送。


4. 基礎生成:經典操作 (Basic Generation)

在探索那些花俏的新功能之前,我們先來看看標準的圖像生成是如何運作的。開發者可以透過 response_modalities 參數來控制輸出內容(僅圖像,或是包含文字),並透過 aspect_ratio 設定圖片比例。

prompt = "Create a photorealistic image of a siamese cat with a green left eye and a blue right eye."
aspect_ratio = "16:9" 

response = client.models.generate_content(
    model=PRO_MODEL_ID,
    contents=prompt,
    config=types.GenerateContentConfig(
        response_modalities=['Text', 'Image'], # 可以設定只回傳圖片
        image_config=types.ImageConfig(
            aspect_ratio=aspect_ratio,
        )
    )
)

# 顯示並儲存圖片
for part in response.parts:
    if image:= part.as_image():
        image.save("cat.png")

這就像是數位時代的「Hello World」,一旦成功生成這張異色瞳的暹羅貓圖片,就代表你的環境已經完全打通了。


5. 解鎖「思考」能力 (The “Thinking” Process)

這正是 Nano Banana Pro 與眾不同之處。這個模型不只是在畫畫,它還會「思考」。這意味著當面對複雜、曲折或抽象的提示詞時,模型會先進行邏輯推理,規劃畫面結構,然後才開始生成圖像。最棒的是,開發者可以查看這個思考過程!

要啟用此功能,只需在設定中將 include_thoughts 設為 True

prompt = "Create an unusual but realistic image that might go viral"

# ... (省略部分設定代碼)

thinking_config=types.ThinkingConfig(
    include_thoughts=True # 啟用思考過程
)

# 顯示圖片與思考內容
for part in response.parts:
    if part.thought:
        print(f"Thought: {part.text}")
    elif image:= part.as_image():
        image.save("viral.png")

執行後,你可能會看到模型輸出類似這樣的思考路徑:「我現在要專注於描繪一群駱駝。目標是捕捉牠們在玻利維亞拉巴斯一輛擁擠巴士上的通勤場景…」。這種透明度讓你彷彿在與一位藝術家對話,了解他如何理解你的需求,這對於調整提示詞非常有幫助。


6. 搜尋整合:即時資訊視覺化 (Search Grounding)

傳統的 AI 模型往往受限於訓練數據的截止日期,無法得知昨天發生了什麼。但 Nano Banana Pro 打破了這個限制。透過 Search Grounding(搜尋整合),模型可以存取 Google 搜尋的即時數據,生成準確且具時效性的圖像。

想要視覺化東京未來五天的天氣預報嗎?沒問題。

prompt = "Visualize the current weather forecast for the next 5 days in Tokyo as a clothing guide"

response = client.models.generate_content(
    # ...
    tools=[{"google_search": {}}] # 啟用 Google 搜尋工具
)

模型會先去搜尋最新的氣象資料,然後生成一張包含正確溫度、天氣狀況以及建議穿著的圖表。這對於製作新聞配圖、即時資訊圖表或是動態行銷素材來說,絕對是一項殺手級功能。


7. 4K 高解析度生成 (High-Resolution 4K)

有時候,細節決定成敗。當你需要列印品質的圖像,或者需要在大型螢幕上展示時,標準解析度可能不夠用。Nano Banana Pro 支援原生 4K 解析度輸出。

設定非常直觀:

resolution = "4K" # 選項包含 "1K", "2K", "4K"

# ...
image_size=resolution
# ...

但請記住,4K 生成的成本較高。建議在開發初期或測試 Prompt 階段先使用較低解析度,待確認畫面滿意後,再切換至 4K 進行最終輸出。這是一種平衡品質與預算的聰明做法。


8. 多語言能力與圖片內文字 (Multilingual Capabilities)

Nano Banana Pro 不僅是畫家,還是語言學家。它能夠在圖像中生成清晰的文字,甚至跨越十幾種語言進行翻譯。這對於需要製作多國語言行銷素材的團隊來說,簡直是神隊友。

你可以要求模型製作一張關於相對論的西班牙語圖表,或者直接將現有的英文圖表「翻譯」成日文,同時保持原有的視覺風格。

# 將圖片內容翻譯成日文
message = "Translate this infographic in Japanese, keeping everything else the same"

這項功能實際上讓它變成了一個「視覺通用翻譯機」,極大擴展了內容在地化的可能性。


9. 進階圖片混合 (Advanced Image Mixing)

Flash 模型最多只能混合 3 張圖片,但 Pro 版本將這個數字提升到了 14 張!這就像是舉辦了一場視覺派對,你可以將產品圖、風格參考圖、人物素材等一口氣丟給模型。

這對於製作複雜的拼貼畫,或是需要展示完整產品線的場景非常有用。

contents=[
    "An office group photo of these people, they are making funny faces.",
    PIL.Image.open('John.png'),
    PIL.Image.open('Jane.png'),
    # ... 最多可加入 14 張圖片
]

透過提供豐富的上下文(Context),模型能更精準地掌握你想要的角色特徵或視覺風格,對於保持角色一致性(Character Consistency)也有很大幫助。


10. Pro 獨家展示:更多可能性

Google AI Studio 還展示了一些只有 Pro 模型才能做到的驚人範例:

  1. 個性化像素藝術 (Personalized Pixel Art):結合搜尋功能,查詢某位名人的生平,並將其經歷轉化為一張精細的等距視角像素畫。
  2. 複雜文字整合 (Complex Text Integration):例如製作一張關於十四行詩(Sonnet)的復古風格圖表,圖中不僅要有香蕉,還要有完整、可閱讀且邏輯通順的詩句。
  3. 高擬真樣機 (High-Fidelity Mockups):生成百老匯演出手冊放在劇院座椅上的照片。重點在於其光影、材質與印刷質感必須達到照片級的逼真程度。

這些範例證明了該模型在處理細節、理解複雜指令以及文字渲染上的強大能力。


11. 最佳實踐與提示詞技巧 (Best Practices)

想要獲得完美的生成結果,光有強大的工具是不夠的,還需要懂得如何與它溝通。以下是針對 Nano Banana 模型的 Prompting 建議:

  • 極致具體 (Be Hyper-Specific):不要只說「一隻狗」,要描述品種、毛色、光線來源以及構圖。你給的細節越多,掌控權就越大。
  • 提供背景與意圖 (Provide Context and Intent):告訴模型這張圖是為了什麼而畫?是為了營造恐怖氛圍,還是為了慶祝節日?理解上下文能幫助模型做出更好的創意選擇。
  • 正面描述 (Use Positive Framing):盡量告訴模型「要有什麼」,而不是「不要有什麼」。例如用「空無一人的街道」取代「沒有車的街道」。
  • 導演思維 (Control the Camera):使用攝影術語。指明是「廣角鏡頭」、「微距拍攝」還是「低角度視角」,這能顯著提升畫面的電影感。
  • 善用搜尋接地:當涉及真實世界的數據或事件時,務必啟用搜尋功能,讓結果更精確。
  • 利用 Batch API 節省成本:對於不需要即時回傳的任務,善用批次處理來降低預算消耗。

常見問題解答 (FAQ)

Q1:Nano Banana Pro 有免費版本嗎? 沒有。與 Nano Banana (Flash) 不同,Pro 版本沒有免費層級。使用前必須在 Google Cloud 專案中啟用計費功能。

Q2:如何節省生成 4K 圖片的高昂成本? 你可以使用 Batch API 來提交生成請求。雖然需要等待較長時間(最多 24 小時),但可以節省 50% 的費用。此外,建議在測試 Prompt 階段使用較低解析度(1K),滿意後再切換至 4K。

Q3:模型可以處理多少張參考圖片? Pro 版本最多支援同時輸入 14 張圖片作為上下文參考,遠高於 Flash 版本的 3 張。

Q4:什麼是「思考」過程 (Thinking Process)? 這是 Pro 版本的特色功能。啟用後,模型在生成圖像前會先輸出一解釋性文字,描述其理解 Prompt 的邏輯與規劃畫面的過程。這有助於開發者除錯與優化指令。

Q5:Search Grounding 的主要用途是什麼? 它允許模型存取 Google 搜尋的即時資料。這對於需要準確反映當前天氣、新聞事件或特定數據(如體育賽事結果)的圖像生成至關重要,能避免模型「幻覺」或使用過時資訊。


原文出處:Google AI Studio X Article

分享至:
Featured Partners

© 2026 Communeify. All rights reserved.