Google 正式推出 Gemini 3,這不僅是模型參數的升級,更是「代理編碼 (Agentic Coding)」的實際應用落地。從擊敗 GPT-5.1 的基準測試數據,到全新的 Google Antigravity 開發平台,本文將帶您深入了解 Gemini 3 如何透過強大的推理能力與 SVG 生成技術,徹底改變開發者的工作流程。我們更將透過一張「騎單車的鵜鶘」SVG 圖像,實證其驚人的空間理解力。
科技圈總是不缺新名詞,但當 Google AI Studio 的產品負責人 Logan Kilpatrick 說出:「無論你是經驗豐富的開發者,還是只憑感覺寫程式的 ‘Vibe Coder’,Gemini 3 都能幫你將任何想法變為現實」時,我們知道這次的情況不太一樣。
Gemini 3 的出現,標誌著 AI 助手從「聊天機器人」正式轉職為「行動代理人 (Agent)」。它不再只是被動地回答問題,而是建立在最先進的推理基礎上,主動規劃、執行並解決複雜問題。
核心概念:什麼是「代理編碼 (Agentic Coding)」?
過去我們使用 AI 寫程式,往往是「一段一段」地貼上程式碼,然後自己當膠水把它們黏起來。Gemini 3 試圖改變這個流程。
透過新推出的 Google Antigravity 平台,開發者與 AI 的關係發生了變化。開發者現在更像是一位「架構師」,負責制定高層次的目標;而 Gemini 3 則指揮多個 AI 代理人,在編輯器、終端機 (Terminal) 和瀏覽器之間協作。
這意味著模型可以處理長跨度 (Long-horizon) 的任務。例如,它可以在整個程式碼庫中進行重構、除錯,甚至實作新功能,而不會因為檔案太多而「忘記」上下文。這解決了過去模型在處理多檔案專案時容易斷片的問題。
Vibe Coding:自然語言就是唯一的語法
「Vibe Coding」是這次發布中最有趣的詞彙之一。
它的核心理念是:只要感覺對了,程式就出來了。
得益於 Gemini 3 強大的指令依從性 (Instruction Following),開發者不再需要深陷於繁瑣的語法細節。你只需要用自然語言清晰地描述你的「Vibe」(想法或創意),模型就能處理背後複雜的多步驟規劃和實作。Google AI Studio 的「Build Mode」甚至允許用戶只用一個提示詞,就生成一個功能完整的全端應用程式。
視覺與空間推理實測:那隻騎單車的鵜鶘
Gemini 3 最令人驚豔的能力之一,在於它對「視覺描述」的理解並將其轉化為精確的 SVG (可縮放向量圖形) 程式碼。這不是像 Midjourney 那樣生成像素圖,而是生成數學路徑 (Paths) 和幾何結構。
讓我們來看看一個實際的挑戰案例。我參考了Simon Willison給的提示詞:
Generate an SVG of a California brown pelican riding a bicycle. The bicycle must have spokes and a correctly shaped bicycle frame. The pelican must have its characteristic large pouch, and there should be a clear indication of feathers. The pelican must be clearly pedaling the bicycle. The image should show the full breeding plumage of the California brown pelican.
「生成一隻加州褐鵜鶘騎自行車的 SVG。自行車必須有輻條和形狀正確的車架。鵜鶘必須有標誌性的大喉囊,且要有明顯的羽毛特徵。鵜鶘必須明顯地在踩踏板。圖像應展示加州褐鵜鶘完整的繁殖羽色。」
以下是 Claude 4.5 生成的結果:
以下是 Gemini 3 生成的結果:
這張圖證明了什麼? 這張看似有趣的圖片,背後隱藏著極高的技術門檻:
- 生物特徵的精準映射:模型準確捕捉了「加州褐鵜鶘」的特徵,包括那個標誌性的大喉囊 (Pouch) 和頭部的黃色羽毛(繁殖羽色)。
- 空間幾何與機械結構:請注意自行車的結構。它不是隨便畫的線條,而是有正確的三角車架結構、踏板位置以及車輪的輻條。模型理解「自行車」作為一個機械裝置的幾何邏輯。
- 動態交互 (Spatial Interaction):最難的部分在於「騎」這個動作。模型必須計算鵜鶘的腿部長度與踏板的位置,讓畫面看起來真的是在「踩」踏板,而不是鳥浮在車旁邊。這展示了強大的空間推理能力。
這對於網頁開發者來說意義重大:你可以隨時透過自然語言,生成乾淨、可無限縮放且檔案極小的向量圖素材,完全不需要開啟 Illustrator。
數據說話:Gemini 3 vs. GPT-5.1 基準測試
Google 這次毫不避諱地將 Gemini 3 Pro 與市場上的頂級模型進行了對比,包括 Claude Sonnet 4.5 和 GPT-5.1。
數據顯示,Gemini 3 在絕大多數項目中都取得了領先,特別是在數學推理和代理能力上。
Gemini 3 Pro 基準測試比較表:
| 基準測試項目 (Benchmark) | 描述 (Description) | Gemini 3 Pro | Gemini 2.5 Pro | Claude Sonnet 4.5 | GPT-5.1 |
|---|---|---|---|---|---|
| Humanity’s Last Exam | 學術推理 (無工具) | 37.5% | 21.6% | 13.7% | 26.5% |
| 學術推理 (含搜尋/程式碼) | 45.8% | — | — | — | |
| ARC-AGI-2 | 視覺推理謎題 | 31.1% | 4.9% | 13.6% | 17.6% |
| GPQA Diamond | 科學知識 | 91.9% | 86.4% | 83.4% | 88.1% |
| AIME 2025 | 數學 (無工具) | 95.0% | 88.0% | 87.0% | 94.0% |
| 數學 (含程式碼執行) | 100% | — | 100% | — | |
| MathArena Apex | 挑戰性數學競賽問題 | 23.4% | 0.5% | 1.6% | 1.0% |
| MMMU-Pro | 多模態理解與推理 | 81.0% | 68.0% | 68.0% | 76.0% |
| ScreenSpot-Pro | 螢幕理解 | 72.7% | 11.4% | 36.2% | 3.5% |
| CharXiv Reasoning | 複雜圖表資訊整合 | 81.4% | 69.6% | 68.5% | 69.5% |
| OmniDocBench 1.5 | OCR (數值越低越好) | 0.115 | 0.145 | 0.145 | 0.147 |
| Video-MMMU | 從影片獲取知識 | 87.6% | 83.6% | 77.8% | 80.4% |
| LiveCodeBench Pro | 競爭性程式設計問題 | 2,439 | 1,775 | 1,418 | 2,243 |
| Terminal-Bench 2.0 | 代理終端編碼 | 54.2% | 32.6% | 42.8% | 47.6% |
| SWE-Bench Verified | 代理編碼 (單次嘗試) | 76.2% | 59.6% | 77.2% | 76.3% |
| τ2-bench | 代理工具使用 | 85.4% | 54.9% | 84.7% | 80.2% |
| Vending-Bench 2 | 長期代理任務 (淨值) | $5,478.16 | $573.64 | $3,838.74 | $1,473.43 |
| FACTS Benchmark Suite | 內部檢索增強生成 | 70.5% | 63.4% | 50.4% | 50.8% |
| SimpleQA Verified | 參數化知識 | 72.1% | 54.5% | 29.3% | 34.9% |
| MMMLU | 多語言問答 | 91.8% | 89.5% | 89.1% | 91.0% |
| Global PIQA | 常識推理 (100種語言) | 93.4% | 91.5% | 90.1% | 90.9% |
| MRCR v2 (8-needle) | 長文本表現 (128k 平均) | 77.0% | 58.0% | 47.1% | 61.6% |
| 長文本表現 (1M 點對點) | 26.3% | 16.4% | 不支援 | 不支援 |
值得注意的是 AIME 2025 項目,當允許使用程式碼執行工具時,Gemini 3 Pro 達到了 100% 的完美準確率,這展示了「模型推理 + 工具使用」的巨大潛力。
給開發者的技術筆記:API 與定價
對於想要將 Gemini 3 整合到自己產品中的開發者,Google 也帶來了實用的更新。
- 思考等級 (Thinking Level):API 現在允許開發者設定模型的「思考程度」。這對於需要複雜邏輯的任務非常有用,但也引入了更嚴格的「思維簽名 (Thought Signatures)」驗證,確保模型在多輪對話中不會遺失邏輯脈絡。
- 定價策略:
- 輸入:每百萬 Token $2 美元
- 輸出:每百萬 Token $12 美元 (適用於 200k Token 以下的提示詞)
- 目前透過 Google AI Studio 提供免費試用 (有速率限制)。
此外,Gemini 3 還釋出了客戶端的 Bash 工具,讓模型可以直接建議 Shell 指令來操作檔案系統,這對於自動化運維 (DevOps) 來說是個好消息。
常見問題解答 (FAQ)
Q1:Gemini 3 Pro 在處理長文本方面有什麼優勢? Gemini 3 Pro 延續了 100 萬 Token 的超大上下文視窗 (Context Window) 優勢,並在長文本回憶 (Long-context recall) 上有顯著改進。這意味著你可以餵給它數小時的影片或整本技術手冊,它能從中精確提取細節,甚至跨越多個檔案進行程式碼除錯,且大幅降低了幻覺發生的機率。
Q2:那個 SVG 生成功能很厲害嗎? 非常厲害。傳統的圖像生成模型(如 Stable Diffusion)生成的是像素圖,無法編輯且文字容易出錯。Gemini 3 生成的是程式碼 (SVG),這意味著它生成的圖像是向量的、可無限放大的,而且你可以直接修改程式碼來微調圖像的每一個細節(比如改變鵜鶘單車的顏色)。這需要模型具備極強的空間推理和程式碼邏輯。
Q3:我可以用 Gemini 3 開發商業軟體嗎? 當然可以。透過 Google Antigravity 平台,Gemini 3 被設計用來處理企業級的開發任務。它能夠管理多個 AI 代理人協作,從前端 UI 設計到後端邏輯實作,甚至包含自動化測試。Google 自己的展示案例中,就包含了用它來構建互動式白板應用和影片分析工具。
Q4:哪裡可以試用 Gemini 3? 開發者現在就可以前往 Google AI Studio 免費試用 Gemini 3 Pro。企業用戶則可以透過 Google Cloud 的 Vertex AI 進行存取和部署。
Q5:對於完全不懂程式碼的人,Gemini 3 有幫助嗎? 這正是「Vibe Coding」想要解決的問題。即使你不懂程式碼,只要你有清晰的想法和邏輯,Gemini 3 可以幫你完成所有的實作細節。Google AI Studio 中的「I’m feeling lucky」功能甚至可以幫你自動發想創意並直接寫出一個可執行的 App。


