news

Gemini 3 强势登场:从“Vibe Coding”到 SVG 艺术,它如何重塑开发体验?

November 19, 2025
Updated Nov 19
3 min read

Google 正式推出 Gemini 3,这不仅是模型参数的升级,更是“代理编码 (Agentic Coding)”的实际应用落地。从击败 GPT-5.1 的基准测试数据,到全新的 Google Antigravity 开发平台,本文将带您深入了解 Gemini 3 如何透过强大的推理能力与 SVG 生成技术,彻底改变开发者的工作流程。我们更将透过一张“骑单车的鹈鹕”SVG 图像,实证其惊人的空间理解力。


科技圈总是不缺新名词,但当 Google AI Studio 的产品负责人 Logan Kilpatrick 说出:“无论你是经验丰富的开发者,还是只凭感觉写程式的 ‘Vibe Coder’,Gemini 3 都能帮你将任何想法变为现实”时,我们知道这次的情况不太一样。

Gemini 3 的出现,标志着 AI 助手从“聊天机器人”正式转职为“行动代理人 (Agent)”。它不再只是被动地回答问题,而是建立在最先进的推理基础上,主动规划、执行并解决复杂问题。

核心概念:什么是“代理编码 (Agentic Coding)”?

过去我们使用 AI 写程式,往往是“一段一段”地贴上代码,然后自己当胶水把它们黏起来。Gemini 3 试图改变这个流程。

透过新推出的 Google Antigravity 平台,开发者与 AI 的关系发生了变化。开发者现在更像是一位“架构师”,负责制定高层次的目标;而 Gemini 3 则指挥多个 AI 代理人,在编辑器、终端机 (Terminal) 和浏览器之间协作。

这意味着模型可以处理长跨度 (Long-horizon) 的任务。例如,它可以在整个代码库中进行重构、除错,甚至实作新功能,而不会因为档案太多而“忘记”上下文。这解决了过去模型在处理多档案专案时容易断片的问题。

Vibe Coding:自然语言就是唯一的语法

“Vibe Coding”是这次发布中最有趣的词汇之一。

它的核心理念是:只要感觉对了,程式就出来了。

得益于 Gemini 3 强大的指令依从性 (Instruction Following),开发者不再需要深陷于繁琐的语法细节。你只需要用自然语言清晰地描述你的“Vibe”(想法或创意),模型就能处理背后复杂的多步骤规划和实作。Google AI Studio 的“Build Mode”甚至允许用户只用一个提示词,就生成一个功能完整的全端应用程式。

视觉与空间推理实测:那只骑单车的鹈鹕

Gemini 3 最令人惊艳的能力之一,在于它对“视觉描述”的理解并将其转化为精确的 SVG (可缩放向量图形) 代码。这不是像 Midjourney 那样生成像素图,而是生成数学路径 (Paths) 和几何结构。

让我们来看看一个实际的挑战案例。我参考了Simon Willison给的提示词

Generate an SVG of a California brown pelican riding a bicycle. The bicycle must have spokes and a correctly shaped bicycle frame. The pelican must have its characteristic large pouch, and there should be a clear indication of feathers. The pelican must be clearly pedaling the bicycle. The image should show the full breeding plumage of the California brown pelican.

「生成一只加州褐鹈鹕骑自行车的 SVG。自行车必须有辐条和形状正确的车架。鹈鹕必须有标志性的大喉囊,且要有明显的羽毛特征。鹈鹕必须明显地在踩踏板。图像应展示加州褐鹈鹕完整的繁殖羽色。」

以下是 Claude 4.5 生成的结果:

以下是 Gemini 3 生成的结果:

这张图证明了什么? 这张看似有趣的图片,背后隐藏着极高的技术门槛:

  1. 生物特征的精准映射:模型准确捕捉了“加州褐鹈鹕”的特征,包括那个标志性的大喉囊 (Pouch) 和头部的黄色羽毛(繁殖羽色)。
  2. 空间几何与机械结构:请注意自行车的结构。它不是随便画的线条,而是有正确的三角车架结构、踏板位置以及车轮的辐条。模型理解“自行车”作为一个机械装置的几何逻辑。
  3. 动态交互 (Spatial Interaction):最难的部分在于“骑”这个动作。模型必须计算鹈鹕的腿部长度与踏板的位置,让画面看起来真的是在“踩”踏板,而不是鸟浮在车旁边。这展示了强大的空间推理能力。

这对于网页开发者来说意义重大:你可以随时透过自然语言,生成干净、可无限缩放且档案极小的向量图素材,完全不需要开启 Illustrator。

数据说话:Gemini 3 vs. GPT-5.1 基准测试

Google 这次毫不避讳地将 Gemini 3 Pro 与市场上的顶级模型进行了对比,包括 Claude Sonnet 4.5 和 GPT-5.1。

数据显示,Gemini 3 在绝大多数项目中都取得了领先,特别是在数学推理代理能力上。

Gemini 3 Pro 基准测试比较表:

基准测试项目 (Benchmark)描述 (Description)Gemini 3 ProGemini 2.5 ProClaude Sonnet 4.5GPT-5.1
Humanity’s Last Exam学术推理 (无工具)37.5%21.6%13.7%26.5%
学术推理 (含搜寻/代码)45.8%
ARC-AGI-2视觉推理谜题31.1%4.9%13.6%17.6%
GPQA Diamond科学知识91.9%86.4%83.4%88.1%
AIME 2025数学 (无工具)95.0%88.0%87.0%94.0%
数学 (含代码执行)100%100%
MathArena Apex挑战性数学竞赛问题23.4%0.5%1.6%1.0%
MMMU-Pro多模态理解与推理81.0%68.0%68.0%76.0%
ScreenSpot-Pro萤幕理解72.7%11.4%36.2%3.5%
CharXiv Reasoning复杂图表资讯整合81.4%69.6%68.5%69.5%
OmniDocBench 1.5OCR (数值越低越好)0.1150.1450.1450.147
Video-MMMU从影片获取知识87.6%83.6%77.8%80.4%
LiveCodeBench Pro竞争性程式设计问题2,4391,7751,4182,243
Terminal-Bench 2.0代理终端编码54.2%32.6%42.8%47.6%
SWE-Bench Verified代理编码 (单次尝试)76.2%59.6%77.2%76.3%
τ2-bench代理工具使用85.4%54.9%84.7%80.2%
Vending-Bench 2长期代理任务 (净值)$5,478.16$573.64$3,838.74$1,473.43
FACTS Benchmark Suite内部检索增强生成70.5%63.4%50.4%50.8%
SimpleQA Verified参数化知识72.1%54.5%29.3%34.9%
MMMLU多语言问答91.8%89.5%89.1%91.0%
Global PIQA常识推理 (100种语言)93.4%91.5%90.1%90.9%
MRCR v2 (8-needle)长文本表现 (128k 平均)77.0%58.0%47.1%61.6%
长文本表现 (1M 点对点)26.3%16.4%不支援不支援

值得注意的是 AIME 2025 项目,当允许使用代码执行工具时,Gemini 3 Pro 达到了 100% 的完美准确率,这展示了“模型推理 + 工具使用”的巨大潜力。

给开发者的技术笔记:API 与定价

对于想要将 Gemini 3 整合到自己产品中的开发者,Google 也带来了实用的更新。

  • 思考等级 (Thinking Level):API 现在允许开发者设定模型的“思考程度”。这对于需要复杂逻辑的任务非常有用,但也引入了更严格的“思维签名 (Thought Signatures)”验证,确保模型在多轮对话中不会遗失逻辑脉络。
  • 定价策略
    • 输入:每百万 Token $2 美元
    • 输出:每百万 Token $12 美元 (适用于 200k Token 以下的提示词)
    • 目前透过 Google AI Studio 提供免费试用 (有速率限制)。

此外,Gemini 3 还释出了客户端的 Bash 工具,让模型可以直接建议 Shell 指令来操作档案系统,这对于自动化运维 (DevOps) 来说是个好消息。


常见问题解答 (FAQ)

Q1:Gemini 3 Pro 在处理长文本方面有什么优势? Gemini 3 Pro 延续了 100 万 Token 的超大上下文视窗 (Context Window) 优势,并在长文本回忆 (Long-context recall) 上有显著改进。这意味着你可以喂给它数小时的影片或整本技术手册,它能从中精确提取细节,甚至跨越多个档案进行代码除错,且大幅降低了幻觉发生的机率。

Q2:那个 SVG 生成功能很厉害吗? 非常厉害。传统的图像生成模型(如 Stable Diffusion)生成的是像素图,无法编辑且文字容易出错。Gemini 3 生成的是代码 (SVG),这意味着它生成的图像是向量的、可无限放大的,而且你可以直接修改代码来微调图像的每一个细节(比如改变鹈鹕单车的颜色)。这需要模型具备极强的空间推理和代码逻辑。

Q3:我可以用 Gemini 3 开发商业软体吗? 当然可以。透过 Google Antigravity 平台,Gemini 3 被设计用来处理企业级的开发任务。它能够管理多个 AI 代理人协作,从前端 UI 设计到后端逻辑实作,甚至包含自动化测试。Google 自己的展示案例中,就包含了用它来构建互动式白板应用和影片分析工具。

Q4:哪里可以试用 Gemini 3? 开发者现在就可以前往 Google AI Studio 免费试用 Gemini 3 Pro。企业用户则可以透过 Google Cloud 的 Vertex AI 进行存取和部署。

Q5:对于完全不懂代码的人,Gemini 3 有帮助吗? 这正是“Vibe Coding”想要解决的问题。即使你不懂代码,只要你有清晰的想法和逻辑,Gemini 3 可以帮你完成所有的实作细节。Google AI Studio 中的“I’m feeling lucky”功能甚至可以帮你自动发想创意并直接写出一个可执行的 App。

分享到:
Featured Partners

© 2026 Communeify. All rights reserved.