Google 推出 Gemini 2.5 Flash 与 Flash-Lite 的最新预览版本,不仅在指令遵循、多模态能力上大幅提升,更显著降低了成本与延迟。此次更新旨在让开发者事半功倍,而全新的
-latest别名则能简化开发流程。
在追求更强大、更高效 AI 模型的道路上,Google 持续迈进。该公司宣布推出 Gemini 2.5 Flash 和 2.5 Flash-Lite 的最新更新版本,目前已可在 Google AI Studio 和 Vertex AI 上进行体验。此次更新的核心目标明确:在持续提升输出品质的同时,大幅改善模型的运作效率。
简单来说,此举旨在让 AI 不仅更聪明,反应也更快、成本更低。
从下方的图表数据可以清楚看到,新的预览模型在智慧程度(Artificial Analysis Intelligence Index)和端到端回应时间(End-to-end response time)之间取得了绝佳的平衡,相较于目前的稳定版本,效能提升显著。
表 1:智慧 vs. 端到端回应时间
| 模型版本 | 智慧指数 (越高越好) | 端到端回应时间 (秒,越低越好) |
|---|---|---|
| Gemini 2.5 Flash-Lite STABLE (No Thinking) | ~30 | ~2.5 |
| Gemini 2.5 Flash STABLE (No Thinking) | ~40 | ~3.5 |
| Gemini 2.5 Flash-Lite 09-2025 (No Thinking) | ~47 | ~5.0 |
| Gemini 2.5 Flash 09-2025 (No Thinking) | ~42.5 | ~2.0 |
| Gemini 2.5 Flash-Lite STABLE | ~40 | ~7.5 |
| Gemini 2.5 Flash STABLE | ~50 | ~15.5 |
| Gemini 2.5 Flash 09-2025 | ~53 | ~10.0 |
表 2:输出 Token 效率
| 模型版本 | 输出 Tokens |
|---|---|
| Gemini 2.5 Flash (09-2025) | 71M |
| Gemini 2.5 Flash STABLE | 93M |
| Gemini 2.5 Flash-Lite (09-2025) | 70M |
| Gemini 2.5 Flash-Lite STABLE | 140M |
Flash-Lite:更精准、更简洁,且具备更强的多媒体能力
最新的 Gemini 2.5 Flash-Lite 版本进行了一次全面升级,主要围绕着三个开发者最关心的主题进行了优化:
- 更精准的指令遵循: 针对 AI 有时仅能部分理解复杂指令的问题,新版 Flash-Lite 在理解复杂指令和系统提示方面有了长足的进步,能更准确地执行要求。
- 不再冗长,言简意赅: 旧模型有时会提供过于冗长的答案,增加延迟和 token 成本。此次更新大幅降低了模型的冗长度,使其能给出更简洁、精确的回答,这对需要高吞吐量的应用场景是一大助益。实际上,输出 token 数(即成本)降低了 50%。
- 更强大的多模态与翻译能力: Flash-Lite 在多模态能力上有所增强,包括更准确的语音转录、更深入的图片理解,以及更流畅的翻译品质。
开发者可透过以下模型字串开始测试:
gemini-2.5-flash-lite-preview-09-2025
Flash:AI 助理的全面进化
此次的 2.5 Flash 模型更新,直接回应了 Google 从开发者社群收到的两大核心回馈:
- 更聪明的工具使用能力: Google 改进了模型使用工具的方式,使其在处理复杂、多步骤的代理人(agentic)应用时表现得更好。这让 AI 能独自完成更复杂的任务。在关键的 SWE-Bench Verified 基准测试中,新模型的表现提升了 5%,从 48.9% 上升到 54%,是一项显著的进步。
- 更高的效率,更低的成本: 新模型提供了极高的成本效益,能以更少的 token、更短的延迟时间,产出更高品质的结果。图表显示,Gemini 2.5 Flash 的输出 token 数减少了 24%,意味着成本直接下降。
早期测试者已给出许多正面评价。例如,自动化 AI 代理公司 Manus 的联合创始人兼首席科学家 Yichao ‘Peak’ Ji 提到:「新的 Gemini 2.5 Flash 模型完美结合了速度与智慧。我们的内部基准测试显示,在处理长远规划的代理任务时,其性能提升了 15%。它卓越的成本效益使 Manus 能够扩展到前所未有的规模。」
若要体验此版本,可使用以下模型字串:
gemini-2.5-flash-preview-09-2025
为开发者设计:迎接 -latest 别名时代
Google 方面表示,过去一年的经验显示,发布模型的预览版本能让开发者第一时间测试最新的功能与创新,并提供宝贵的回馈,有助于打造更稳定、更出色的正式版 Gemini。
为了让开发者能更轻松地取用最新模型,同时减少追踪冗长模型字串的麻烦,Google 特别为每个模型系列引入了 -latest 别名(alias)。这个别名将永远指向该系列最新的模型版本,让开发者无需为每次更新而修改程式码,就能轻松实验新功能。
开发者可透过以下方式使用新的预览版:
gemini-flash-latestgemini-flash-lite-latest
为确保开发者能安心测试,在 Google 更新或弃用 -latest 背后的特定版本之前,都会提前两週透过电子邮件通知。但须注意,这些只是模型别名,费率限制、成本和可用功能可能会随着版本发布而变动。
如果应用程式需要更高的稳定性,Google 建议开发者继续使用明确指定版本的模型,例如 gemini-2.5-flash 和 gemini-2.5-flash-lite。
Google 将继续探索 AI 的无限可能,此次的发布只是其前进路上的一步,未来将有更多消息发布。


