tool

Google 重磅发表 Gemini 2.5 Flash Image (nano-banana):AI 图片生成与编辑的新纪元

August 27, 2025
Updated Aug 27
2 min read

探索 Google 最新 AI 图像模型 Gemini 2.5 Flash Image (nano-banana)。本文将深入解析其强大的多图融合、角色一致性、自然语言编辑等革命性功能,以及如何为开发者和企业带来前所未有的创意控制力。


坦白说,AI 图片生成的世界既迷人又让人有点头痛。你可能也遇过这种情况:想让同一个角色出现在不同场景,AI 却总是画出一个“长得很像的陌生人”;或者,只是想微调图片里的一个-细节,却搞得整张图面目全非。

这些创作过程中的小摩擦,正是创作者们最渴望解决的痛点。

就在今天,Google 给出了回应。他们正式推出了堪称业界顶尖的图像生成与编辑模型——Gemini 2.5 Flash Image(内部代号 nano-banana)。这不只是一次小小的更新,更像是一场彻底的进化。它让创作者能将多张图片无缝融合、在不同场景中维持惊人的角色一致性,甚至用一句话就能进行精准的局部修改。

当初 Gemini 2.0 Flash 推出时,大家都很喜欢它的低延迟、高性价比和简单好上手的特性。但同时,社区也给了很多回馈:我们需要更高质量的图片,以及更强大的创意掌控权。

现在,Gemini 2.5 Flash Image 正是为此而来。

目前,开发者可以通过 Gemini APIGoogle AI Studio 使用这个模型,而企业用户则可以通过 Vertex AI 平台导入。至于大家关心的价格,Gemini 2.5 Flash Image 的定价为每百万输入 0.3 美元,每百万输出 token 收费 30 美元,换算下来,生成一张图片的成本大约是 0.039 美元(每张图片输出1290 tokens)。

数据会说话:Gemini 2.5 Flash Image 的性能表现

空口无凭,性能如何还是要看数据。根据 lmarena.ai 的基准测试和 Google 内部的提示词集测试,Gemini 2.5 Flash Image 在多个关键指标上都展现了领先的实力,尤其是在“整体偏好度”和“角色”生成方面,其表现甚至超越了市面上其他知名的模型。

以下是与其他主流模型的 Elo 评分比较(分数越高代表表现越好):

评比类别Gemini 2.5 Flash ImageChatGPT 4o / GPT Image 1FLUX.1 Kontext [max]Qwen Image EditGemini 2.0 Flash Image
角色 (Character)~1230~1100~1020~920~860
创意 (Creative)~1120~1050~970~990~880
物件/环境 (Object/Env)~1080~1020~1000~1010~900
风格化 (Stylization)~1050~1180~950~1100~730
排名 (UB) ↑模型 ↑分数 ↑95% CI (±) ↑投票数 ↑组织 ↑授权 ↑
1gemini-2.5-flash-image-preview (nano-banana)1362±22,521,035Google专有
2flux-1-kontext-max1191±3357,196Black Forest…专有
3flux-1-kontext-pro1174±22,015,530Black Forest…专有
3gpt-image-11170±31,026,399OpenAI专有
5flux-1-kontext-dev1152±31,584,400Black Forest…专有
6qwen-image-edit1145±21,585,904AlibabaApache 2.0
6seededit-3.01142±41,285,080Bytedance专有
8gemini-2.0-flash-preview-image-generation1093±31,700,785Google专有

资料来源: https://lmarena.ai/leaderboard/image-edit

从表格中可以清楚看到,Gemini 2.5 Flash Image 在多数项目中都处于领先地位,这也印证了它在生成质量和创意控制上的巨大进步。

Gemini 2.5 Flash Image 的超能力,实际应用见真章

为了让大家更直观地感受它的威力,Google AI Studio 的“建构模式 (build mode)”也进行了大幅更新。你不仅可以快速测试模型的能力,还能用一个简单的提示词就打造出客制化的 AI 应用,甚至一键部署或将代码存到 GitHub。

接下来,我们来看看几个最让人惊艳的功能。

角色一致性?再也不是问题了!

在 AI 图片生成中,最大的挑战之一就是“维持角色或物件的连贯性”。不管是为故事书创造主角、为电商产品制作不同角度的展示图,或为品牌产生一系列风格一致的素材,维持主体不变都是关键。

Gemini 2.5 Flash Image 在这方面取得了重大突破。现在,你可以轻松地将同一个角色放入完全不同的环境或情境中,同时完整保留其外貌特征。官方的展示中,就将同一位女性分别塑造成了西洋棋大师、赛车手、足球员和射箭选手,而她的脸部特征在所有图片中都保持了高度的一致性。

想象一下,开发者可以利用这个特性,仅仅通过一个设计范本,就能为整个公司的员工生成风格统一的识别证,或为房地产网站制作大量的房源卡片,甚至为整个产品目录生成动态的商品模型。

用“说”的就能修图:精准的提示词编辑

除了搞定人物,精准的局部修改也是一大痛点。 Gemini 2.5 Flash Image 让你能用最直觉的方式——自然语言——来进行精准的图像编辑。

这代表什么?你可以用简单的指令做到:

  • “模糊这张照片的背景。”
  • “把 T 恤上的污渍移除。”
  • “帮这张黑白照片上色。”
  • “改变主角的姿势。”

基本上,只要你能想到的修改,都可以用一句话来实现。在 Google 的示范中,使用者上传了一张穿着黑色上衣、戴着耳环的男性照片,并下达指令:“change my shirt color to red and remove earring”(把我的上衣颜色改成红色并移除耳环)。模型精准地完成了这两项修改,生成了一张他穿着红色上衣且没有耳环的逼真照片。

多图融合,无缝创作新场景

Gemini 2.5 Flash Image 还具备理解并融合多张输入图片的能力。这项功能为创意工作打开了全新的大门。

你可以将一件商品(例如一盏台灯)的图片,和一个室内场景的图片融合,AI 会自动生成一张极度逼真的合成图,仿佛这盏灯原本就在那个房间里。你也可以为一个空间重新设计配色或材质,或将两张完全不同的图片融合成一张全新的艺术作品。

为了方便大家体验,Google 同样在 AI Studio 中建立了一个名为“Home Canvas”的范本应用,你只需拖曳产品和场景图片,就能快速创造出照片级的合成影像。

不只是画图,它还看得懂手绘草稿

这个模型的能力远不止于此。它甚至能理解手绘的图表,并根据指令进行互动。

在一个展示案例中,开发者建立了一个名为“Gemini Co-Drawing”的应用。它将一个简单的画布变成了一位互动式家教。使用者可以画出一个标示了​​两条边长(30 和 40)的直角三角形,并用文字提问:“解出 x 的值,并用红色把正确答案写在 x 的位置上。”Gemini 2.5 Flash Image 不仅能看懂图、理解问题,还能按照指令完成复杂的编辑步骤,将正确答案“50”用红色字体填入图中。

这项能力为教育、设计和协作领域带来了巨大的想象空间。

如何开始使用?以及重要的合作伙伴

准备好开始动手玩了吗?

  • 开发者: 可以立即透过 Gemini APIGoogle AI Studio 开始建构。
  • 企业: 可透过 Vertex AI 平台将其整合到工作流程中。

此外,为了让更广泛的开发者社群能接触到这项技术,Google 也宣布了与两个重要平台的合作:

  1. OpenRouter.ai: Gemini 2.5 Flash Image 成为 OpenRouter 上超过 480 个模型中,第一个具备图像生成能力的模型,将触及超过 300 万名开发者。
  2. fal.ai: 作为一个领先的生成式媒体开发平台,fal.ai 的加入将进一步扩大 Gemini 2.5 Flash Image 在开发者社群中的应用。

值得一提的是,所有由 Gemini 2.5 Flash Image 创建或编辑的图片,都会包含一个隐形的 SynthID 数字浮水印,以便在需要时能够识别其为 AI 生成或编辑的内容。

未来的展望

这趟旅程才刚刚开始。 Google 团队仍在积极努力,致力于改善长文本的渲染效果、提供更稳定的角色一致性,以及在图像中呈现更精确的真实细节。

他们非常期待看到全球的开发者和创作者们,会如何运用 Gemini 2.5 Flash Image 来打造出令人惊艳的作品。你的回馈将是推动它不断进步的重要动力。

准备好迎接 AI 图像创作的新浪潮了吗?快来试试 Gemini 吧!

分享到:
Featured Partners

© 2026 Communeify. All rights reserved.