探索 Google 最新 AI 图像模型 Gemini 2.5 Flash Image (nano-banana)。本文将深入解析其强大的多图融合、角色一致性、自然语言编辑等革命性功能,以及如何为开发者和企业带来前所未有的创意控制力。
坦白说,AI 图片生成的世界既迷人又让人有点头痛。你可能也遇过这种情况:想让同一个角色出现在不同场景,AI 却总是画出一个“长得很像的陌生人”;或者,只是想微调图片里的一个-细节,却搞得整张图面目全非。
这些创作过程中的小摩擦,正是创作者们最渴望解决的痛点。
就在今天,Google 给出了回应。他们正式推出了堪称业界顶尖的图像生成与编辑模型——Gemini 2.5 Flash Image(内部代号 nano-banana)。这不只是一次小小的更新,更像是一场彻底的进化。它让创作者能将多张图片无缝融合、在不同场景中维持惊人的角色一致性,甚至用一句话就能进行精准的局部修改。
当初 Gemini 2.0 Flash 推出时,大家都很喜欢它的低延迟、高性价比和简单好上手的特性。但同时,社区也给了很多回馈:我们需要更高质量的图片,以及更强大的创意掌控权。
现在,Gemini 2.5 Flash Image 正是为此而来。
目前,开发者可以通过 Gemini API 和 Google AI Studio 使用这个模型,而企业用户则可以通过 Vertex AI 平台导入。至于大家关心的价格,Gemini 2.5 Flash Image 的定价为每百万输入 0.3 美元,每百万输出 token 收费 30 美元,换算下来,生成一张图片的成本大约是 0.039 美元(每张图片输出1290 tokens)。
数据会说话:Gemini 2.5 Flash Image 的性能表现
空口无凭,性能如何还是要看数据。根据 lmarena.ai 的基准测试和 Google 内部的提示词集测试,Gemini 2.5 Flash Image 在多个关键指标上都展现了领先的实力,尤其是在“整体偏好度”和“角色”生成方面,其表现甚至超越了市面上其他知名的模型。
以下是与其他主流模型的 Elo 评分比较(分数越高代表表现越好):
| 评比类别 | Gemini 2.5 Flash Image | ChatGPT 4o / GPT Image 1 | FLUX.1 Kontext [max] | Qwen Image Edit | Gemini 2.0 Flash Image |
|---|---|---|---|---|---|
| 角色 (Character) | ~1230 | ~1100 | ~1020 | ~920 | ~860 |
| 创意 (Creative) | ~1120 | ~1050 | ~970 | ~990 | ~880 |
| 物件/环境 (Object/Env) | ~1080 | ~1020 | ~1000 | ~1010 | ~900 |
| 风格化 (Stylization) | ~1050 | ~1180 | ~950 | ~1100 | ~730 |
| 排名 (UB) ↑ | 模型 ↑ | 分数 ↑ | 95% CI (±) ↑ | 投票数 ↑ | 组织 ↑ | 授权 ↑ |
|---|---|---|---|---|---|---|
| 1 | gemini-2.5-flash-image-preview (nano-banana) | 1362 | ±2 | 2,521,035 | 专有 | |
| 2 | flux-1-kontext-max | 1191 | ±3 | 357,196 | Black Forest… | 专有 |
| 3 | flux-1-kontext-pro | 1174 | ±2 | 2,015,530 | Black Forest… | 专有 |
| 3 | gpt-image-1 | 1170 | ±3 | 1,026,399 | OpenAI | 专有 |
| 5 | flux-1-kontext-dev | 1152 | ±3 | 1,584,400 | Black Forest… | 专有 |
| 6 | qwen-image-edit | 1145 | ±2 | 1,585,904 | Alibaba | Apache 2.0 |
| 6 | seededit-3.0 | 1142 | ±4 | 1,285,080 | Bytedance | 专有 |
| 8 | gemini-2.0-flash-preview-image-generation | 1093 | ±3 | 1,700,785 | 专有 |
资料来源: https://lmarena.ai/leaderboard/image-edit
从表格中可以清楚看到,Gemini 2.5 Flash Image 在多数项目中都处于领先地位,这也印证了它在生成质量和创意控制上的巨大进步。
Gemini 2.5 Flash Image 的超能力,实际应用见真章
为了让大家更直观地感受它的威力,Google AI Studio 的“建构模式 (build mode)”也进行了大幅更新。你不仅可以快速测试模型的能力,还能用一个简单的提示词就打造出客制化的 AI 应用,甚至一键部署或将代码存到 GitHub。
接下来,我们来看看几个最让人惊艳的功能。
角色一致性?再也不是问题了!
在 AI 图片生成中,最大的挑战之一就是“维持角色或物件的连贯性”。不管是为故事书创造主角、为电商产品制作不同角度的展示图,或为品牌产生一系列风格一致的素材,维持主体不变都是关键。
Gemini 2.5 Flash Image 在这方面取得了重大突破。现在,你可以轻松地将同一个角色放入完全不同的环境或情境中,同时完整保留其外貌特征。官方的展示中,就将同一位女性分别塑造成了西洋棋大师、赛车手、足球员和射箭选手,而她的脸部特征在所有图片中都保持了高度的一致性。
想象一下,开发者可以利用这个特性,仅仅通过一个设计范本,就能为整个公司的员工生成风格统一的识别证,或为房地产网站制作大量的房源卡片,甚至为整个产品目录生成动态的商品模型。
用“说”的就能修图:精准的提示词编辑
除了搞定人物,精准的局部修改也是一大痛点。 Gemini 2.5 Flash Image 让你能用最直觉的方式——自然语言——来进行精准的图像编辑。
这代表什么?你可以用简单的指令做到:
- “模糊这张照片的背景。”
- “把 T 恤上的污渍移除。”
- “帮这张黑白照片上色。”
- “改变主角的姿势。”
基本上,只要你能想到的修改,都可以用一句话来实现。在 Google 的示范中,使用者上传了一张穿着黑色上衣、戴着耳环的男性照片,并下达指令:“change my shirt color to red and remove earring”(把我的上衣颜色改成红色并移除耳环)。模型精准地完成了这两项修改,生成了一张他穿着红色上衣且没有耳环的逼真照片。
多图融合,无缝创作新场景
Gemini 2.5 Flash Image 还具备理解并融合多张输入图片的能力。这项功能为创意工作打开了全新的大门。
你可以将一件商品(例如一盏台灯)的图片,和一个室内场景的图片融合,AI 会自动生成一张极度逼真的合成图,仿佛这盏灯原本就在那个房间里。你也可以为一个空间重新设计配色或材质,或将两张完全不同的图片融合成一张全新的艺术作品。
为了方便大家体验,Google 同样在 AI Studio 中建立了一个名为“Home Canvas”的范本应用,你只需拖曳产品和场景图片,就能快速创造出照片级的合成影像。
不只是画图,它还看得懂手绘草稿
这个模型的能力远不止于此。它甚至能理解手绘的图表,并根据指令进行互动。
在一个展示案例中,开发者建立了一个名为“Gemini Co-Drawing”的应用。它将一个简单的画布变成了一位互动式家教。使用者可以画出一个标示了两条边长(30 和 40)的直角三角形,并用文字提问:“解出 x 的值,并用红色把正确答案写在 x 的位置上。”Gemini 2.5 Flash Image 不仅能看懂图、理解问题,还能按照指令完成复杂的编辑步骤,将正确答案“50”用红色字体填入图中。
这项能力为教育、设计和协作领域带来了巨大的想象空间。
如何开始使用?以及重要的合作伙伴
准备好开始动手玩了吗?
- 开发者: 可以立即透过 Gemini API 和 Google AI Studio 开始建构。
- 企业: 可透过 Vertex AI 平台将其整合到工作流程中。
此外,为了让更广泛的开发者社群能接触到这项技术,Google 也宣布了与两个重要平台的合作:
- OpenRouter.ai: Gemini 2.5 Flash Image 成为 OpenRouter 上超过 480 个模型中,第一个具备图像生成能力的模型,将触及超过 300 万名开发者。
- fal.ai: 作为一个领先的生成式媒体开发平台,fal.ai 的加入将进一步扩大 Gemini 2.5 Flash Image 在开发者社群中的应用。
值得一提的是,所有由 Gemini 2.5 Flash Image 创建或编辑的图片,都会包含一个隐形的 SynthID 数字浮水印,以便在需要时能够识别其为 AI 生成或编辑的内容。
未来的展望
这趟旅程才刚刚开始。 Google 团队仍在积极努力,致力于改善长文本的渲染效果、提供更稳定的角色一致性,以及在图像中呈现更精确的真实细节。
他们非常期待看到全球的开发者和创作者们,会如何运用 Gemini 2.5 Flash Image 来打造出令人惊艳的作品。你的回馈将是推动它不断进步的重要动力。
准备好迎接 AI 图像创作的新浪潮了吗?快来试试 Gemini 吧!


