Google 重磅发表 Gemini 2.5 Flash Image (nano-banana)：AI 图片生成与编辑的新纪元

探索 Google 最新 AI 图像模型 Gemini 2.5 Flash Image (nano-banana)。本文将深入解析其强大的多图融合、角色一致性、自然语言编辑等革命性功能，以及如何为开发者和企业带来前所未有的创意控制力。

坦白说，AI 图片生成的世界既迷人又让人有点头痛。你可能也遇过这种情况：想让同一个角色出现在不同场景，AI 却总是画出一个“长得很像的陌生人”；或者，只是想微调图片里的一个-细节，却搞得整张图面目全非。

这些创作过程中的小摩擦，正是创作者们最渴望解决的痛点。

就在今天，Google 给出了回应。他们正式推出了堪称业界顶尖的图像生成与编辑模型——Gemini 2.5 Flash Image（内部代号 nano-banana）。这不只是一次小小的更新，更像是一场彻底的进化。它让创作者能将多张图片无缝融合、在不同场景中维持惊人的角色一致性，甚至用一句话就能进行精准的局部修改。

当初 Gemini 2.0 Flash 推出时，大家都很喜欢它的低延迟、高性价比和简单好上手的特性。但同时，社区也给了很多回馈：我们需要更高质量的图片，以及更强大的创意掌控权。

现在，Gemini 2.5 Flash Image 正是为此而来。

目前，开发者可以通过 Gemini API 和 Google AI Studio 使用这个模型，而企业用户则可以通过 Vertex AI 平台导入。至于大家关心的价格，Gemini 2.5 Flash Image 的定价为每百万输入 0.3 美元，每百万输出 token 收费 30 美元，换算下来，生成一张图片的成本大约是 0.039 美元(每张图片输出1290 tokens)。

数据会说话：Gemini 2.5 Flash Image 的性能表现

空口无凭，性能如何还是要看数据。根据 lmarena.ai 的基准测试和 Google 内部的提示词集测试，Gemini 2.5 Flash Image 在多个关键指标上都展现了领先的实力，尤其是在“整体偏好度”和“角色”生成方面，其表现甚至超越了市面上其他知名的模型。

以下是与其他主流模型的 Elo 评分比较（分数越高代表表现越好）：

评比类别	Gemini 2.5 Flash Image	ChatGPT 4o / GPT Image 1	FLUX.1 Kontext [max]	Qwen Image Edit	Gemini 2.0 Flash Image
角色 (Character)	~1230	~1100	~1020	~920	~860
创意 (Creative)	~1120	~1050	~970	~990	~880
物件/环境 (Object/Env)	~1080	~1020	~1000	~1010	~900
风格化 (Stylization)	~1050	~1180	~950	~1100	~730

排名 (UB) ↑	模型 ↑	分数 ↑	95% CI (±) ↑	投票数 ↑	组织 ↑	授权 ↑
1	`gemini-2.5-flash-image-preview (nano-banana)`	1362	±2	2,521,035	Google	专有
2	`flux-1-kontext-max`	1191	±3	357,196	Black Forest…	专有
3	`flux-1-kontext-pro`	1174	±2	2,015,530	Black Forest…	专有
3	`gpt-image-1`	1170	±3	1,026,399	OpenAI	专有
5	`flux-1-kontext-dev`	1152	±3	1,584,400	Black Forest…	专有
6	`qwen-image-edit`	1145	±2	1,585,904	Alibaba	Apache 2.0
6	`seededit-3.0`	1142	±4	1,285,080	Bytedance	专有
8	`gemini-2.0-flash-preview-image-generation`	1093	±3	1,700,785	Google	专有

资料来源: https://lmarena.ai/leaderboard/image-edit

从表格中可以清楚看到，Gemini 2.5 Flash Image 在多数项目中都处于领先地位，这也印证了它在生成质量和创意控制上的巨大进步。

Gemini 2.5 Flash Image 的超能力，实际应用见真章

为了让大家更直观地感受它的威力，Google AI Studio 的“建构模式 (build mode)”也进行了大幅更新。你不仅可以快速测试模型的能力，还能用一个简单的提示词就打造出客制化的 AI 应用，甚至一键部署或将代码存到 GitHub。

接下来，我们来看看几个最让人惊艳的功能。

角色一致性？再也不是问题了！

在 AI 图片生成中，最大的挑战之一就是“维持角色或物件的连贯性”。不管是为故事书创造主角、为电商产品制作不同角度的展示图，或为品牌产生一系列风格一致的素材，维持主体不变都是关键。

Gemini 2.5 Flash Image 在这方面取得了重大突破。现在，你可以轻松地将同一个角色放入完全不同的环境或情境中，同时完整保留其外貌特征。官方的展示中，就将同一位女性分别塑造成了西洋棋大师、赛车手、足球员和射箭选手，而她的脸部特征在所有图片中都保持了高度的一致性。

想象一下，开发者可以利用这个特性，仅仅通过一个设计范本，就能为整个公司的员工生成风格统一的识别证，或为房地产网站制作大量的房源卡片，甚至为整个产品目录生成动态的商品模型。

用“说”的就能修图：精准的提示词编辑

除了搞定人物，精准的局部修改也是一大痛点。 Gemini 2.5 Flash Image 让你能用最直觉的方式——自然语言——来进行精准的图像编辑。

这代表什么？你可以用简单的指令做到：

“模糊这张照片的背景。”
“把 T 恤上的污渍移除。”
“帮这张黑白照片上色。”
“改变主角的姿势。”

基本上，只要你能想到的修改，都可以用一句话来实现。在 Google 的示范中，使用者上传了一张穿着黑色上衣、戴着耳环的男性照片，并下达指令：“change my shirt color to red and remove earring”（把我的上衣颜色改成红色并移除耳环）。模型精准地完成了这两项修改，生成了一张他穿着红色上衣且没有耳环的逼真照片。

多图融合，无缝创作新场景

Gemini 2.5 Flash Image 还具备理解并融合多张输入图片的能力。这项功能为创意工作打开了全新的大门。

你可以将一件商品（例如一盏台灯）的图片，和一个室内场景的图片融合，AI 会自动生成一张极度逼真的合成图，仿佛这盏灯原本就在那个房间里。你也可以为一个空间重新设计配色或材质，或将两张完全不同的图片融合成一张全新的艺术作品。

为了方便大家体验，Google 同样在 AI Studio 中建立了一个名为“Home Canvas”的范本应用，你只需拖曳产品和场景图片，就能快速创造出照片级的合成影像。

不只是画图，它还看得懂手绘草稿

这个模型的能力远不止于此。它甚至能理解手绘的图表，并根据指令进行互动。

在一个展示案例中，开发者建立了一个名为“Gemini Co-Drawing”的应用。它将一个简单的画布变成了一位互动式家教。使用者可以画出一个标示了两条边长（30 和 40）的直角三角形，并用文字提问：“解出 x 的值，并用红色把正确答案写在 x 的位置上。”Gemini 2.5 Flash Image 不仅能看懂图、理解问题，还能按照指令完成复杂的编辑步骤，将正确答案“50”用红色字体填入图中。

这项能力为教育、设计和协作领域带来了巨大的想象空间。

如何开始使用？以及重要的合作伙伴

准备好开始动手玩了吗？

开发者： 可以立即透过 Gemini API 和 Google AI Studio 开始建构。
企业： 可透过 Vertex AI 平台将其整合到工作流程中。

此外，为了让更广泛的开发者社群能接触到这项技术，Google 也宣布了与两个重要平台的合作：

OpenRouter.ai： Gemini 2.5 Flash Image 成为 OpenRouter 上超过 480 个模型中，第一个具备图像生成能力的模型，将触及超过 300 万名开发者。
fal.ai： 作为一个领先的生成式媒体开发平台，fal.ai 的加入将进一步扩大 Gemini 2.5 Flash Image 在开发者社群中的应用。

值得一提的是，所有由 Gemini 2.5 Flash Image 创建或编辑的图片，都会包含一个隐形的 SynthID 数字浮水印，以便在需要时能够识别其为 AI 生成或编辑的内容。

未来的展望

这趟旅程才刚刚开始。 Google 团队仍在积极努力，致力于改善长文本的渲染效果、提供更稳定的角色一致性，以及在图像中呈现更精确的真实细节。

他们非常期待看到全球的开发者和创作者们，会如何运用 Gemini 2.5 Flash Image 来打造出令人惊艳的作品。你的回馈将是推动它不断进步的重要动力。

准备好迎接 AI 图像创作的新浪潮了吗？快来试试 Gemini 吧！

分享到:

Featured Partners

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

Recommended for You

微 …

tool

微软 AI 秘密武器亮相？首款自研图像模型 MAI-Image-1 登上 LMArena 榜单

微软 AI 低调发表首款完全内部开发的文生图模型 MAI-Image-1，并在知名 AI 模型竞技场 LMArena 首次亮相即进入前十。这款模型强调照片级的真实感与创作灵活性，未来将整合至 Copilot 与 Bing Image Creator，为微软的 AI 生态增添重要一环。 AI 图像生成领域风起云涌，科技巨头们的布局也日益清晰。最近，微软 AI 悄然推出了其最新成果——MAI-Image-1。这并非寻常的更新，而是微软首款完全在内部开发的文生图模型。它没有盛大的发表会，而是选择在 AI 模型竞技平台 LMArena 上直接亮相，并取得了第九名的不错开局。这一步棋，展现了微软在生成式 AI 领域持续深耕的决心。MAI-Image-1 的出现，不仅是微软 AI 研发实力的一次展示，也预示着其旗下的 Copilot 和 Bing Image Creator 等产品，未来将拥有更强大的原生图像生成能力。 MAI-Image-1 在 LMArena 的初登场表现 LMArena 是一个通过用户匿名投票来对各种 AI 模型进行评分的平台，其排名在一定程度上反映了模型在真实使用场景中的受欢迎程度。MAI-Image-1 作为一个新秀，能直接进入榜单前列，与来自 Google、Tencent、Bytedance 等公司的顶尖模型同场竞技，本身就是一个不小的成就。以下是目前的 LMArena 图像模型排行榜，可以清楚看到 MAI-Image-1 的位置： Rank (UB) Model Score 95% CI (±) Votes Organization License 1 hunyuan-image-3.0 1161 (Preliminary) ±6 14,414 Tencent tencent-hunyuan-community 1 gemini-2.5-flash-image-preview (nano-banana) 1154 ±3 526,205 Google Proprietary 3 imagen-4.0-ultra-generate-preview-06-06 1145 ±3 447,731 Google Proprietary 3 seedream-4-2k 1144 ±6 14,582 Bytedance Proprietary 4 seedream-4-high-res-fal 1134 ±5 20,954 Bytedance Proprietary 5 imagen-4.0-generate-preview-06-06 1131 ±3 448,875 Google Proprietary 7 gpt-image-1 1123 ±3 204,686 OpenAI Proprietary 7 seedream-4-fal 1118 ±6 13,513 Bytedance Proprietary 9 mai-image-1 1096 (Preliminary) ±9 4,091 Microsoft AI Proprietary 9 seedream-3 1082 ±5 36,678 Bytedance Proprietary 10 flux-1-kontext-max 1079 ±3 72,764 Black Forest Labs Proprietary 12 qwen-image-prompt-extend 1072 ±2 571,973 Alibaba Apache 2.0 13 imagen-3.0-generate-002 1062 ±3 418,478 Google Proprietary 13 flux-1-kontext-pro 1062 ±3 333,142 Black Forest Labs Proprietary 13 qwen-image 1061 ±2 106,803 Alibaba Apache 2.0 16 ideogram-v3-quality 1049 ±5 36,941 Ideogram Proprietary 17 lucid-origin 1025 ±3 277,597 Leonardo AI Proprietary 17 photon 1020 ±5 56,961 Luma AI Proprietary 18 recraft-v3 1017 ±4 107,683 Recraft Proprietary 18 flux-1.1-pro 1013 ±3 71,781 Black Forest Labs Proprietary 19 ideogram-v2 1012 ±3 73,285 Ideogram Proprietary 22 gemini-2.0-flash-preview-image-generation 987 ±3 285,249 Google Proprietary 23 dall-e-3 978 ±4 266,633 OpenAI Proprietary 24 flux-1-dev-fp8 966 ±4 49,919 Black Forest Labs Open 24 flux-1-kontext-dev 963 ±3 214,478 Black Forest Labs Proprietary 26 stable-diffusion-v35-large 936 ±4 23,764 Stability AI Open 27 bagel 913 ±5 11,646 Bytedance Apache 2.0 资料来源：LMArena 图像模型排行榜，数据截至 2025 年 10 月。

Oct 15, 2025 Read →

腾 …

tool

腾讯混元揭秘：不止是生成图片，更是拥有「LLM 大脑」的 AI 艺术家

深入了解腾讯最新开源的混元文生图模型 HunyuanImage-3.0。探索其独特的「LLM 大脑」如何深刻理解中文语意与东方美学，并透过创新的渐进式训练范式，打造出令人惊艳的视觉艺术。这不只是技术，更是 AI 创作的未来。 AI 绘图赛道的新星：腾讯混元是什么？ AI 生成图像的领域总是不断给我们带来惊喜，从 Midjourney 的艺术感到 Stable Diffusion 的灵活性，似乎每隔一段时间就会有新的突破。现在，一个值得关注的新角色正走进舞台中央——那就是腾讯推出的混元文生图大模型。但请别急着将它归类为「又一个」AI 绘图工具。混元模型的核心理念，可能预示着生成式 AI 的下一个发展方向。它不仅仅是个会画画的程式，更像是一个搭载了强大「LLM 大脑」的创作者，尤其擅长理解我们复杂又充满想像力的中文指令。这篇文章将带你一探究竟，看看混元模型是如何透过其独特的架构和训练方式，特别是在其最新的 HunyuanImage-3.0 版本中，实现从「听懂」到「创造」的飞跃。混元的秘密武器：「LLM 大脑」你可能想问，这跟其他模型到底有什么不同？答案就藏在「LLM 大脑」这个概念里。过去的许多文生图模型，虽然效果不错，但在处理复杂或带有文化背景的指令时，有时会显得力不从心。它们像是个技艺高超但理解力有限的学徒，你得用非常精确、简单的语言去命令它。然而，腾讯混元走了另一条路。它将一个强大的大型语言模型（LLM）深度整合到图像生成的流程中。这代表什么？真正的理解力：它不再是简单地将文字标籤对应到图像特徵。这个「大脑」能像人类一样，分析句子的结构、理解抽象概念，甚至领会文字背后的情感和文化意涵。例如，它能更好地区分「夕阳下的古寺，带有淡淡的禅意」和「一座红色的庙宇在日落时分」这两者之间的细微差别。指令优化与改写：根据官方资料，混元模型在 instruction tuning 阶段就建立了思维和改写能力。这意味着，即使你的指令有些模糊，它也能够「脑补」并优化，生成更符合你潜在期望的图像。这就像一位聪明的设计师，能帮你把一个初步的想法，变成一个具体的视觉方案。简单来说，这个「LLM 大脑」让混元从一个被动的执行者，转变为一个能与你对话、共同创作的伙伴。一位 AI 艺术家的养成之路：渐进式训练范式一个强大的模型不是一蹴可几的。混元模型的卓越表现，源自于一套被称为「渐进式训练范式」的精心设计流程。这套流程就像是培养一位艺术家的完整课程，每一步都至关重要。第一阶段：Pre-training (奠定基础) 这是一切的开始。在这个阶段，模型会学习海量的图像和文本资料，但遵循一个聪明的策略：从低解析度到高解析度，从低品质到高品質。为什么要这样做？这是一种高效的学习方式。先让模型掌握物体的轮廓、颜色和基本构图等宏观概念，再逐步让它学习更精细的纹理和细节。这就像学画画，先学素描打好基础，再上色、处理光影。第二阶段：Instruction Tuning (学会听话) 有了基础知识后，模型需要学会如何「听懂指令」。这个阶段是「LLM 大脑」发挥作用的关键。透过大量的指令与对应图像进行微调，模型开始将其语言理解能力与视觉生成能力紧密结合。它不仅学习「苹果」长什么样，更学习理解「一个放在旧木桌上、被清晨阳光照到的青苹果」这种复杂的场景描述。第三阶段：SFT 与 RL (追求卓越) 最后，为了让生成的图像不仅准确，更要「好看」，混元模型进入了监督式微调（SFT）和强化学习（RL）阶段。在这个阶段，模型会接触大量由人类专家筛选过的高品质、高美感的数据。透过人类的回馈，模型会学习什么样的构图更具吸引力，什么样的色彩搭配更和谐。这等于人为这位 AI 艺术家聘请了一位审美导师，不断提升它的艺术品味和创作水准。而这套精密的训练流程，最终的成果就是我们现在看到的最新版本。全新升级：HunyuanImage-3.0 带来了什么？如果说上述的训练范式是混元模型的骨架，那么 HunyuanImage-3.0 就是其血肉丰满、智慧超群的完全体。这个版本在前代的基本上进行了全面增强，带来了几个令人瞩目的飞跃：更强大的「中文大脑」： HunyuanImage-3.0 将中文的理解能力推向了新的高度。它不仅能处理更长的中文提示词（prompt），还能精准识别多达数十个复杂的语意元素。无论是充满诗意的古风场景，还是包含特定文化符号的现代创作，它都能游刃有余。智慧的提示词优化：这或许是 3.0 版本最贴心的功能之一。它内建了提示词自动扩展与改写的能力。这意味着，就算你只输入一个简单的想法，例如「一只猫」，模型会自动为你丰富细节，可能生成「一只坐在窗台上的虎斑猫，阳光洒在它毛茸茸的身上，眼神慵懒」，大幅降低了使用门槛，让新手也能轻松创作出惊艳的作品。画质与真实感的飞跃：新版本在图像的细节、纹理和光影处理上更加细腻，生成的人像和风景都极具真实感。这得益于其更先进的模型架构和更高品质的训练数据。对多样化风格的驾驭：从动漫二次元到传统水墨画，从超现实主义到赛博朋克，HunyuanImage-3.0 展现了惊人的风格适应性，满足了不同创作者的多元化需求。为什么你该关注混元模型？无论你是开发者、设计师还是纯粹的 AI 爱好者，腾讯混元模型，特别是其最新的 HunyuanImage-3.0，都有几个值得你关注的亮点：

Sep 30, 2025 Read →

腾 …

tool

腾讯混元生图模型重磅开源！挑战 AI 绘图市场的强大新秀

腾讯正式开源其最新的文生图大模型 HunyuanImage-2.1，为 AI 创意领域投下一颗震撼弹。这款拥有 17B 参数、原生支持 2K 超高分辨率的模型，在理解复杂指令和生成中英文字体方面表现出色。本文将带你深入了解它的核心亮点、技术细节与它为创作者们带来的全新可能性。 AI 绘图界风云再起，腾讯端出压箱宝你可能也注意到了，AI 生成内容的浪潮一波接着一波，从聊天机器人到影片生成，几乎每天都有新玩意儿。而在“文生图”这个竞争最激烈的赛道上，大家熟悉的名字不外乎 Midjourney、Stable Diffusion 等等。但现在，牌桌上又多了一位重量级玩家——腾讯。就在 2025 年 9 月 9 日，腾讯混元大模型团队正式宣布，将其最新的文生图模型 HunyuanImage 开源，开放给全球的开发者与创作者使用。这不只是一个普通的模型更新，而是一个可能改变许多人工作流程的强大工具。什么是 HunyuanImage？不只是一个普通的 AI 绘图工具简单来说，HunyuanImage 是一个可以根据你的文字描述，自动生成对应图片的 AI 模型。你给它一句话，它还你一张图。听起来很基本，对吧？但魔鬼藏在细节里。这次开源的版本是 HunyuanImage-2.1，它拥有高达 170 亿（17B）的参数规模。在 AI 的世界里，参数规模通常代表着模型的“知识量”和“细腻度”。越大的参数规模，意味着它能理解更复杂的概念，并生成更精致、更贴近现实的图像。 HunyuanImage 凭什么脱颖而出？光是参数大还不够，HunyuanImage 真正让人眼睛一亮的是它解决了许多现有工具的痛点。原生支持 2K 高分辨率，告别模糊感你是否曾用 AI 算图，却总觉得画质差了那么一点？很多模型生成的图片尺寸偏小，放大后细节就糊了。HunyuanImage 从根本上解决了这个问题，它原生支持 2048×2048 像素（2K）的高清影像输出。这代表你生成的图片从一开始就拥有丰富的细节，无论用于海报设计、社群媒体贴文，还是数位艺术创作，都能提供绝佳的画质基础。惊人的复杂语义理解能力 “一个穿着古装的太空人，在赛博庞克风格的菜市场里和一只猫喝下午茶。” 像这样天马行空的指令，对很多 AI 模型来说是个大挑战，它们可能会搞混主体、忽略场景或遗漏细节。然而，HunyuanImage 在这方面下了苦功。它支持长达 1000 个 tokens 的超长 prompt，让你有足够的空间去描绘脑海中那个复杂又具体的画面。这得益于它强大的语义理解能力，能够精准解析长句中的多个元素、它们之间的关系以及所需的情绪氛围。终于，AI 能好好写字了！在 AI 生成的图片中加入文字，一直是一大难题。常常不是拼错字，就是字体扭曲得像外星文。HunyuanImage 特别强化了对中英文字体的生成能力，无论你想在海报上加上响亮的标语，或是在漫画对话框中填入台词，它都能生成清晰、美观的文字，这对设计师和内容创作者来说，简直是天大的好消息。多主体控制与创意场景生成除了文字，模型在处理多个主体时也表现得相当出色。你可以要求它在同一画面中分别控制不同角色的动作、外观和位置，而不会轻易地“融为一体”。

Sep 10, 2025 Read →