谷歌Nano Banana来了:图生图成本这么低靠谱吗?比OpenAI便宜那么多,能用吗?

2025-10-12 09:55:15 作者:Vali编辑部

昨晚,谷歌正式推出了一款名为Gemini-2.5 Flash Image Preview的图像生成工具。这款工具在测试阶段就引发了不少关注,其强大的图像编辑能力让不少用户感到惊喜。目前,该工具已经可以在Google AI Studio和Gemini API中进行预览,用户可以免费试用。

这款工具的主要特点包括:SOTA的图像生成与编辑能力、惊人的角色一致性以及闪电般的速度。从名字也可以看出,谷歌可能还有一款非Flash版本的Gemini-2.5 Image模型,其性能应该更加强大,但速度会更慢。

在功能方面,Gemini-2.5 Flash Image Preview支持32k上下文,并提供了温度(可以控制模型的创造力)以及一些高级设置。然而,遗憾的是,该模型尚不支持对中文输入执行图像生成和编辑,而是会给出文本响应。

另外,在Gemini中,用户只需选择2.5 Flash并使用合适的提示词,也可以使用该模型。价格方面,Gemini-2.5 Flash Image Preview输入/输出文本的价格是0.3/2.5美元,输入/输出图像的价格是0.3/30美元。知识截止时间是2025年6月。

大概计算下来,该模型生成每张图像的成本大约为0.039美元(约0.28元),远低于OpenAI的图像生成成本。具体功能(尤其是图像编辑)上,谷歌官方博客介绍说他们尤其注重在不同图片间保持人物形象的一致性。

「我们知道,当你编辑自己或熟悉的人时,哪怕是细微的差别都会显得刺眼——『差一点但不完全一样』的效果就是感觉不对。正因如此,我们的最新更新专门针对这一点,让你的朋友、家人,甚至宠物,无论是尝试60年代的蜂窝头发型,还是给吉娃娃穿上芭蕾舞裙,都能始终看起来像他们自己。」

你只需要给Gemini一张照片,并告诉它你想要修改的地方,就能加上独特的个人风格。该模型可以帮你把自己和宠物放在同一张照片里,把房间背景换成新壁纸的效果,或者把你带到世界上任何你能想象的地方——同时保持『你就是你』。完成后,你甚至可以把编辑过的照片再次上传到Gemini,把新图变成一段有趣的视频。

谷歌还分享了一些玩法示例。

换装或换场景:上传一张人物或宠物的照片,该模型会在任何新场景下都保持他们的外貌一致。你可以尝试不同的服装、职业,甚至看看你在另一个年代会是什么样子——但始终还是你自己。

谷歌甚至还专门构建了一个演示模板应用来展示不同年代的你是什么样。

地址:https://www.valimart.net/

合成照片:你现在可以上传多张照片,把它们融合成一个全新的场景。比如,把你和狗狗的照片合成在篮球场上,生成一张完美的合影。

多轮编辑:你可以不断修改Gemini生成的图像。比如,从一间空房间开始,先刷墙,再加书架、家具或茶几。Gemini会一路协助你,只改动你指定的部分,同时保留其余部分。

混合设计:把一张图的风格应用到另一张图的物体上。比如,把花瓣的颜色和质感应用到一双雨靴上,或者用蝴蝶翅膀的花纹设计一件连衣裙。

原生世界知识:该模型还能够利用Gemini的世界知识,从而解锁全新的应用场景。为了展示这一点,谷歌在Google AI Studio中构建了一个模板应用,它可以将一个简单画布变成交互式教育导师。

地址:https://www.valimart.net/

此外,谷歌还提到所有在Gemini应用中生成或编辑的图片都会带有可见水印,以及谷歌的隐形SynthID数字水印,以清晰标识它们是AI生成的。

该模型一上线就迎来了一波测试热潮,谷歌首席科学家Jeff Dean直接以身入局,将自己P成了一个足球运动员卡牌角色。

诺奖得主、DeepMind创始人兼CEO Demis Hassabis也来了一张个人形象照。

网友们也是各洒创意,分享了很多有趣结果。

添加图片注释,不超过140字(可选)

感兴趣的读者也可以访问我们之前的测试报道《谷歌偷偷搞了个神秘模型Nano-Banana?实测:强到离谱,但有3大硬伤》。

排行榜

Gemini-2.5 Flash Image Preview正式上线后不久,各个榜单也开始晒出该模型的成绩表现。

在Artificial Analysis图像编辑排行榜上,该模型直接跃升至第一位,获得了1212的ELO分数。

而在其文生图榜单上,字节跳动的即梦3.0和OpenAI的GPT-4o还有少量优势。

不过,在投票人数更多的LM Arena的榜单上,Gemini-2.5 Flash Image Preview在这两个任务上都已经成为冠军。

下面展示了在各个指标上更详细的分数,其中Gemini-2.5 Flash Image Preview在角色一致性、创意、图表、事物/环境等方面优势明显,而在风格化方面,GPT-4o目前最为领先。

你已经尝试过nano banana/Gemini-2.5 Flash Image Preview了吗?感觉如何?

参考链接

https://www.valimart.net/

https://www.valimart.net/

https://www.valimart.net/

文章来自微信公众号“机器之心”