去年8月,谷歌发布了Gemini图像模型Nano Banana,一度全网刷屏,成为现象级产品,同年11月,谷歌又发布了Nano Banana Pro,提供更高级的智能功能和工作室级别的创意控制。
北京时间2月27日凌晨,谷歌又更新了,这次是Nano Banana 2(Gemini 3.1 Flash Image),兼具了速度和Pro版的性能,同时价格也更便宜了。谷歌表示,这是团队目前最好的图像生成和编辑模型。
AI基准测试机构Artificial Analysis今天发文提到,Nano Banana 2以Nano Banana Pro的一半的价格在文生图榜单中排名第一,在图像编辑榜单中排名第三,仅次于GPT Image 1.5和Nano Banana Pro。

“谷歌再次改变了游戏规则。”大模型竞技场LMArena也在今天发布了最新排行榜,提到Nano Banana 2在排行榜上拿下全球第一,文生图测试得分 1280,同样超越了GPT Image 1.5和Nano Banana Pro。
两个测评机构都提及Nano Banana 2的性价比,综合效果更强、速度更快,但价格比Nano Banana Pro 便宜一半。在谷歌AI Studio平台,Nano Banana 2输出每张1k图片的单价为0.067美元,输入为0.5美元,而Nano Banana Pro对应的价格是0.134美元和2美元。
有网友感慨,“设计师的时代已经结束了。”也有人在评论区认为,当前AI生图的不真实感仍然较重,有时候生成并不准确,下这个判断还为时过早。不过,大部分都认为,“是时候适应新技术,向前看了”。
具体来看,此次更新的Nano Banana 2特色主要是:先进的世界知识、精确的文本渲染和翻译、主题一致性、精确的指令执行和视觉保真度提升等,模型可以呈现生动的光照、更丰富的纹理、更清晰的细节。
谷歌CEO桑达尔·皮查伊(Sundar Pichai)发布推文提及,Nano Banana 2利用了Gemini模型对世界的理解,并由来自网络搜索的实时信息和图像驱动,这意味着模型可以更真实、更准确地反映现实世界的情况。
为了展现模型的这一功能,谷歌创建了一个名为“Window Seat”(靠窗座位)的程序进行演示,用户可以在这一程序上设定世界上任何一个地区,指定想要的窗户位置,让Nano Banana 2生成一扇窗户的逼真画面,并根据实时天气数据更新景色。

有动画师发现了一个更有趣的玩法:打开地图软件里找到一个位置区域随机截图,然后让Nano Banana 2生成此地点的动漫/卡通风格的全景图。
第一财经记者用广州塔区域的地图截图,让Nano Banana 2尝试用动漫风格制作此地点的全景图,或许由于网络或后台问题输出速度较慢,但可以看到,画面保持了一定的审美和水准,还原了广州塔、猎德大桥等标志性景点,不过猎德大桥的位置错误,一些中文字体的标注仍有错误。

换成网页版输出,虽然速度更快,但连广州塔的位置都绘制错了。由此可见,当前Nano Banana 2的水平还并不稳定,AI也并非完美。

谷歌提到,Nano Banana 2也支持高级文本渲染和本地化,可以构建动态UI生成器,生成更清晰准确的文本,并且能够直接在图像中生成或翻译多种语言的文本。
为了展示这些功能,谷歌开发了一款名为“全球广告本地化器”(Global Ad Localizer)的演示应用,它可以将一个英语版本的图像广告翻译成不同语言,例如日文、法语等,以适应国际市场,这对出海的企业来说有应用价值。

相比初代Nano Banana,Nano Banana 2大幅缩小了速度与画质的差距,能生成高质量、照片级的逼真图像。在单个工作流中,最多能保持五个角色的形象相似性,以及最多14个对象的特征一致性,方便创作者进行故事板绘制和叙事创作。
有一些公司已经提前体验了产品,AI应用开发公司HubX高级产品经理 Sertac Cinar就提到,通过集成Nano Banana 2,HubX 实现了74%–76% 的延迟降低,人脸编辑工作流速度提升了 4 倍,同时没有牺牲专业级的画质。
有博主测评显示,无论是人物表情控制、还是文本生成和排版,Nano Banana 2都比pro版本有了很大的提升。不过,或许是由于参数量较小的原因,Nano Banana 2对人体结构、复杂度动作、物体结构都认知不足,因此在一些如人体倒立这样的复杂场景上会有问题。
显然,Nano Banana 2并非完美,但它确实将图像生成模型的性能推向新高。只是,这一次的王座能坐多久,下一个登顶者又会是谁?在模型竞争日益激烈的当下,一切仍是未知数。
(本文来自第一财经)