谷歌 最近发布了其 Nano Banana 图像生成 AI 模型系列的官方指南,详述了三款模型之间的差异及各自的适用情境。 这份指南特别侧重于近期推出的Nano Banana 2,该模型是基于Gemini 3.1 Flash Image技术开发。 随着系列中现有三款模型,这份详细说明旨在帮助开发者和创作者选择最符合其应用需求的型号。

Nano Banana 2 成本效益高成主流选择
谷歌 表示,Nano Banana 2 具备Nano Banana Pro 约 95% 的功能,但成本大幅降低,因此成为大多数新项目的预设推荐。 Nano Banana Pro 仅适用于高度复杂、多层次的提示或有极端逻辑需求的场景,然而,谷歌 也明确指出 Pro 型号仍是目前系列中最佳的图像模型。 至于较旧的Nano Banana 1 虽然最便宜且速度最快,因为它不是「思考型」模型,但谷歌已不再建议新项目采用。 对于需要更精细处理、更佳提示追踪或全新图像搜寻功能的开发者,谷歌 建议直接使用 NB2,特别是在 512 像素分辨率下,NB2 的成本与 NB1 大致相同。
Nano Banana 2 独家支持视觉图像搜索功能
Nano Banana 2 的独家新特点是结合了 谷歌 搜索的视觉图像搜索(visual grounding)功能。 虽然Nano Banana Pro已经能从网络提取文字信息,但NB2更进一步,现在它能够从网络搜寻实际图片,借此在生成图像前理解真实物体的样貌。 谷歌 表示,这项图像搜索功能对于特定地点,如教堂、桥梁或城镇广场,以及精确的动植物物种特别有效。 该指南通过法国沃伊龙的一座教堂和两种蝴蝶的视觉差异进行演示。 需要注意的是,图像搜索功能不适用于人物。 目前,这项功能仅通过API提供,尚未整合到Gemini应用程序中。
关闭思考模式助降成本
Nano Banana 2 支持 512 像素的图像生成,可显著加速生成时间并将成本降低至与 Nano Banana 1 相当的水平。 谷歌 建议采用多阶段工作流程:首先利用提供 50% 折扣的批次 API,以 512 像素生成大量变体,然后将最佳构图放大至 1K、2K 或 4K 分辨率。 此外,NB2还支持1:8和1:4的极端长宽比,无论是垂直或水平方向。 谷歌 表示,这些格式非常适用于网页横幅、连续卷动内容或法比风格的漫画布局。
谷歌 也建议 Nano Banana 模型默认关闭「思考模式」(Thinking Mode),因为在常规图像生成过程中,它主要会增加时间和运算成本。 仅在模型产生无意义结果、建立高度复杂的信息图表,或结合图像搜索与空间推理时,才值得开启此模式。