三款模型怎么选:一张矩阵就够了
Nano Banana 产品线目前有三个模型,选错模型直接影响成本和效果。核心判断逻辑如下:
Nano Banana 1 vs. Nano Banana 2:如果现有工作流在 NB1 上运行良好,没有必要立刻迁移。NB1 依然是最便宜、最快的选项——它不是思考型模型,延迟更低。但如果你的场景需要更好的提示词遵循性、更细腻的风格控制,或者需要用到图像定位功能,NB2 值得为此多付一点费用。一个实用的省钱技巧:用 NB2 生成 512px 图像,成本与 NB1 基本持平。
Nano Banana Pro vs. Nano Banana 2:可以把 NB2 理解为以一小部分成本提供了 Pro 约 95% 的能力。对几乎所有新项目,NB2 应该是默认选项。只有当你在处理高度复杂的多层提示词或极端逻辑约束时持续碰壁,才需要升级到 Pro。
图像定位:真正改变游戏规则的能力
Nano Banana Pro 此前已经支持搜索网络文本信息,但 NB2 实现了质的飞跃——图像定位(Image Grounding)。模型可以在生成前搜索互联网上的特定图像,从而准确理解真实世界中某个具体对象的外观。
这个能力在两类场景下尤其强大:
- 特定地点:指定某座教堂、某座桥梁、某个城市广场,模型会搜索其真实外观后再生成
- 特定物种:精确到某个动物品种、昆虫种类,生成结果与现实高度一致
需要注意的限制:模型无法搜索人物。
示例提示词——地点定位:
"生成法国 Voiron 主要历史教堂的电影感黄金时刻照片。确保建筑细节、尖顶、周围广场和景观(山脉)与现实准确一致。"
示例提示词——物种定位:
"创建一张凤蝶和闪蝶的真实图片,并突出它们的差异,展示如何区分它们。"
新参数:512px 分辨率与极端宽高比
NB2 引入了几个直接影响开发者工作流的新参数。
512px 批量生成 + 放大工作流:这是面向成本敏感型开发者的黄金方案——
- 使用批量 API(享受 50% 折扣)以 512px 生成数十个提示词变体
- 从结果中筛选最佳构图
- 用 NB2 将选中的图像放大到 1K、2K 或 4K
这套流程把成本压缩到与 NB1 相当,同时保持了 NB2 级别的质量。
极端宽高比(1:8 和 1:4):支持垂直和水平两个方向,适用于网页横幅、连续滚动页面和漫画书布局。
示例提示词——横向连环画:
"创建一个 4 格横向连环画(宽高比 4:1)。故事讲述一只顽皮的猫试图从厨房柜台上偷鱼,最后有一个转折。使用充满活力的法比漫画风格。保持猫在所有面板中的设计一致。"
思考模式:默认关闭是对的
NB2 继承了思考型模型的推理能力,但现在开发者可以手动控制开关。基于实际测试的建议:默认关闭。
只在以下三种情况下打开:
- 模型输出混乱,需要额外推理来理解复杂提示词
- 生成高度复杂的信息图表
- 需要将图像定位与空间推理结合使用
对于标准图像生成任务,关闭思考模式节省的时间和算力成本是实实在在的。
值得收藏的提示词模板
卡通肖像——上传个人照片,生成与真实自己互动的 3D 角色:
"严格基于上传的参考图像,创建一个逼真的场景,其中真实的人站在一个巨大的 3D 动画风格版本的自己旁边。两者必须具有相同的面部结构、服装和姿势。真实的人自然微笑,手放在 3D 角色的肩膀上。3D 版本比例更大,解剖学上相同但风格化,具有富有表现力的眼睛和顽皮的笑容。干净的灰蓝色工作室背景,电影般的照明,清晰的纹理。"
动画转真人——将动画静止画面转换为超现实摄影图像:
"将这个上传的动画静止画面转换为超现实、电影般的、完全逼真的场景。将动画角色转换为真实的人类,同时完美保留他们的原始身份、面部结构、服装、表情和整体相似性。"
历史场景重现——用 Google 地图街景风格重现历史事件:
"生成公元 800 年 12 月 25 日查理曼大帝加冕的超现实图像,完美复制 Google 地图街景捕捉。展示教皇利奥三世在旧圣彼得大教堂内为跪着的查理曼大帝戴上皇冠。包括 123 度广角桶形失真、半透明的 Google 地图 UI 覆盖层和'© Google 800'水印。自动模糊人物面孔以保护隐私。使用温暖、昏暗的火炬光和烛光,戏剧性的阴影,以及 360 度相机在低光室内挣扎时典型的高 ISO 数字噪点。"
幼儿园蜡笔风格——故意凌乱的童趣画风:
"一个孩子在白色横线笔记本纸上用蜡笔画的雪上枫糖浆。使用粗大的蜡笔笔触、摇摆的轮廓和明亮大胆的颜色,这些颜色凌乱地溢出线条。包括可见的重压痕迹、蜡质污迹和不均匀的涂鸦阴影。在角落添加一个经典的大黄色太阳、蓬松的云朵,没有现实的透视。欢乐、天真的艺术风格。"
可以直接上手的应用方向
Google 官方提供了几个成熟的应用参考:
- Window Seat:根据实时天气和特定位置生成逼真的窗外景观
- Pet Passport Adventure:让宠物照片在全球各地场景中"旅行"
- Global Kit Generator:用于扩展本地化营销素材的开发者工具
对于一人公司而言,NB2 的实际价值在于:用 Pro 5% 的价格差距换来 95% 的能力覆盖,加上 512px 批量生成 + 放大的工作流,视觉素材的边际成本已经低到可以大规模自动化生产。如果你的产品需要持续输出高质量图像——无论是营销素材、产品插图还是社交媒体内容——现在是重新评估图像生成管线架构的时候了。