1. 官方图像提示词指南

本章节参考官方提示词指南编写：

Luma Image Models Field Guide | Luma

Nano Banana

Nano Banana 基于 Google Gemini 2.5 Flash，主打快速、稳定的通用生成，适合探索阶段使用。它的图中文字渲染能力在同类中表现突出，多次生成之间的角色与风格一致性也较为稳定，支持最多 8 张参考图、10 种宽高比，单图分辨率上限约为 1 兆像素（1024×1024）。需要 4K 输出时应改用 Nano Banana Pro。

提示词建议控制在 100 词以内，超出部分应紧扣镜头、光线或动作，否则画质容易下降。描述清楚风格、构图和关键元素即可，避免使用列表、JSON 或代码格式——相比冗长的铺陈，该模型对清晰、聚焦的提示词响应更好。

提示词模板：

一张照片级写实的 [景别]，主体为 [主体]，[动作或表情]，
位于 [环境] 中。
画面由 [光线描述] 照亮，营造出 [氛围] 的氛围。
以 [相机／镜头参数] 拍摄，突出 [关键纹理与细节]。

示例：

一张照片级写实的特写肖像。
主体是一位年迈的日本陶艺师，
脸上布满被阳光晒出的深刻皱纹，神情温和、目光从容。
他正仔细端详手中一只刚上釉的茶碗，
身处一间质朴而充满阳光的工作室。
黄金时刻的柔和光线从窗外斜射进来，
将陶土细腻的纹理清晰照亮。
以 85mm 人像镜头拍摄，背景虚化为柔和的焦外散景。

要点提示：生成知名人物时必须提供参考图，仅凭文字难以还原可辨识的样貌；如果风格偏"平淡通用"，可改用 Seedream；图中文字渲染是它的强项，适合海报、招牌、包装类设计。

Nano Banana Pro

Nano Banana Pro 是 Google Gemini 的高阶版本，定位为专业创作的常备主力：画质更高，分辨率最高可控制到 4K，足以满足面向客户的交付和营销项目。它提供 1K（快速）、2K（均衡）、4K（最高质量）三档分辨率，支持最多 14 张参考图和 10 种宽高比，在照片级写实和产品成像方面尤为出色。

提示词策略与 Nano Banana 一致，关键在于简洁清晰；产品和品牌类任务则需要补充纹理、材质和配色等细节。使用多张参考图时，要逐张标明各自的角色和类型。

提示词模板：

一张照片级写实的 [景别]，主体为 [主体]，[动作或表情]，
位于 [环境] 中。
画面由 [光线描述] 照亮，营造出 [氛围] 的氛围。
以 [相机／镜头参数] 拍摄，突出 [关键纹理与细节]。

示例：

一张高分辨率、影棚布光的产品照。
主体是一只极简风格的哑光黑色陶瓷咖啡杯，
放置在抛光水泥台面上。
采用三点柔光箱布光，营造柔和的漫射高光，并消除生硬的阴影。
相机以略微俯视的 45 度角拍摄，以展现杯子简洁的线条。
画面超写实，焦点清晰地落在咖啡升起的热气上。

要点提示：草稿迭代用 1K，定稿用 2K，仅在需要印刷级质量时用 4K；如果艺术风格效果偏平淡，可切换到 Seedream；连续多次编辑会导致画质衰减，可在每次编辑之间做一次放大，或在多轮编辑满意后，将所有改动一次性应用到原图。

Seedream

Seedream 5.0 由字节跳动开发，专门应对小众艺术风格和高度风格化的创作。当 Nano Banana 给出的结果偏"平淡通用"时，它就是更好的选择。它尤其擅长复古动画（如《吸血鬼猎人 D》《Hellsing》以及 80／90 年代动画美学）和各类冷门艺术流派，对复杂、详尽的长提示词的遵循度也高于其他模型。它提供 1K／2K／4K 三档分辨率，支持最多 6 张参考图和 9 种宽高比（含 9:21 超长竖幅）。

5.0 被定位为"意图驱动"的升级版本，能更好地理解自然语言指令。虽然没有公布明确的字数上限，但开发文档建议提示词控制在约 600 个英文单词以内。使用时的关键是精准描述目标风格——指明具体的视觉参照、年代和艺术流派，并补充线条粗细、配色、明暗处理等技术细节。

提示词模板：

一个 [主体]，以 [具体艺术风格／年代／流派] 风格呈现，
具有 [详细视觉特征：线条粗细、配色、明暗技法]，
置于 [环境] 中，[光线]，
带有 [参照艺术家／作品／年代] 的美学风格。

示例：

一名吸血鬼猎人，以 1980 年代暗黑奇幻动画风格呈现。
采用厚重的墨线轮廓、由深红与黑色组成的有限配色，
以及赛璐珞上色技法。
场景设在一座哥特式大教堂中，
配以戏剧性的明暗对比光照，
整体带有川尻善昭与《吸血鬼猎人 D》的美学风格。
一幅粗野主义建筑插画，以 1960 年代现代主义海报风格呈现。
采用大胆的平涂色块、几何造型和丝网印刷质感，
背景是空旷的天空，
搭配高对比度的光照，
带有包豪斯与瑞士设计流派的风格。

要点提示：当 Nano Banana 在艺术风格上表现平淡时再启用它；混用写实与插画类线索容易导致风格错乱，需要谨慎；明确指出目标动画年代或艺术流派可获得更好的效果；提示词的风格指向越具体，结果越精准。

GPT Image 1.5

GPT Image 1.5 由 OpenAI 开发，适合需要严格控制和复杂多图合成的场景，同时提供低质量档位，便于在动用重型模型之前做快速、低成本的试错。它在复杂的多图编辑与合成上表现出色，能够基于多张参考图构建出新颖的视角和复杂的构图变化，对输入图的风格、构图和细节保留能力强，支持最多 16 张参考图，提供低／中／高三档质量。

它的不足在于速度较慢（约 30–45 秒，而 Nano Banana Pro 约为 10–15 秒），宽高比仅 3 种（1:1、3:2、2:3），因此通常作为其他模型失效时的兜底，而非首选。

提示词应采用直接的指令式表达：写"将 X 改为 Y"，而不是"图像应当把 X 改成 Y"；能简则简，比如"移除背景"而非"请把这张图的背景去掉"；明确说明要改什么、保留什么，避免华丽或解释性的措辞。

提示词模板（生成）：

一张 [景别]，主体为 [主体]，[动作／状态]，
位于 [环境] 中，[风格]，[光线]，
满足 [关键构图／细节约束]。

示例：

一张广角镜头。
一个孩子在草地公园里放飞红色风筝，
黄金时刻的阳光洒下，
镜头缓缓向上摇移。

多图合成模板：

将图 1（[简要描述]）作为 [参考类型]。
将图 2（[简要描述]）作为 [参考类型]。
生成一张 [景别]，主体为 [主体]，处于 [动作／状态]，
位于 [环境] 中，[风格]，[光线]，
并满足 [关键构图／细节约束]，
按上述说明融合这些参考图。

多图合成示例：

将图 1（白色运动鞋）作为产品设计参考。
将图 2（岩石小径上的跑者）作为环境和光线参考。
生成一张广角镜头：
一只白色跑鞋悬浮在岩石小径上方，呈四分之三角度朝向镜头，
采用干净、专业的运动摄影风格，
暖色调的日出光线从右侧照入，远处带有柔和的薄雾。
鞋上的标志、拼接缝线和鞋底纹路需与图 1 完全一致，
小径、地平线和整体调色需与图 2 匹配。
保持鞋身非常清晰，背景略微虚化，
并在左上角留出空白，用于放置广告文案。

快速选型参考

速度排序（由快到慢）：Nano Banana → Seedream／Nano Banana Pro（两者相近）→ GPT Image 1.5（明显更慢）。

场景	优先级
照片级写实／产品图	Nano Banana Pro (4K) > Nano Banana Pro (2K) > Seedream (4K)
图中文字渲染	Nano Banana Pro > Nano Banana > Seedream／GPT Image 1.5
小众艺术风格／风格化	Seedream > Nano Banana Pro > GPT Image 1.5
多图合成	GPT Image 1.5 > Nano Banana Pro > Seedream
角色一致性	Nano Banana Pro（14 张参考）> Nano Banana（14 张）> Seedream（5 张）

0 条

登录后可以参与评论。

还没有评论，来写第一条吧

#1. 官方图像提示词指南

#Nano Banana

#Nano Banana Pro

#Seedream

#GPT Image 1.5

#快速选型参考

评论

1. 官方图像提示词指南

Nano Banana

Nano Banana Pro

Seedream

GPT Image 1.5

快速选型参考