1. 官方图像提示词指南


本章节参考官方提示词指南编写:

Nano Banana

Nano Banana 基于 Google Gemini 2.5 Flash,主打快速、稳定的通用生成,适合探索阶段使用。它的图中文字渲染能力在同类中表现突出,多次生成之间的角色与风格一致性也较为稳定,支持最多 8 张参考图、10 种宽高比,单图分辨率上限约为 1 兆像素(1024×1024)。需要 4K 输出时应改用 Nano Banana Pro。

提示词建议控制在 100 词以内,超出部分应紧扣镜头、光线或动作,否则画质容易下降。描述清楚风格、构图和关键元素即可,避免使用列表、JSON 或代码格式——相比冗长的铺陈,该模型对清晰、聚焦的提示词响应更好。

提示词模板:

一张照片级写实的 [景别],主体为 [主体],[动作或表情],
位于 [环境] 中。
画面由 [光线描述] 照亮,营造出 [氛围] 的氛围。
以 [相机/镜头参数] 拍摄,突出 [关键纹理与细节]。

示例:

一张照片级写实的特写肖像。
主体是一位年迈的日本陶艺师,
脸上布满被阳光晒出的深刻皱纹,神情温和、目光从容。
他正仔细端详手中一只刚上釉的茶碗,
身处一间质朴而充满阳光的工作室。
黄金时刻的柔和光线从窗外斜射进来,
将陶土细腻的纹理清晰照亮。
以 85mm 人像镜头拍摄,背景虚化为柔和的焦外散景。

要点提示:生成知名人物时必须提供参考图,仅凭文字难以还原可辨识的样貌;如果风格偏"平淡通用",可改用 Seedream;图中文字渲染是它的强项,适合海报、招牌、包装类设计。

Nano Banana Pro

Nano Banana Pro 是 Google Gemini 的高阶版本,定位为专业创作的常备主力:画质更高,分辨率最高可控制到 4K,足以满足面向客户的交付和营销项目。它提供 1K(快速)、2K(均衡)、4K(最高质量)三档分辨率,支持最多 14 张参考图和 10 种宽高比,在照片级写实和产品成像方面尤为出色。

提示词策略与 Nano Banana 一致,关键在于简洁清晰;产品和品牌类任务则需要补充纹理、材质和配色等细节。使用多张参考图时,要逐张标明各自的角色和类型。

提示词模板:

一张照片级写实的 [景别],主体为 [主体],[动作或表情],
位于 [环境] 中。
画面由 [光线描述] 照亮,营造出 [氛围] 的氛围。
以 [相机/镜头参数] 拍摄,突出 [关键纹理与细节]。

示例:

一张高分辨率、影棚布光的产品照。
主体是一只极简风格的哑光黑色陶瓷咖啡杯,
放置在抛光水泥台面上。
采用三点柔光箱布光,营造柔和的漫射高光,并消除生硬的阴影。
相机以略微俯视的 45 度角拍摄,以展现杯子简洁的线条。
画面超写实,焦点清晰地落在咖啡升起的热气上。

要点提示:草稿迭代用 1K,定稿用 2K,仅在需要印刷级质量时用 4K;如果艺术风格效果偏平淡,可切换到 Seedream;连续多次编辑会导致画质衰减,可在每次编辑之间做一次放大,或在多轮编辑满意后,将所有改动一次性应用到原图。

Seedream

Seedream 5.0 由字节跳动开发,专门应对小众艺术风格和高度风格化的创作。当 Nano Banana 给出的结果偏"平淡通用"时,它就是更好的选择。它尤其擅长复古动画(如《吸血鬼猎人 D》《Hellsing》以及 80/90 年代动画美学)和各类冷门艺术流派,对复杂、详尽的长提示词的遵循度也高于其他模型。它提供 1K/2K/4K 三档分辨率,支持最多 6 张参考图和 9 种宽高比(含 9:21 超长竖幅)。

5.0 被定位为"意图驱动"的升级版本,能更好地理解自然语言指令。虽然没有公布明确的字数上限,但开发文档建议提示词控制在约 600 个英文单词以内。使用时的关键是精准描述目标风格——指明具体的视觉参照、年代和艺术流派,并补充线条粗细、配色、明暗处理等技术细节。

提示词模板:

一个 [主体],以 [具体艺术风格/年代/流派] 风格呈现,
具有 [详细视觉特征:线条粗细、配色、明暗技法],
置于 [环境] 中,[光线],
带有 [参照艺术家/作品/年代] 的美学风格。

示例:

一名吸血鬼猎人,以 1980 年代暗黑奇幻动画风格呈现。
采用厚重的墨线轮廓、由深红与黑色组成的有限配色,
以及赛璐珞上色技法。
场景设在一座哥特式大教堂中,
配以戏剧性的明暗对比光照,
整体带有川尻善昭与《吸血鬼猎人 D》的美学风格。
一幅粗野主义建筑插画,以 1960 年代现代主义海报风格呈现。
采用大胆的平涂色块、几何造型和丝网印刷质感,
背景是空旷的天空,
搭配高对比度的光照,
带有包豪斯与瑞士设计流派的风格。

要点提示:当 Nano Banana 在艺术风格上表现平淡时再启用它;混用写实与插画类线索容易导致风格错乱,需要谨慎;明确指出目标动画年代或艺术流派可获得更好的效果;提示词的风格指向越具体,结果越精准。

GPT Image 1.5

GPT Image 1.5 由 OpenAI 开发,适合需要严格控制和复杂多图合成的场景,同时提供低质量档位,便于在动用重型模型之前做快速、低成本的试错。它在复杂的多图编辑与合成上表现出色,能够基于多张参考图构建出新颖的视角和复杂的构图变化,对输入图的风格、构图和细节保留能力强,支持最多 16 张参考图,提供低/中/高三档质量。

它的不足在于速度较慢(约 30–45 秒,而 Nano Banana Pro 约为 10–15 秒),宽高比仅 3 种(1:1、3:2、2:3),因此通常作为其他模型失效时的兜底,而非首选。

提示词应采用直接的指令式表达:写"将 X 改为 Y",而不是"图像应当把 X 改成 Y";能简则简,比如"移除背景"而非"请把这张图的背景去掉";明确说明要改什么、保留什么,避免华丽或解释性的措辞。

提示词模板(生成):

一张 [景别],主体为 [主体],[动作/状态],
位于 [环境] 中,[风格],[光线],
满足 [关键构图/细节约束]。

示例:

一张广角镜头。
一个孩子在草地公园里放飞红色风筝,
黄金时刻的阳光洒下,
镜头缓缓向上摇移。

多图合成模板:

将图 1([简要描述])作为 [参考类型]。
将图 2([简要描述])作为 [参考类型]。
生成一张 [景别],主体为 [主体],处于 [动作/状态],
位于 [环境] 中,[风格],[光线],
并满足 [关键构图/细节约束],
按上述说明融合这些参考图。

多图合成示例:

将图 1(白色运动鞋)作为产品设计参考。
将图 2(岩石小径上的跑者)作为环境和光线参考。
生成一张广角镜头:
一只白色跑鞋悬浮在岩石小径上方,呈四分之三角度朝向镜头,
采用干净、专业的运动摄影风格,
暖色调的日出光线从右侧照入,远处带有柔和的薄雾。
鞋上的标志、拼接缝线和鞋底纹路需与图 1 完全一致,
小径、地平线和整体调色需与图 2 匹配。
保持鞋身非常清晰,背景略微虚化,
并在左上角留出空白,用于放置广告文案。

快速选型参考

速度排序(由快到慢):Nano Banana → Seedream/Nano Banana Pro(两者相近)→ GPT Image 1.5(明显更慢)。

场景优先级
照片级写实/产品图Nano Banana Pro (4K) > Nano Banana Pro (2K) > Seedream (4K)
图中文字渲染Nano Banana Pro > Nano Banana > Seedream/GPT Image 1.5
小众艺术风格/风格化Seedream > Nano Banana Pro > GPT Image 1.5
多图合成GPT Image 1.5 > Nano Banana Pro > Seedream
角色一致性Nano Banana Pro(14 张参考)> Nano Banana(14 张)> Seedream(5 张)

评论

0
还没有评论,来写第一条吧