3. 图像生成

ChatGPT 内置 AI 图像生成功能，由 OpenAI 最新发布（2026 年 4 月 21 日）的 GPT Image 2 模型驱动，与对话系统原生集成，直接用自然语言描述需求即可生成或编辑图片。

相比前代模型，GPT Image 2 在照片级真实感、专业设计能力、多语言文字渲染、复杂指令理解、人物一致性等方面均有显著提升。并且在出图前会先思考构图、版式和文字布局，显著提高复杂场景生成的成功率；不仅能输出接近真实相机拍摄效果的写实照片，还具备版式、构图、配色的审美判断，可直接产出可商用的海报、UI、信息图等设计稿，最高支持 4K 实验性分辨率输出。

使用方法

在输入框选择「创建图片」选项，输入图片描述内容，例如：

中国千禧年的照片，两个孩子在电视机前观看少儿频道。

提示词指南

本指南内容全部基于 OpenAI 官方文档 https://developers.openai.com/cookbook/examples/multimodal/image-gen-models-prompting-guide

官方在「Prompting Fundamentals」章节中系统阐述了 10 条核心原则。深入理解并灵活运用这些原则，是提升生成质量的关键所在。

原则一：结构化书写

按统一顺序组织提示词，让模型快速捕捉到重点：

「场景/背景 → 主体 → 关键细节 → 约束」

并在末尾指明用途（如广告、UI 原型、信息图等），这能帮助模型自动选择合适的「模式」和精修程度。

对于复杂需求，用换行或短标签拆分内容，而不是写一大段长文字。

示例：

风格：照片级真实感，35mm 胶片质感
主体：一位年迈的渔民，站在小渔船上整理渔网
细节：皮肤有明显皱纹、毛孔、晒痕；脚边趴着一只老狗
场景：清晨的小渔港，柔和的海岸光线
构图：眼平视角中景，50mm 镜头，浅景深
用途：纪实摄影作品
约束：不要过度修图，不要美化滤镜

原则二：格式自由，可读性优先

提示词没有固定的格式要求，以下几种写法都能取得良好效果：

极简短句
描述性段落
JSON 风格结构
指令式提示
标签式提示

选择最容易维护的格式。生产场景下优先选择结构清晰、易于复用的模板，而不是花哨的写法。

原则三：具体而非抽象

明确写出材质、形状、纹理和视觉媒介（照片、水彩、3D 渲染等），按需添加「质量增强词」：

用途	推荐触发词
照片真实感	`photorealistic`、`真实照片`、`用真实相机拍摄`、`专业摄影`、`iPhone 拍摄`
胶片质感	`film grain`（胶片颗粒）、`35mm 胶片`
绘画质感	`textured brushstrokes`（带笔触纹理）、`水彩`、`油画`
极致细节	`macro detail`（微距细节）

示例：

一座赛博朋克风格的城市夜景，「玻璃幕墙的摩天大楼」林立，
楼体外墙覆盖「霓虹灯广告牌」，发出「品红与青色交织」的光芒。
街道上方悬浮着「无人驾驶飞行汽车」，地面湿润反射着灯光。
拍摄风格：photorealistic，「俯瞰视角」，「电影感打光」，
轻微胶片颗粒，整体氛围参考《银翼杀手 2049》的色调。

原则四：在速度和精度之间权衡

ChatGPT 会自动管理质量等级，但可以在提示词中通过措辞引导：

快速草稿场景：直接写需求即可，模型默认使用较快的生成
最终交付场景：明确要求「高保真」「高质量」「印刷级」「最终成片」，让模型采用更精细的渲染

以下场景务必要求高质量：

小字或密集排版的文字
信息图、密集信息面板
特写人像
涉及人物身份的编辑
高分辨率输出

原则五：控制构图与光线

明确指定景别、视角、光线，能大幅提升图像可控性：

维度	推荐词汇
景别	特写（close-up）、中景、远景、广角（wide）、俯视（top-down）
视角	眼平视角（eye-level）、低角度（low-angle）、高角度、鸟瞰
光线	柔和漫射光、金色时刻（golden hour）、高对比、霓虹光、烛光

如果布局重要，明确指出元素位置：

「Logo 放在右上角」
「主体居中，左侧留白」
「文字位于画面下方三分之一处」

对于宽幅、电影感、低光、雨夜、霓虹场景，额外补充氛围、尺度和色彩，否则模型可能为了表面真实感牺牲整体氛围。

示例：

生成一位坐在咖啡馆窗边的年轻女孩。
- 景别：「半身近景」
- 视角：「眼平视角，略微侧拍」
- 光线：「金色时刻的暖光从右侧窗户斜射进来」，在脸上形成柔和的明暗对比
- 布局：「主体位于画面右侧三分之一处，左侧留白，背景轻微虚化」
- 氛围：宁静、慵懒，带轻微胶片颗粒感

原则六：人物、姿态、动作

涉及人物时，描述以下要点：

身体框定：「全身可见，包括脚」「半身像」「只露上半身」
比例参考：「相对于桌子的儿童体型」
视线方向：「低头看着摊开的书，不要看镜头」
与物体的交互：「双手自然握住车把」「右手轻轻扶着杯沿」

这些细节能显著改善身体比例、动作几何和视线对齐。

示例：

生成一个年轻男生在公园长椅上读书。
- 身体框定：「全身可见，斜坐在长椅上，左腿搭在右腿上」
- 比例参考：「身形约为长椅长度的三分之二」
- 视线方向：「低头看着摊开的书页，不要看镜头」
- 与物体的交互：「左手托着书的底部，右手食指夹在书页之间准备翻页」
- 神态：「神情专注，嘴角微抿」

原则七：明确「改什么」和「保留什么」

无论是生成还是编辑，显式说明排除项和不变量：

排除：「不要水印」「不要多余文字」「不要 Logo/商标」
保留：「保留身份」「保留几何结构」「保留布局」「保留品牌元素」

编辑场景的黄金公式：

「只改变 X」 + 「保持其他一切不变」

每次迭代都要重复保留清单，避免模型在多轮编辑中逐渐「漂移」。

如果是外科手术式的精细编辑，还要明确：

不要改变饱和度、对比度、布局、箭头、标签、相机角度、周围物体

原则八：图内文字

让 ChatGPT 准确渲染图中文字的三个关键技巧：

加引号：把要显示的文字用引号包起来
指定字体规格：字体风格、大小、颜色、位置
逐字拼写罕见词：品牌名、生僻字逐字母列出

示例：

在画面中央放置以下文字（精确，逐字渲染，不要多余字符）：
"Field & Flour"
字体要求：粗体衬线字体，高对比度，居中，字距均匀

原则九：多图输入规范

当你上传多张参考图时，用索引 + 角色标注每张图，并描述它们如何相互作用：

图 1：产品照片（要保留的主体）
图 2：风格参考（提取色彩和质感）
图 3：场景参考（提取背景氛围）

任务：把图 1 的产品放到图 2 的风格化处理中，背景采用图 3 的场景。

进行合成时，明确说明哪些元素移动到哪里：

把图 1 里的小鸟放到图 2 中的大象背上

原则十：迭代而非堆砌

从干净的基础提示词开始，用小幅修改迭代，而不是一次性塞入所有需求。这样调试更容易：

「光线再暖一点」
「去掉多余的那棵树」
「恢复原来的背景」

可以用「同样的风格」「同一个主体」来复用上下文，但关键细节如果开始漂移，要重新明确说明。

多场景模板

以下提供 10 个常用场景的提示词模板，「」内为可替换字段，按需修改即可复用。

模板一：信息图

制作一张信息图，主题是「智能手表的健康监测原理」。

要求：
- 完整呈现「从皮肤接触→光学传感→数据采集→算法分析→健康报告」的流程
- 用清晰的箭头连接各个环节
- 每个模块配上简洁的中文标注和图标
- 采用「蓝白配色」，科技感
- 整体排版扁平、清爽

用途：「产品官网说明页」

模板二：人物写实摄影

拍摄一张照片级真实的人像。

主体：「一位街头咖啡馆的年轻女主理人，正在专注地拉花」

人物细节：
- 「围着深棕色围裙，手腕戴着简单的银镯」
- 「神情专注，嘴角微扬」
- 真实皮肤纹理，有自然的轻微出汗

拍摄规格：
- 「85mm 镜头」，半身构图
- 「自然窗光从左侧打入」，柔和阴影
- 浅景深，背景轻微虚化

氛围：日常、真实、有温度。
约束：不要广告感打光。

模板三：品牌 Logo

为一家叫「青屿」的「精品民宿」设计一个原创 Logo。

品牌调性：「宁静、自然、有诗意」

设计要求：
- 「线条简约」，融入「山海元素」
- 字标与图形结合，整体居中
- 单色或双色设计，便于多场景应用
- 在大尺寸和小尺寸下都清晰可辨

约束：
- 完全原创，不要参考任何已有品牌
- 不要水印，不要复杂渐变

模板四：社交媒体广告

为「一款新上市的冷萃咖啡」制作一张「小红书首图」。

风格：「日系清新」
受众：「20-30 岁都市白领」
画面：「一杯冰咖啡放在浅色木质桌面上，旁边有几片新鲜柠檬和散落的咖啡豆」

构图要求：
- 「俯视 45°」视角
- 自然光，明亮通透
- 留白充足，便于叠加文案

文案（精确呈现一次，居中偏上）：
"「夏日唤醒计划」"

字体：「圆润手写体」，与画面调性一致
约束：不要其他文字、Logo、价格标签。

模板五：App 界面设计

制作三版「冥想引导」App 的「首页 UI 设计稿」。

页面内容：
- 顶部问候：「晚安，李洋」
- 中部主推卡片：「今晚的助眠音乐 · 30 分钟」
- 下方分类入口：「呼吸练习、白噪音、睡前故事、晨间唤醒」
- 底部导航栏：「首页、发现、记录、我的」

设计要求：
- 「深蓝渐变背景」，营造夜晚氛围
- 「圆角卡片」，柔和投影
- 字体清晰，图标简约
- 整体「治愈、宁静」的视觉感

呈现方式：放在「iPhone 15」边框中。

模板六：教育插图

制作一张「物理」科普插图，主题：「彩虹是如何形成的？」
受众：「小学高年级学生」

内容要求：
- 展示「阳光经过水滴折射、反射、再折射」的完整光路
- 包含：「太阳、水滴特写、折射光线、最终的彩虹」
- 用箭头标注光线方向
- 标注关键概念：「折射」「反射」「色散」

视觉要求：
- 「卡通插画风格」，色彩明亮
- 字体可爱，标签清晰
- 适合做「科普绘本插页」

避免：写实风格、过于复杂的物理公式。

模板七：历史场景还原

生成一张照片级真实的户外场景。

时间：「1980 年代初」的中国
地点：「北京一条胡同口的国营副食店门前」
事件：「街坊们排队购买定量供应的鸡蛋和豆腐」

要求：
- 服装、布置、环境符合那个时代
- 真实摄影质感，无修图痕迹
- 自然光线，色彩略微泛黄

约束：
- 不要现代元素（手机、电动车、商业 Logo）
- 不要数码相机的锐利感
- 不要刻意摆拍的氛围

模板八：美食照片

拍一张「日常随手拍」的美食照片，记录一碗兰州牛肉面。

主体：「一碗兰州牛肉面」，盛在「青花瓷大碗」中，摆在餐厅木桌上

细节描述：
- 「清亮的牛骨汤」，能透过汤看见碗底的面条
- 「细圆手工拉面」盘绕在碗的一侧
- 「两片厚切熟牛肉」自然铺在面上
- 汤面撒着「翠绿的葱花和香菜碎」，分布随意自然
- 汤面有「轻微油花」漂浮

拍摄风格：
- 「手机随手拍」，不刻意构图
- 「侧 45° 平视」视角，碗略微靠右
- 「餐厅自然光」，可见轻微的环境反光
- 背景是「原木色餐桌」，隐约能看到「邻桌的一盘配菜」

画面感：
- 像「吃饭前顺手拍一张」的真实记录
- 色调略偏暖，对比度自然
- 不追求精致构图，画面有生活感

约束：
- 不要专业摄影质感、不要工作室光线
- 不要刻意摆放的装饰（如香菜叶、花椒粒）
- 不要修图滤镜、不要广告感
- 不要文字、水印、品牌 Logo

模板九：电商产品展示

制作一张电商主图，产品：「一款北欧风陶瓷马克杯」

场景：「现代极简风的厨房台面」
配饰：「旁边放一本翻开的杂志、一小束尤加利叶」

构图要求：
- 「正面平视」视角，产品居中
- 自然光，柔和阴影
- 背景轻度虚化，突出产品

风格：「INS 简约风」，整体「米白+原木」色调
约束：不要文字、不要价格标签、不要其他品牌元素。

模板十：3D 立体场景

制作一张「微缩 3D 等距视图」插画。

主体场景：「一间温馨的程序员工作室」

场景细节：
- 中心是一张「木质书桌」，桌上有「双屏显示器、机械键盘、咖啡杯」
- 左侧「靠墙书架」摆满书籍和绿植
- 右侧「落地窗」透进自然光，窗外可见城市天际线
- 角落里一只「橘猫」蜷缩在懒人沙发上

风格要求：
- 「等距投影」（isometric）视角
- 「圆角低多边形」（low-poly）建模风格
- 「柔和的莫兰迪色系」，整体温暖治愈
- 干净的阴影，无杂乱细节

用途：「个人作品集首页插画」
约束：完全原创，无任何品牌 Logo。

0 条

登录后可以参与评论。

还没有评论，来写第一条吧

#3. 图像生成

#使用方法

#提示词指南

#多场景模板

评论

3. 图像生成

使用方法

提示词指南

多场景模板