3. 图像生成


ChatGPT 内置 AI 图像生成功能,由 OpenAI 最新发布(2026 年 4 月 21 日)的 GPT Image 2 模型驱动,与对话系统原生集成,直接用自然语言描述需求即可生成或编辑图片。

相比前代模型,GPT Image 2 在照片级真实感、专业设计能力、多语言文字渲染、复杂指令理解、人物一致性等方面均有显著提升。并且在出图前会先思考构图、版式和文字布局,显著提高复杂场景生成的成功率;不仅能输出接近真实相机拍摄效果的写实照片,还具备版式、构图、配色的审美判断,可直接产出可商用的海报、UI、信息图等设计稿,最高支持 4K 实验性分辨率输出。

使用方法

image-20260515204554687

在输入框选择「创建图片」选项,输入图片描述内容,例如:

中国千禧年的照片,两个孩子在电视机前观看少儿频道。

提示词指南

本指南内容全部基于 OpenAI 官方文档 https://developers.openai.com/cookbook/examples/multimodal/image-gen-models-prompting-guide

官方在「Prompting Fundamentals」章节中系统阐述了 10 条核心原则。深入理解并灵活运用这些原则,是提升生成质量的关键所在。

原则一:结构化书写

按统一顺序组织提示词,让模型快速捕捉到重点:

「场景/背景 → 主体 → 关键细节 → 约束」

并在末尾指明用途(如广告、UI 原型、信息图等),这能帮助模型自动选择合适的「模式」和精修程度。

对于复杂需求,用换行或短标签拆分内容,而不是写一大段长文字。

示例:

风格:照片级真实感,35mm 胶片质感
主体:一位年迈的渔民,站在小渔船上整理渔网
细节:皮肤有明显皱纹、毛孔、晒痕;脚边趴着一只老狗
场景:清晨的小渔港,柔和的海岸光线
构图:眼平视角中景,50mm 镜头,浅景深
用途:纪实摄影作品
约束:不要过度修图,不要美化滤镜

原则二:格式自由,可读性优先

提示词没有固定的格式要求,以下几种写法都能取得良好效果:

  • 极简短句
  • 描述性段落
  • JSON 风格结构
  • 指令式提示
  • 标签式提示

选择最容易维护的格式。生产场景下优先选择结构清晰、易于复用的模板,而不是花哨的写法。

原则三:具体而非抽象

明确写出材质、形状、纹理和视觉媒介(照片、水彩、3D 渲染等),按需添加「质量增强词」:

用途推荐触发词
照片真实感photorealistic真实照片用真实相机拍摄专业摄影iPhone 拍摄
胶片质感film grain(胶片颗粒)、35mm 胶片
绘画质感textured brushstrokes(带笔触纹理)、水彩油画
极致细节macro detail(微距细节)

示例:

一座赛博朋克风格的城市夜景,「玻璃幕墙的摩天大楼」林立,
楼体外墙覆盖「霓虹灯广告牌」,发出「品红与青色交织」的光芒。
街道上方悬浮着「无人驾驶飞行汽车」,地面湿润反射着灯光。
拍摄风格:photorealistic,「俯瞰视角」,「电影感打光」,
轻微胶片颗粒,整体氛围参考《银翼杀手 2049》的色调。

原则四:在速度和精度之间权衡

ChatGPT 会自动管理质量等级,但可以在提示词中通过措辞引导:

  • 快速草稿场景:直接写需求即可,模型默认使用较快的生成
  • 最终交付场景:明确要求「高保真」「高质量」「印刷级」「最终成片」,让模型采用更精细的渲染

以下场景务必要求高质量:

  • 小字或密集排版的文字
  • 信息图、密集信息面板
  • 特写人像
  • 涉及人物身份的编辑
  • 高分辨率输出

原则五:控制构图与光线

明确指定景别、视角、光线,能大幅提升图像可控性:

维度推荐词汇
景别特写(close-up)、中景、远景、广角(wide)、俯视(top-down)
视角眼平视角(eye-level)、低角度(low-angle)、高角度、鸟瞰
光线柔和漫射光、金色时刻(golden hour)、高对比、霓虹光、烛光

如果布局重要,明确指出元素位置:

  • 「Logo 放在右上角」
  • 「主体居中,左侧留白」
  • 「文字位于画面下方三分之一处」

对于宽幅、电影感、低光、雨夜、霓虹场景,额外补充氛围、尺度和色彩,否则模型可能为了表面真实感牺牲整体氛围。

示例:

生成一位坐在咖啡馆窗边的年轻女孩。
- 景别:「半身近景」
- 视角:「眼平视角,略微侧拍」
- 光线:「金色时刻的暖光从右侧窗户斜射进来」,在脸上形成柔和的明暗对比
- 布局:「主体位于画面右侧三分之一处,左侧留白,背景轻微虚化」
- 氛围:宁静、慵懒,带轻微胶片颗粒感

原则六:人物、姿态、动作

涉及人物时,描述以下要点:

  • 身体框定:「全身可见,包括脚」「半身像」「只露上半身」
  • 比例参考:「相对于桌子的儿童体型」
  • 视线方向:「低头看着摊开的书,不要看镜头」
  • 与物体的交互:「双手自然握住车把」「右手轻轻扶着杯沿」

这些细节能显著改善身体比例、动作几何和视线对齐。

示例:

生成一个年轻男生在公园长椅上读书。
- 身体框定:「全身可见,斜坐在长椅上,左腿搭在右腿上」
- 比例参考:「身形约为长椅长度的三分之二」
- 视线方向:「低头看着摊开的书页,不要看镜头」
- 与物体的交互:「左手托着书的底部,右手食指夹在书页之间准备翻页」
- 神态:「神情专注,嘴角微抿」

原则七:明确「改什么」和「保留什么」

无论是生成还是编辑,显式说明排除项和不变量:

  • 排除:「不要水印」「不要多余文字」「不要 Logo/商标」
  • 保留:「保留身份」「保留几何结构」「保留布局」「保留品牌元素」

编辑场景的黄金公式:

「只改变 X」 + 「保持其他一切不变」

每次迭代都要重复保留清单,避免模型在多轮编辑中逐渐「漂移」。

如果是外科手术式的精细编辑,还要明确:

不要改变饱和度、对比度、布局、箭头、标签、相机角度、周围物体

原则八:图内文字

让 ChatGPT 准确渲染图中文字的三个关键技巧:

  1. 加引号:把要显示的文字用引号包起来
  2. 指定字体规格:字体风格、大小、颜色、位置
  3. 逐字拼写罕见词:品牌名、生僻字逐字母列出

示例:

在画面中央放置以下文字(精确,逐字渲染,不要多余字符):
"Field & Flour"
字体要求:粗体衬线字体,高对比度,居中,字距均匀

原则九:多图输入规范

当你上传多张参考图时,用索引 + 角色标注每张图,并描述它们如何相互作用:

图 1:产品照片(要保留的主体)
图 2:风格参考(提取色彩和质感)
图 3:场景参考(提取背景氛围)

任务:把图 1 的产品放到图 2 的风格化处理中,背景采用图 3 的场景。

进行合成时,明确说明哪些元素移动到哪里:

把图 1 里的小鸟放到图 2 中的大象背上

原则十:迭代而非堆砌

从干净的基础提示词开始,用小幅修改迭代,而不是一次性塞入所有需求。这样调试更容易:

  • 「光线再暖一点」
  • 「去掉多余的那棵树」
  • 「恢复原来的背景」

可以用「同样的风格」「同一个主体」来复用上下文,但关键细节如果开始漂移,要重新明确说明

多场景模板

以下提供 10 个常用场景的提示词模板,「」内为可替换字段,按需修改即可复用。

模板一:信息图

制作一张信息图,主题是「智能手表的健康监测原理」。

要求:
- 完整呈现「从皮肤接触→光学传感→数据采集→算法分析→健康报告」的流程
- 用清晰的箭头连接各个环节
- 每个模块配上简洁的中文标注和图标
- 采用「蓝白配色」,科技感
- 整体排版扁平、清爽

用途:「产品官网说明页」

模板二:人物写实摄影

拍摄一张照片级真实的人像。

主体:「一位街头咖啡馆的年轻女主理人,正在专注地拉花」

人物细节:
- 「围着深棕色围裙,手腕戴着简单的银镯」
- 「神情专注,嘴角微扬」
- 真实皮肤纹理,有自然的轻微出汗

拍摄规格:
- 「85mm 镜头」,半身构图
- 「自然窗光从左侧打入」,柔和阴影
- 浅景深,背景轻微虚化

氛围:日常、真实、有温度。
约束:不要广告感打光。

模板三:品牌 Logo

为一家叫「青屿」的「精品民宿」设计一个原创 Logo。

品牌调性:「宁静、自然、有诗意」

设计要求:
- 「线条简约」,融入「山海元素」
- 字标与图形结合,整体居中
- 单色或双色设计,便于多场景应用
- 在大尺寸和小尺寸下都清晰可辨

约束:
- 完全原创,不要参考任何已有品牌
- 不要水印,不要复杂渐变

模板四:社交媒体广告

为「一款新上市的冷萃咖啡」制作一张「小红书首图」。

风格:「日系清新」
受众:「20-30 岁都市白领」
画面:「一杯冰咖啡放在浅色木质桌面上,旁边有几片新鲜柠檬和散落的咖啡豆」

构图要求:
- 「俯视 45°」视角
- 自然光,明亮通透
- 留白充足,便于叠加文案

文案(精确呈现一次,居中偏上):
"「夏日唤醒计划」"

字体:「圆润手写体」,与画面调性一致
约束:不要其他文字、Logo、价格标签。

模板五:App 界面设计

制作三版「冥想引导」App 的「首页 UI 设计稿」。

页面内容:
- 顶部问候:「晚安,李洋」
- 中部主推卡片:「今晚的助眠音乐 · 30 分钟」
- 下方分类入口:「呼吸练习、白噪音、睡前故事、晨间唤醒」
- 底部导航栏:「首页、发现、记录、我的」

设计要求:
- 「深蓝渐变背景」,营造夜晚氛围
- 「圆角卡片」,柔和投影
- 字体清晰,图标简约
- 整体「治愈、宁静」的视觉感

呈现方式:放在「iPhone 15」边框中。

模板六:教育插图

制作一张「物理」科普插图,主题:「彩虹是如何形成的?」
受众:「小学高年级学生」

内容要求:
- 展示「阳光经过水滴折射、反射、再折射」的完整光路
- 包含:「太阳、水滴特写、折射光线、最终的彩虹」
- 用箭头标注光线方向
- 标注关键概念:「折射」「反射」「色散」

视觉要求:
- 「卡通插画风格」,色彩明亮
- 字体可爱,标签清晰
- 适合做「科普绘本插页」

避免:写实风格、过于复杂的物理公式。

模板七:历史场景还原

生成一张照片级真实的户外场景。

时间:「1980 年代初」的中国
地点:「北京一条胡同口的国营副食店门前」
事件:「街坊们排队购买定量供应的鸡蛋和豆腐」

要求:
- 服装、布置、环境符合那个时代
- 真实摄影质感,无修图痕迹
- 自然光线,色彩略微泛黄

约束:
- 不要现代元素(手机、电动车、商业 Logo)
- 不要数码相机的锐利感
- 不要刻意摆拍的氛围

模板八:美食照片

拍一张「日常随手拍」的美食照片,记录一碗兰州牛肉面。

主体:「一碗兰州牛肉面」,盛在「青花瓷大碗」中,摆在餐厅木桌上

细节描述:
- 「清亮的牛骨汤」,能透过汤看见碗底的面条
- 「细圆手工拉面」盘绕在碗的一侧
- 「两片厚切熟牛肉」自然铺在面上
- 汤面撒着「翠绿的葱花和香菜碎」,分布随意自然
- 汤面有「轻微油花」漂浮

拍摄风格:
- 「手机随手拍」,不刻意构图
- 「侧 45° 平视」视角,碗略微靠右
- 「餐厅自然光」,可见轻微的环境反光
- 背景是「原木色餐桌」,隐约能看到「邻桌的一盘配菜」

画面感:
- 像「吃饭前顺手拍一张」的真实记录
- 色调略偏暖,对比度自然
- 不追求精致构图,画面有生活感

约束:
- 不要专业摄影质感、不要工作室光线
- 不要刻意摆放的装饰(如香菜叶、花椒粒)
- 不要修图滤镜、不要广告感
- 不要文字、水印、品牌 Logo

模板九:电商产品展示

制作一张电商主图,产品:「一款北欧风陶瓷马克杯」

场景:「现代极简风的厨房台面」
配饰:「旁边放一本翻开的杂志、一小束尤加利叶」

构图要求:
- 「正面平视」视角,产品居中
- 自然光,柔和阴影
- 背景轻度虚化,突出产品

风格:「INS 简约风」,整体「米白+原木」色调
约束:不要文字、不要价格标签、不要其他品牌元素。

模板十:3D 立体场景

制作一张「微缩 3D 等距视图」插画。

主体场景:「一间温馨的程序员工作室」

场景细节:
- 中心是一张「木质书桌」,桌上有「双屏显示器、机械键盘、咖啡杯」
- 左侧「靠墙书架」摆满书籍和绿植
- 右侧「落地窗」透进自然光,窗外可见城市天际线
- 角落里一只「橘猫」蜷缩在懒人沙发上

风格要求:
- 「等距投影」(isometric)视角
- 「圆角低多边形」(low-poly)建模风格
- 「柔和的莫兰迪色系」,整体温暖治愈
- 干净的阴影,无杂乱细节

用途:「个人作品集首页插画」
约束:完全原创,无任何品牌 Logo。

评论

0
还没有评论,来写第一条吧