11. 图片生成

Perplexity 内置 AI 图像生成能力，与对话系统原生集成，无需切换到独立的绘图工具。只要用自然语言描述想要的画面，Perplexity 即可据此生成相应的图片。

支持的模型

模型	提供方	说明	适用场景
Nano Banana Pro	Google	Max 默认，4K 高清，文字渲染与多角色一致性出色	高清成品、带文字海报、系列分镜
Default（GPT Image 2 中等质量）	OpenAI	GPT Image 2 的中等质量档，基础档默认，更快更省	日常快速出图、打草稿
GPT Image 2	OpenAI	同一模型的高质量档，对文字与版式理解强，出图更精细	海报、广告、信息图、带文字的设计稿
Nano Banana 2	Google	基于 Gemini Flash 影像，速度快，支持批量与多角色一致	社媒配图、电商、分镜、批量出图
Seedream 5	ByteDance	逻辑、结构与一致性强，质感精致	构图复杂、多元素关系、精致成品

使用方法

直接在对话框中描述想要的图像即可，例如：

生成一张 2010 年中国普通家庭的照片，一家三口正在晚上看电视。

提示词核心原则

Perplexity 接入了多个图像生成模型，不同模型在写实度、风格、文字渲染等方面各有所长。下面的技巧是跨模型通用的提示词原则，无论底层用的是哪个模型都适用；具体到某个模型的特殊语法，可在实际使用中针对性微调。

生成图片的关键在于提示词的精确度，核心原则可以浓缩为一句话：描述越具体，输出越可控。模型只能依据你给出的描述作画，凡是未明确指定的元素，都会由模型自行填充。下面将这条原则拆解为若干可操作的维度，逐一展开。

原则一：用"四要素"结构化描述

与其写一句模糊的"画个咖啡馆"，不如按统一的结构把画面拆开描述，让模型准确抓住每个要点。推荐的基本结构是：

「主体 → 风格 → 细节（颜色 / 光线 / 氛围）→ 场景」

复杂需求建议分行或用短标签拆开写，而不是堆成一大段长句。这样既方便模型解析，也方便自己后续修改。

示例：

主体：一只橘色的胖猫，蜷缩在窗台上睡觉
风格：写实摄影，浅景深
细节：阳光透过窗户洒在猫身上，毛发纹理清晰，背景虚化
光线：午后柔和的暖光
场景：北欧风格的居家窗台，窗外是模糊的绿植

原则二：明确指定风格

如果心里有特定的视觉风格，一定要在提示词里写出来。风格词是改变出图气质最快的开关。常用风格大致可分几类：

风格类别	常用关键词
写实类	写实摄影、照片级真实感（photorealistic）、用相机拍摄、专业摄影
绘画类	水彩（watercolour）、油画、水墨、素描、厚涂、笔触纹理
设计类	极简主义（minimalist）、扁平插画、矢量图、等距视角（isometric）
风格化	卡通（cartoon）、动漫、像素风、3D 渲染、黏土风、复古（vintage）

风格之间也可以叠加，例如"复古胶片质感的极简海报"。但不建议一次堆太多风格词，否则模型容易混乱、风格互相打架。

原则三：具体而非抽象

模型无法猜测脑海中的画面，抽象的形容词（如"好看的""高级的"）几乎不起作用。要把它们翻译成可视化的具体描述：

抽象描述	具体描述
一个好看的房间	一间采光明亮的北欧风客厅，原木地板，米色布艺沙发，墙上挂着一幅抽象画
高级的配色	莫兰迪色系，低饱和的灰绿与暖灰搭配
有氛围感	傍晚的暖黄色灯光，长长的影子，空气中有轻微的尘埃光束

关键经验： 凡是你没有明确指定的元素，模型都会自行发挥。如果你对某个细节有要求，就一定要写出来；如果不在意，则可以留给模型自由发挥。

原则四：控制构图、视角与光线

同样的主体，换一个视角或光线，出来的画面气质完全不同。这三个维度值得单独指定：

维度	常用描述
景别	特写、半身、中景、全景、广角、远景
视角	平视、俯视（鸟瞰）、仰视（低角度）、侧拍、第一人称视角
光线	柔和漫射光、金色时刻（傍晚暖光）、逆光、高对比硬光、霓虹光、烛光

如果画面中元素的位置很重要，也要直接说明，例如："主体居中，左侧大面积留白""文字放在画面下方三分之一处"。

示例：

一杯冒着热气的拿铁咖啡，放在木桌上。
- 景别：俯视特写
- 光线：清晨侧逆光，热气在光线中清晰可见
- 构图：咖啡杯位于画面左下角，右上方留白
- 风格：写实摄影，浅景深，暖色调

原则五：说明用途

把图片的使用场景写进提示词，能帮助模型自动选择合适的画面比例、风格和精细程度。比如同样是"AI 主题的图"，用于博客头图和用于 PPT 配图，模型给出的构图会不一样。

示例：

为一篇关于人工智能的科技博客制作一张专业的头图横幅，
风格现代简洁，蓝紫色科技感配色，画面右侧留出放标题文字的空间。

常见用途关键词：博客头图 / 横幅、社交媒体配图、海报、Logo 概念图、产品展示图、信息图、PPT 配图、头像等。

原则六：图内文字单独处理

让 AI 在图片里准确写出文字，是所有图像模型的难点。提高成功率的几个技巧：

用引号框住要显示的文字，明确告诉模型"这几个字要原样出现在图里"
指定文字的字体风格、大小、颜色和位置
文字尽量简短——字数越多、越长的句子，出错概率越高
生僻词、品牌名可以逐字母拼出，降低拼写错误

示例：

设计一个简洁的极简风 Logo，品牌名为"Evergreen"（一个可持续服装品牌）。
文字要求：显示"Evergreen"字样，无衬线字体，深绿色，居中
风格：扁平、简约，可搭配一片叶子的图形元素

原则七：迭代优化，而非一次堆满

不要指望一句话就生成完美的图。更高效的方式是：先用一个干净、清晰的基础提示词出一版，再根据结果做小幅调整。 小改动往往能带来明显改善：

"光线再暖一些"
"把背景换成海边"
"去掉画面里多余的那个杯子"
"保持这个构图，但换成夜景"

迭代时可以用"保持同样的风格""还是这个主体"来复用上下文。但要注意：如果发现关键细节在多轮调整中开始"跑偏"（比如主体的颜色变了），就需要重新把它明确写出来。

六层分层框架（6-Layer Framework）

第 1 层：主体（Subject）

整个画面的地基，定义核心对象是什么。主体含糊，后续一切都会失控——模型只能凭默认认知去猜测一个"普通女人"长什么样，结果往往平庸且不可控。描述主体时应具体到对象的身份、外貌、衣着、状态与动作，把抽象的名词翻译成可被"看见"的细节。一个实用的自检方法：把描述念给另一个人听，如果对方脑中浮现的画面和设想高度一致，这个主体描述就足够具体了。

需要注意的是，主体描述并非越长越好，而是要"信息密度高"——每个词都应承载有效的视觉信息，避免"美丽的""高级的"这类无法被渲染的空泛形容词。

常用描述维度	可指定的内容
身份	年龄、性别、职业、种族
外貌	发型、发色、脸型、体型、神态表情
衣着	服装款式、颜色、材质、配饰
状态/动作	正在做什么、姿态、与环境的互动

✗ 模糊：一个女人
✓ 具体：一位身穿米色风衣、卷发及肩的年轻女性，正低头看手中的咖啡

第 2 层：风格（Style）

告诉模型用何种视觉语言来诠释画面。风格是改变出图气质最快的开关——同一个主体，从"写实摄影"换成"水彩插画"，整张图的观感会彻底改变，而主体本身保持不变。正因如此，风格往往是性价比最高的一个变量。

但风格需要克制：一次指定 1 至 2 种即可，堆砌过多风格词会让模型在多种视觉逻辑间反复横跳，产出混乱、失焦的画面。若想尝试混合风格，建议只叠加一个主风格 + 一个修饰词，而非平行堆叠三四种。

常见风格类别	常用关键词
写实类	写实摄影、照片级真实感、纪实摄影、商业摄影
绘画类	水彩、油画、水墨、素描、厚涂、丙烯画
设计类	扁平插画、矢量图、极简主义、等距视角、孟菲斯风格
风格化	卡通、动漫、像素风、3D 渲染、黏土风、低多边形
氛围流派	赛博朋克、蒸汽波、国潮、复古胶片、蒸汽朋克

✓ 单一风格：写实摄影风格
✓ 混合风格：复古胶片质感的极简海报（主风格 + 修饰词）
✗ 过度堆砌：写实 + 水彩 + 赛博朋克 + 国潮 + 3D（互相冲突）

第 3 层：环境（Environment）

主体所处的场景与背景，为画面提供上下文、氛围与真实感。缺少环境的画面往往显得悬空、扁平，主体像是被凭空抠图贴上去的。环境不仅是背景板，它还在无形中交代故事——同一位人物，置于"清晨的港口"与"深夜的写字楼"，传递的情绪与叙事截然不同。细节越到位，画面的空间纵深感越强。

常用环境维度	可指定的内容
地点	室内/室外、具体场所（咖啡馆、港口、森林、写字楼）
时间	清晨、正午、黄昏、夜晚
季节天气	春夏秋冬、晴天、雨后、雪天、雾气、阴天
陈设元素	家具、植物、人群、道具、背景建筑

✓ 清晨薄雾笼罩的港口，停泊着几艘小船
✓ 堆满旧书的复古书房，午后阳光透过百叶窗
✓ 霓虹闪烁的雨夜街道，地面倒映着灯光

第 4 层：光线（Lighting）

光线是决定画面"真实感"与"情绪"的核心变量，也是最被低估的一层。许多 AI 图片之所以显得"假"，正是因为缺少明确的光线指引，导致画面平光、无影、缺乏立体感。指定光线时，应说明三个要素：光的方向、质感与色温。光线还直接决定情绪基调——暖黄的烛光传递私密温馨，冷蓝的月光营造孤寂清冷。

常见光线类型	营造的氛围	适用场景
清晨暖光	清新、温暖、希望	生活、治愈系
黄昏金色时刻	浪漫、怀旧、柔和	人像、风景
柔和漫射光	干净、舒适、无硬阴影	产品、美食
逆光剪影	唯美、神秘、轮廓感	人物、风景
硬光高对比	强烈、戏剧化	时尚、力量感
夜晚霓虹	都市、赛博、时髦	街景、夜店
烛光/暖黄灯	温馨、私密、复古	室内、情绪戏
冷色月光	安静、清冷、孤寂	夜景、情绪片
体积光（丁达尔）	神圣、通透、有空气感	森林、教堂、晨雾

✓ 柔和的晨光从侧面照来，在脸上投下温暖的光影
✓ 夜晚霓虹灯映照，蓝紫色调，地面有湿润的反光

第 5 层：构图（Composition）

定义画面如何被框取——景别、视角与主体在画面中的位置。同样的主体，换一个视角与构图，气质会完全不同：平视显得平实客观，仰视赋予主体力量与压迫感，俯视则带来掌控全局或渺小孤独的观感。若画面中元素的位置很重要，应直接指明——尤其当画面需要为后期叠加文字预留空间时，主动指定留白位置会让成品更可用。

常用构图维度	可选项
景别	特写、半身、中景、全景、广角、远景
视角	平视、俯视（鸟瞰）、仰视（低角度）、侧拍、第一人称
布局	主体居中、三分法构图、主体偏左/右留白、对称构图

✓ 半身近景，主体偏左，右侧留出虚化的街道空间
✓ 低角度仰拍，主体居中，营造高大、有力量的观感

第 6 层：画质（Quality）

收尾层，定义成品的精细度与技术规格，进一步推高画面的专业感。这一层的关键词如同给模型下达"出片标准"，提示它向高质量、专业级的方向渲染。对写实类图片，还可加入相机与镜头术语来模拟真实摄影的光学特性，进一步消除"AI 味"。需要提醒的是，画质词是"锦上添花"而非"雪中送炭"——它能提升已有画面的精细度，但无法挽救一个主体、环境都含糊的提示词。

常用画质维度	常用关键词
分辨率	高分辨率、4K、8K、超高清
清晰度	锐利对焦、超精细、丰富细节
专业感	专业摄影、商业摄影、电影级画质
相机参数（写实向）	85mm 镜头、f/1.8 大光圈、浅景深、虚化背景
质感	胶片颗粒、真实皮肤纹理、材质细节

✓ 浅景深，高分辨率，电影级画质
✓ 写实向进阶：shot on 85mm f/1.8 镜头，浅景深，锐利对焦，8K

示例一：清晨街角的咖啡女子

一位身穿米色风衣的年轻女性，低头注视手中的咖啡（主体），
写实摄影风格（风格），
背景是清晨薄雾中的城市街角，店铺刚刚开门（环境），
柔和的晨光从侧面照来，在她脸上投下温暖的光影（光线），
半身近景，主体偏左，右侧留出虚化的街道空间（构图），
浅景深，高分辨率，电影级画质（画质）

示例二：赛博朋克雨夜骑士

一名身穿黑色机能风夹克的年轻男子，骑在一辆发光的机车上，回头望向镜头（主体），
赛博朋克风格，3D 渲染（风格），
背景是霓虹林立的未来都市街道，雨幕中倒映着五彩灯光（环境），
冷蓝与品红的霓虹光交织，湿润路面反射光斑（光线），
低角度仰拍，主体居中，营造压迫感与未来感（构图），
超精细，电影级画质，丰富细节（画质）

示例三：中国古代水墨侠客

一位身着青色长袍的古代侠客，手持长剑立于山崖之巅，衣袂随风而动（主体），
中国传统水墨画风格，留白意境（风格），
背景是云雾缭绕的崇山峻岭，远处隐约可见飞瀑与孤松（环境），
清晨的薄光穿透云雾，光影朦胧（光线），
全景远景，主体偏右下，大面积留白展现山势辽阔（构图），
墨色浓淡相宜，宣纸质感，高分辨率（画质）

示例四：剪纸层叠

一只小鹿站在森林深处，四周是层层叠叠的树木、山峦与云朵，
每一层景物都像独立裁剪的彩色卡纸前后错落排列，营造出纵深感（主体），
纸艺剪纸风格（paper cut craft），多层叠加（风格），
背景是渐变的暖色天空，远山一层层向后退去（环境），
柔和的光线在纸层之间投下细腻的阴影，凸显层次（光线），
正面平视，主体居中，前后景层次分明（构图），
高分辨率，细腻纸质纹理，手工质感（画质）

示例五：极简产品广告

一瓶磨砂质感的香水，悬浮在半空，周围环绕几片飘落的花瓣（主体），
极简主义，3D 渲染（风格），
纯色渐变背景，干净无杂物，大量留白（环境），
柔和的棚拍光从两侧打来，突出瓶身的通透与光泽（光线），
正面平视，主体居中，上下留白用于后期叠加文案（构图），
高分辨率，锐利对焦，商业广告级质感（画质）

灵活运用

六层框架并非每次都要写满。实际使用时可按任务复杂度取用：

快速出图： 只用前三层（主体 + 风格 + 环境）即可获得方向正确的画面
追求成片质量： 补齐后三层（光线 + 构图 + 画质），让画面从"AI 味"走向"专业摄影感"
不同模型适配： 分层逻辑跨模型通用，但表达方式可微调——偏对话式的模型适合将六层写成连贯段落，偏关键词的模型适合将各层拆成短语并列

提示： 凡是没有明确指定的层级，模型都会自行填充，且结果通常不及预期。对画面哪一层有要求，就把那一层写清楚；不在意的层级，则可放心交给模型发挥。

常用场景模板

以下提供几个常用场景的提示词模板，「」内为可替换字段，按需修改即可复用。

博客 / 文章头图

为一篇关于「冥想与正念入门」的文章制作头图横幅。
风格： 极简插画，柔和线条 
配色： 以低饱和的暖米色和淡绿为主色调
构图： 主体居中，上下留白，便于叠加标题文字
氛围： 宁静、放松、治愈 
用途：博客头图（横版）

写实人像摄影

拍摄一张照片级真实的人像。
主体：「一位正在专注工作的年轻设计师」
人物细节：「自然的神态，皮肤纹理真实，不要过度磨皮」
光线：「窗边自然光，柔和侧光」
景别：「半身近景，浅景深」
风格：写实摄影，35mm 胶片质感

电商产品主图

设计一张 16:9 的「产品类目」电商主图。
主体：「一瓶透明矿泉水立在水边岩石上，瓶底溅起清澈水花」
背景：「远处雪山与湖泊，晴朗天空，阳光透亮，空气中有水珠气泡」
风格： 写实商业摄影，清新通透
配色：「蓝白色调」
布局： 产品居左，右侧文案
氛围： 纯净、高端

宣传图

设计一张《「黑神话：悟空」》的横版英文宣传海报（16:9）。
主体：「身披战甲的孙悟空，双手持金箍棒蓄势挥击，眼神凌厉」
特效：「金箍棒拖曳出炽热的金色火星轨迹，符纸与灰烬在风中飞舞」
风格：写实国风奇幻，电影级画质，暗调高对比
配色：「以玄黑、暗金与赤红为主色调」
布局：主体居右，左侧放置游戏 Logo 与标语，底部预留发行信息与平台图标位置
氛围：「苍凉、悲壮、史诗感」
用途：游戏主视觉海报

微缩场景

制作一张超现实的微缩创意场景图。
核心创意：「把一杯咖啡变成温泉度假村」
具体画面：「几个微缩小人正惬意地泡在一杯热气腾腾的拿铁里，
          奶泡是他们的浴池泡沫，咖啡豆像巨石点缀在杯沿，
          有人躺在咖啡勺上晒太阳」
风格：写实微距摄影，浅景深，电影质感
光线：「清晨暖光从杯子上方斜射，热气在光线中清晰可见」
氛围：「慵懒、治愈、奇趣」

0 条

登录后可以参与评论。

还没有评论，来写第一条吧

#11. 图片生成

#支持的模型

#使用方法

#提示词核心原则

#六层分层框架（6-Layer Framework）

#常用场景模板

评论

11. 图片生成

支持的模型

使用方法

提示词核心原则

六层分层框架（6-Layer Framework）

常用场景模板