11. 图片生成
Perplexity 内置 AI 图像生成能力,与对话系统原生集成,无需切换到独立的绘图工具。只要用自然语言描述想要的画面,Perplexity 即可据此生成相应的图片。
支持的模型
使用方法
直接在对话框中描述想要的图像即可,例如:

提示词核心原则
Perplexity 接入了多个图像生成模型,不同模型在写实度、风格、文字渲染等方面各有所长。下面的技巧是跨模型通用的提示词原则,无论底层用的是哪个模型都适用;具体到某个模型的特殊语法,可在实际使用中针对性微调。
生成图片的关键在于提示词的精确度,核心原则可以浓缩为一句话:描述越具体,输出越可控。 模型只能依据你给出的描述作画,凡是未明确指定的元素,都会由模型自行填充。下面将这条原则拆解为若干可操作的维度,逐一展开。
原则一:用"四要素"结构化描述
与其写一句模糊的"画个咖啡馆",不如按统一的结构把画面拆开描述,让模型准确抓住每个要点。推荐的基本结构是:
「主体 → 风格 → 细节(颜色 / 光线 / 氛围)→ 场景」
复杂需求建议分行或用短标签拆开写,而不是堆成一大段长句。这样既方便模型解析,也方便自己后续修改。
示例:

原则二:明确指定风格
如果心里有特定的视觉风格,一定要在提示词里写出来。风格词是改变出图气质最快的开关。常用风格大致可分几类:
风格之间也可以叠加,例如"复古胶片质感的极简海报"。但不建议一次堆太多风格词,否则模型容易混乱、风格互相打架。
原则三:具体而非抽象
模型无法猜测脑海中的画面,抽象的形容词(如"好看的""高级的")几乎不起作用。要把它们翻译成可视化的具体描述:
关键经验: 凡是你没有明确指定的元素,模型都会自行发挥。如果你对某个细节有要求,就一定要写出来;如果不在意,则可以留给模型自由发挥。
原则四:控制构图、视角与光线
同样的主体,换一个视角或光线,出来的画面气质完全不同。这三个维度值得单独指定:
如果画面中元素的位置很重要,也要直接说明,例如:"主体居中,左侧大面积留白""文字放在画面下方三分之一处"。
示例:

原则五:说明用途
把图片的使用场景写进提示词,能帮助模型自动选择合适的画面比例、风格和精细程度。比如同样是"AI 主题的图",用于博客头图和用于 PPT 配图,模型给出的构图会不一样。
示例:

常见用途关键词:博客头图 / 横幅、社交媒体配图、海报、Logo 概念图、产品展示图、信息图、PPT 配图、头像等。
原则六:图内文字单独处理
让 AI 在图片里准确写出文字,是所有图像模型的难点。提高成功率的几个技巧:
- 用引号框住要显示的文字,明确告诉模型"这几个字要原样出现在图里"
- 指定文字的字体风格、大小、颜色和位置
- 文字尽量简短——字数越多、越长的句子,出错概率越高
- 生僻词、品牌名可以逐字母拼出,降低拼写错误
示例:

原则七:迭代优化,而非一次堆满
不要指望一句话就生成完美的图。更高效的方式是:先用一个干净、清晰的基础提示词出一版,再根据结果做小幅调整。 小改动往往能带来明显改善:
- "光线再暖一些"
- "把背景换成海边"
- "去掉画面里多余的那个杯子"
- "保持这个构图,但换成夜景"
迭代时可以用"保持同样的风格""还是这个主体"来复用上下文。但要注意:如果发现关键细节在多轮调整中开始"跑偏"(比如主体的颜色变了),就需要重新把它明确写出来。
六层分层框架(6-Layer Framework)
第 1 层:主体(Subject)
整个画面的地基,定义核心对象是什么。主体含糊,后续一切都会失控——模型只能凭默认认知去猜测一个"普通女人"长什么样,结果往往平庸且不可控。描述主体时应具体到对象的身份、外貌、衣着、状态与动作,把抽象的名词翻译成可被"看见"的细节。一个实用的自检方法:把描述念给另一个人听,如果对方脑中浮现的画面和设想高度一致,这个主体描述就足够具体了。
需要注意的是,主体描述并非越长越好,而是要"信息密度高"——每个词都应承载有效的视觉信息,避免"美丽的""高级的"这类无法被渲染的空泛形容词。
第 2 层:风格(Style)
告诉模型用何种视觉语言来诠释画面。风格是改变出图气质最快的开关——同一个主体,从"写实摄影"换成"水彩插画",整张图的观感会彻底改变,而主体本身保持不变。正因如此,风格往往是性价比最高的一个变量。
但风格需要克制:一次指定 1 至 2 种即可,堆砌过多风格词会让模型在多种视觉逻辑间反复横跳,产出混乱、失焦的画面。若想尝试混合风格,建议只叠加一个主风格 + 一个修饰词,而非平行堆叠三四种。
第 3 层:环境(Environment)
主体所处的场景与背景,为画面提供上下文、氛围与真实感。缺少环境的画面往往显得悬空、扁平,主体像是被凭空抠图贴上去的。环境不仅是背景板,它还在无形中交代故事——同一位人物,置于"清晨的港口"与"深夜的写字楼",传递的情绪与叙事截然不同。细节越到位,画面的空间纵深感越强。
第 4 层:光线(Lighting)
光线是决定画面"真实感"与"情绪"的核心变量,也是最被低估的一层。许多 AI 图片之所以显得"假",正是因为缺少明确的光线指引,导致画面平光、无影、缺乏立体感。指定光线时,应说明三个要素:光的方向、质感与色温。光线还直接决定情绪基调——暖黄的烛光传递私密温馨,冷蓝的月光营造孤寂清冷。
第 5 层:构图(Composition)
定义画面如何被框取——景别、视角与主体在画面中的位置。同样的主体,换一个视角与构图,气质会完全不同:平视显得平实客观,仰视赋予主体力量与压迫感,俯视则带来掌控全局或渺小孤独的观感。若画面中元素的位置很重要,应直接指明——尤其当画面需要为后期叠加文字预留空间时,主动指定留白位置会让成品更可用。
第 6 层:画质(Quality)
收尾层,定义成品的精细度与技术规格,进一步推高画面的专业感。这一层的关键词如同给模型下达"出片标准",提示它向高质量、专业级的方向渲染。对写实类图片,还可加入相机与镜头术语来模拟真实摄影的光学特性,进一步消除"AI 味"。需要提醒的是,画质词是"锦上添花"而非"雪中送炭"——它能提升已有画面的精细度,但无法挽救一个主体、环境都含糊的提示词。
示例一:清晨街角的咖啡女子

示例二:赛博朋克雨夜骑士

示例三:中国古代水墨侠客

示例四:剪纸层叠

示例五:极简产品广告

灵活运用
六层框架并非每次都要写满。实际使用时可按任务复杂度取用:
- 快速出图: 只用前三层(主体 + 风格 + 环境)即可获得方向正确的画面
- 追求成片质量: 补齐后三层(光线 + 构图 + 画质),让画面从"AI 味"走向"专业摄影感"
- 不同模型适配: 分层逻辑跨模型通用,但表达方式可微调——偏对话式的模型适合将六层写成连贯段落,偏关键词的模型适合将各层拆成短语并列
提示: 凡是没有明确指定的层级,模型都会自行填充,且结果通常不及预期。对画面哪一层有要求,就把那一层写清楚;不在意的层级,则可放心交给模型发挥。
常用场景模板
以下提供几个常用场景的提示词模板,「」内为可替换字段,按需修改即可复用。
博客 / 文章头图

写实人像摄影

电商产品主图

宣传图

微缩场景


评论
0 条