11. 图片生成


Perplexity 内置 AI 图像生成能力,与对话系统原生集成,无需切换到独立的绘图工具。只要用自然语言描述想要的画面,Perplexity 即可据此生成相应的图片。

支持的模型

模型提供方说明适用场景
Nano Banana ProGoogleMax 默认,4K 高清,文字渲染与多角色一致性出色高清成品、带文字海报、系列分镜
Default(GPT Image 2 中等质量)OpenAIGPT Image 2 的中等质量档,基础档默认,更快更省日常快速出图、打草稿
GPT Image 2OpenAI同一模型的高质量档,对文字与版式理解强,出图更精细海报、广告、信息图、带文字的设计稿
Nano Banana 2Google基于 Gemini Flash 影像,速度快,支持批量与多角色一致社媒配图、电商、分镜、批量出图
Seedream 5ByteDance逻辑、结构与一致性强,质感精致构图复杂、多元素关系、精致成品

使用方法

直接在对话框中描述想要的图像即可,例如:

生成一张 2010 年中国普通家庭的照片,一家三口正在晚上看电视。

提示词核心原则

Perplexity 接入了多个图像生成模型,不同模型在写实度、风格、文字渲染等方面各有所长。下面的技巧是跨模型通用的提示词原则,无论底层用的是哪个模型都适用;具体到某个模型的特殊语法,可在实际使用中针对性微调。

生成图片的关键在于提示词的精确度,核心原则可以浓缩为一句话:描述越具体,输出越可控。 模型只能依据你给出的描述作画,凡是未明确指定的元素,都会由模型自行填充。下面将这条原则拆解为若干可操作的维度,逐一展开。

原则一:用"四要素"结构化描述

与其写一句模糊的"画个咖啡馆",不如按统一的结构把画面拆开描述,让模型准确抓住每个要点。推荐的基本结构是:

「主体 → 风格 → 细节(颜色 / 光线 / 氛围)→ 场景」

复杂需求建议分行或用短标签拆开写,而不是堆成一大段长句。这样既方便模型解析,也方便自己后续修改。

示例:

主体:一只橘色的胖猫,蜷缩在窗台上睡觉
风格:写实摄影,浅景深
细节:阳光透过窗户洒在猫身上,毛发纹理清晰,背景虚化
光线:午后柔和的暖光
场景:北欧风格的居家窗台,窗外是模糊的绿植

原则二:明确指定风格

如果心里有特定的视觉风格,一定要在提示词里写出来。风格词是改变出图气质最快的开关。常用风格大致可分几类:

风格类别常用关键词
写实类写实摄影、照片级真实感(photorealistic)、用相机拍摄、专业摄影
绘画类水彩(watercolour)、油画、水墨、素描、厚涂、笔触纹理
设计类极简主义(minimalist)、扁平插画、矢量图、等距视角(isometric)
风格化卡通(cartoon)、动漫、像素风、3D 渲染、黏土风、复古(vintage)

风格之间也可以叠加,例如"复古胶片质感的极简海报"。但不建议一次堆太多风格词,否则模型容易混乱、风格互相打架。

原则三:具体而非抽象

模型无法猜测脑海中的画面,抽象的形容词(如"好看的""高级的")几乎不起作用。要把它们翻译成可视化的具体描述

抽象描述具体描述
一个好看的房间一间采光明亮的北欧风客厅,原木地板,米色布艺沙发,墙上挂着一幅抽象画
高级的配色莫兰迪色系,低饱和的灰绿与暖灰搭配
有氛围感傍晚的暖黄色灯光,长长的影子,空气中有轻微的尘埃光束

关键经验: 凡是你没有明确指定的元素,模型都会自行发挥。如果你对某个细节有要求,就一定要写出来;如果不在意,则可以留给模型自由发挥。

原则四:控制构图、视角与光线

同样的主体,换一个视角或光线,出来的画面气质完全不同。这三个维度值得单独指定:

维度常用描述
景别特写、半身、中景、全景、广角、远景
视角平视、俯视(鸟瞰)、仰视(低角度)、侧拍、第一人称视角
光线柔和漫射光、金色时刻(傍晚暖光)、逆光、高对比硬光、霓虹光、烛光

如果画面中元素的位置很重要,也要直接说明,例如:"主体居中,左侧大面积留白""文字放在画面下方三分之一处"。

示例:

一杯冒着热气的拿铁咖啡,放在木桌上。
- 景别:俯视特写
- 光线:清晨侧逆光,热气在光线中清晰可见
- 构图:咖啡杯位于画面左下角,右上方留白
- 风格:写实摄影,浅景深,暖色调

原则五:说明用途

把图片的使用场景写进提示词,能帮助模型自动选择合适的画面比例、风格和精细程度。比如同样是"AI 主题的图",用于博客头图和用于 PPT 配图,模型给出的构图会不一样。

示例:

为一篇关于人工智能的科技博客制作一张专业的头图横幅,
风格现代简洁,蓝紫色科技感配色,画面右侧留出放标题文字的空间。

常见用途关键词:博客头图 / 横幅、社交媒体配图、海报、Logo 概念图、产品展示图、信息图、PPT 配图、头像等。

原则六:图内文字单独处理

让 AI 在图片里准确写出文字,是所有图像模型的难点。提高成功率的几个技巧:

  1. 用引号框住要显示的文字,明确告诉模型"这几个字要原样出现在图里"
  2. 指定文字的字体风格、大小、颜色和位置
  3. 文字尽量简短——字数越多、越长的句子,出错概率越高
  4. 生僻词、品牌名可以逐字母拼出,降低拼写错误

示例:

设计一个简洁的极简风 Logo,品牌名为"Evergreen"(一个可持续服装品牌)。
文字要求:显示"Evergreen"字样,无衬线字体,深绿色,居中
风格:扁平、简约,可搭配一片叶子的图形元素

原则七:迭代优化,而非一次堆满

不要指望一句话就生成完美的图。更高效的方式是:先用一个干净、清晰的基础提示词出一版,再根据结果做小幅调整。 小改动往往能带来明显改善:

  • "光线再暖一些"
  • "把背景换成海边"
  • "去掉画面里多余的那个杯子"
  • "保持这个构图,但换成夜景"

迭代时可以用"保持同样的风格""还是这个主体"来复用上下文。但要注意:如果发现关键细节在多轮调整中开始"跑偏"(比如主体的颜色变了),就需要重新把它明确写出来。

六层分层框架(6-Layer Framework)

第 1 层:主体(Subject)

整个画面的地基,定义核心对象是什么。主体含糊,后续一切都会失控——模型只能凭默认认知去猜测一个"普通女人"长什么样,结果往往平庸且不可控。描述主体时应具体到对象的身份、外貌、衣着、状态与动作,把抽象的名词翻译成可被"看见"的细节。一个实用的自检方法:把描述念给另一个人听,如果对方脑中浮现的画面和设想高度一致,这个主体描述就足够具体了。

需要注意的是,主体描述并非越长越好,而是要"信息密度高"——每个词都应承载有效的视觉信息,避免"美丽的""高级的"这类无法被渲染的空泛形容词。

常用描述维度可指定的内容
身份年龄、性别、职业、种族
外貌发型、发色、脸型、体型、神态表情
衣着服装款式、颜色、材质、配饰
状态/动作正在做什么、姿态、与环境的互动
✗ 模糊:一个女人
✓ 具体:一位身穿米色风衣、卷发及肩的年轻女性,正低头看手中的咖啡

第 2 层:风格(Style)

告诉模型用何种视觉语言来诠释画面。风格是改变出图气质最快的开关——同一个主体,从"写实摄影"换成"水彩插画",整张图的观感会彻底改变,而主体本身保持不变。正因如此,风格往往是性价比最高的一个变量。

但风格需要克制:一次指定 1 至 2 种即可,堆砌过多风格词会让模型在多种视觉逻辑间反复横跳,产出混乱、失焦的画面。若想尝试混合风格,建议只叠加一个主风格 + 一个修饰词,而非平行堆叠三四种。

常见风格类别常用关键词
写实类写实摄影、照片级真实感、纪实摄影、商业摄影
绘画类水彩、油画、水墨、素描、厚涂、丙烯画
设计类扁平插画、矢量图、极简主义、等距视角、孟菲斯风格
风格化卡通、动漫、像素风、3D 渲染、黏土风、低多边形
氛围流派赛博朋克、蒸汽波、国潮、复古胶片、蒸汽朋克
✓ 单一风格:写实摄影风格
✓ 混合风格:复古胶片质感的极简海报(主风格 + 修饰词)
✗ 过度堆砌:写实 + 水彩 + 赛博朋克 + 国潮 + 3D(互相冲突)

第 3 层:环境(Environment)

主体所处的场景与背景,为画面提供上下文、氛围与真实感。缺少环境的画面往往显得悬空、扁平,主体像是被凭空抠图贴上去的。环境不仅是背景板,它还在无形中交代故事——同一位人物,置于"清晨的港口"与"深夜的写字楼",传递的情绪与叙事截然不同。细节越到位,画面的空间纵深感越强。

常用环境维度可指定的内容
地点室内/室外、具体场所(咖啡馆、港口、森林、写字楼)
时间清晨、正午、黄昏、夜晚
季节天气春夏秋冬、晴天、雨后、雪天、雾气、阴天
陈设元素家具、植物、人群、道具、背景建筑
✓ 清晨薄雾笼罩的港口,停泊着几艘小船
✓ 堆满旧书的复古书房,午后阳光透过百叶窗
✓ 霓虹闪烁的雨夜街道,地面倒映着灯光

第 4 层:光线(Lighting)

光线是决定画面"真实感"与"情绪"的核心变量,也是最被低估的一层。许多 AI 图片之所以显得"假",正是因为缺少明确的光线指引,导致画面平光、无影、缺乏立体感。指定光线时,应说明三个要素:光的方向、质感与色温。光线还直接决定情绪基调——暖黄的烛光传递私密温馨,冷蓝的月光营造孤寂清冷。

常见光线类型营造的氛围适用场景
清晨暖光清新、温暖、希望生活、治愈系
黄昏金色时刻浪漫、怀旧、柔和人像、风景
柔和漫射光干净、舒适、无硬阴影产品、美食
逆光剪影唯美、神秘、轮廓感人物、风景
硬光高对比强烈、戏剧化时尚、力量感
夜晚霓虹都市、赛博、时髦街景、夜店
烛光/暖黄灯温馨、私密、复古室内、情绪戏
冷色月光安静、清冷、孤寂夜景、情绪片
体积光(丁达尔)神圣、通透、有空气感森林、教堂、晨雾
✓ 柔和的晨光从侧面照来,在脸上投下温暖的光影
✓ 夜晚霓虹灯映照,蓝紫色调,地面有湿润的反光

第 5 层:构图(Composition)

定义画面如何被框取——景别、视角与主体在画面中的位置。同样的主体,换一个视角与构图,气质会完全不同:平视显得平实客观,仰视赋予主体力量与压迫感,俯视则带来掌控全局或渺小孤独的观感。若画面中元素的位置很重要,应直接指明——尤其当画面需要为后期叠加文字预留空间时,主动指定留白位置会让成品更可用。

常用构图维度可选项
景别特写、半身、中景、全景、广角、远景
视角平视、俯视(鸟瞰)、仰视(低角度)、侧拍、第一人称
布局主体居中、三分法构图、主体偏左/右留白、对称构图
✓ 半身近景,主体偏左,右侧留出虚化的街道空间
✓ 低角度仰拍,主体居中,营造高大、有力量的观感

第 6 层:画质(Quality)

收尾层,定义成品的精细度与技术规格,进一步推高画面的专业感。这一层的关键词如同给模型下达"出片标准",提示它向高质量、专业级的方向渲染。对写实类图片,还可加入相机与镜头术语来模拟真实摄影的光学特性,进一步消除"AI 味"。需要提醒的是,画质词是"锦上添花"而非"雪中送炭"——它能提升已有画面的精细度,但无法挽救一个主体、环境都含糊的提示词。

常用画质维度常用关键词
分辨率高分辨率、4K、8K、超高清
清晰度锐利对焦、超精细、丰富细节
专业感专业摄影、商业摄影、电影级画质
相机参数(写实向)85mm 镜头、f/1.8 大光圈、浅景深、虚化背景
质感胶片颗粒、真实皮肤纹理、材质细节
✓ 浅景深,高分辨率,电影级画质
✓ 写实向进阶:shot on 85mm f/1.8 镜头,浅景深,锐利对焦,8K

示例一:清晨街角的咖啡女子

一位身穿米色风衣的年轻女性,低头注视手中的咖啡(主体),
写实摄影风格(风格),
背景是清晨薄雾中的城市街角,店铺刚刚开门(环境),
柔和的晨光从侧面照来,在她脸上投下温暖的光影(光线),
半身近景,主体偏左,右侧留出虚化的街道空间(构图),
浅景深,高分辨率,电影级画质(画质)

示例二:赛博朋克雨夜骑士

一名身穿黑色机能风夹克的年轻男子,骑在一辆发光的机车上,回头望向镜头(主体),
赛博朋克风格,3D 渲染(风格),
背景是霓虹林立的未来都市街道,雨幕中倒映着五彩灯光(环境),
冷蓝与品红的霓虹光交织,湿润路面反射光斑(光线),
低角度仰拍,主体居中,营造压迫感与未来感(构图),
超精细,电影级画质,丰富细节(画质)

示例三:中国古代水墨侠客

一位身着青色长袍的古代侠客,手持长剑立于山崖之巅,衣袂随风而动(主体),
中国传统水墨画风格,留白意境(风格),
背景是云雾缭绕的崇山峻岭,远处隐约可见飞瀑与孤松(环境),
清晨的薄光穿透云雾,光影朦胧(光线),
全景远景,主体偏右下,大面积留白展现山势辽阔(构图),
墨色浓淡相宜,宣纸质感,高分辨率(画质)

示例四:剪纸层叠

一只小鹿站在森林深处,四周是层层叠叠的树木、山峦与云朵,
每一层景物都像独立裁剪的彩色卡纸前后错落排列,营造出纵深感(主体),
纸艺剪纸风格(paper cut craft),多层叠加(风格),
背景是渐变的暖色天空,远山一层层向后退去(环境),
柔和的光线在纸层之间投下细腻的阴影,凸显层次(光线),
正面平视,主体居中,前后景层次分明(构图),
高分辨率,细腻纸质纹理,手工质感(画质)

示例五:极简产品广告

一瓶磨砂质感的香水,悬浮在半空,周围环绕几片飘落的花瓣(主体),
极简主义,3D 渲染(风格),
纯色渐变背景,干净无杂物,大量留白(环境),
柔和的棚拍光从两侧打来,突出瓶身的通透与光泽(光线),
正面平视,主体居中,上下留白用于后期叠加文案(构图),
高分辨率,锐利对焦,商业广告级质感(画质)

灵活运用

六层框架并非每次都要写满。实际使用时可按任务复杂度取用:

  • 快速出图: 只用前三层(主体 + 风格 + 环境)即可获得方向正确的画面
  • 追求成片质量: 补齐后三层(光线 + 构图 + 画质),让画面从"AI 味"走向"专业摄影感"
  • 不同模型适配: 分层逻辑跨模型通用,但表达方式可微调——偏对话式的模型适合将六层写成连贯段落,偏关键词的模型适合将各层拆成短语并列

提示: 凡是没有明确指定的层级,模型都会自行填充,且结果通常不及预期。对画面哪一层有要求,就把那一层写清楚;不在意的层级,则可放心交给模型发挥。

常用场景模板

以下提供几个常用场景的提示词模板,「」内为可替换字段,按需修改即可复用。

博客 / 文章头图

为一篇关于「冥想与正念入门」的文章制作头图横幅。
风格: 极简插画,柔和线条 
配色: 以低饱和的暖米色和淡绿为主色调
构图: 主体居中,上下留白,便于叠加标题文字
氛围: 宁静、放松、治愈 
用途:博客头图(横版)

写实人像摄影

拍摄一张照片级真实的人像。
主体:「一位正在专注工作的年轻设计师」
人物细节:「自然的神态,皮肤纹理真实,不要过度磨皮」
光线:「窗边自然光,柔和侧光」
景别:「半身近景,浅景深」
风格:写实摄影,35mm 胶片质感

电商产品主图

设计一张 16:9 的「产品类目」电商主图。
主体:「一瓶透明矿泉水立在水边岩石上,瓶底溅起清澈水花」
背景:「远处雪山与湖泊,晴朗天空,阳光透亮,空气中有水珠气泡」
风格: 写实商业摄影,清新通透
配色:「蓝白色调」
布局: 产品居左,右侧文案
氛围: 纯净、高端 

宣传图

设计一张《「黑神话:悟空」》的横版英文宣传海报(16:9)。
主体:「身披战甲的孙悟空,双手持金箍棒蓄势挥击,眼神凌厉」
特效:「金箍棒拖曳出炽热的金色火星轨迹,符纸与灰烬在风中飞舞」
风格:写实国风奇幻,电影级画质,暗调高对比
配色:「以玄黑、暗金与赤红为主色调」
布局:主体居右,左侧放置游戏 Logo 与标语,底部预留发行信息与平台图标位置
氛围:「苍凉、悲壮、史诗感」
用途:游戏主视觉海报

微缩场景

制作一张超现实的微缩创意场景图。
核心创意:「把一杯咖啡变成温泉度假村」
具体画面:「几个微缩小人正惬意地泡在一杯热气腾腾的拿铁里,
          奶泡是他们的浴池泡沫,咖啡豆像巨石点缀在杯沿,
          有人躺在咖啡勺上晒太阳」
风格:写实微距摄影,浅景深,电影质感
光线:「清晨暖光从杯子上方斜射,热气在光线中清晰可见」
氛围:「慵懒、治愈、奇趣」

评论

0
还没有评论,来写第一条吧