2. 官方视频提示词指南


本章节参考官方提示词指南编写:

通用提示词原则

Ray3.14 与 Ray3 对提示词较为敏感,遵循以下规则可显著提升效果:

应当做的:

  • 使用进行时动词,写"奔跑(running)"而非"开始奔跑(begins to run)"。
  • 它们是"仅正向"模型,反向提示词(negative prompting)会适得其反。
  • 补充次级动态效果:发丝被风吹动、衣物飘摆、反光、扬起的尘土、水面涟漪等。
  • 未特别说明时默认采用电影感风格。
  • 使用关键帧时,只描述会发生变化的部分,不要重复描述静态元素。
  • 提示词保持在 100 词左右,聚焦动作,使用现在时。
  • 明确镜头运动:如"镜头向前推进""缓慢右摇""空中俯冲镜头"。

应当避免的:

  • 避免使用 "vibrant"(鲜艳)、"whimsical"(奇趣)、"hyper-realistic"(超写实)等词,它们往往会降低画质。
  • 避免 "beautiful""amazing""stunning" 这类含糊的修饰词。
  • 不要用 "begins to""starts to" 等表示动作起始的措辞。
  • 不要过度描述静态元素,把笔墨集中在需要运动的部分。

Ray3.14

Ray3.14 是 Luma 最新、最快的视频模型,也是视频生成的默认主力。它原生支持 1080p 与 HDR(同时支持 720p、540p 及草稿模式),HDR 输出具备更宽的动态范围,适合戏剧性光照场景;在 540p 与 720p 下还可导出 EXR,便于专业调色流程。注意 HDR 与 HDR+EXR 仅支持文生视频和图生视频,视频修改(Modify)不支持。

它支持起始帧与结束帧双关键帧,可在两张图之间精确插值,提供 6 种宽高比(9:16、3:4、1:1、4:3、16:9、21:9)与无缝循环。时长方面,文生视频为 5 秒或 10 秒,图生视频为 5 秒,视频修改最长 18 秒,延伸可达约 30 秒。它的不足在于不支持角色参考(需用 Ray3)、无原生音频,且和所有 Luma 模型一样对提示词敏感。

提示词模板:

创建一段视频:[主体] 正在 [进行时动作],
置于 [场景] 中,[次级动态/连带效果],
[镜头运动(如有)],[光线/氛围]。

示例:

一只金毛犬奔跑着穿过麦田,
双耳随风扑动,
扬起的尘埃在黄金时刻的阳光中闪烁,
镜头在一旁同步跟拍。
浓缩咖啡注入一只白色陶瓷杯中,
热气升腾,液体打着旋,
微距特写,温暖的清晨光线。

要点提示:九成的视频任务都可从这里入手,它快、画质高、适应性强;迭代用 720p、定稿用 1080p 以节省时间和额度;循环模式适合需要无缝重复的产品展示;HDR 模式在日落、霓虹、火光、舞台灯光等戏剧性光照下表现出色;21:9 超宽画幅适合电影宽银幕质感。

Ray3

Ray3 是支持角色参考的 Luma 模型,适合需要在多个镜头中保持同一角色、又难以为该角色制作精确关键帧的场景。它支持上传角色参考图以在多次生成间维持角色身份,文生视频、图生视频、视频修改与参考模式均可使用;关键帧支持与 Ray3.14 相同,同样提供 6 种宽高比、5 秒或 10 秒时长、无缝循环及 HDR/EXR。它的动作表现更具张力,并提供增强提示模式以提升遵循度。代价是生成速度明显慢于 Ray3.14。

使用规则与 Ray3.14 一致。涉及角色参考时,提示词只需描述场景与动作,角色身份交由参考图呈现,无需重复描述其外貌特征;同时使用关键帧时,也只描述动作与场景的变化,不要复述角色特征。

提示词模板:

创建一段视频:[角色描述(无参考图时填写)] 正在 [进行时动作],
置于 [场景] 中,[次级动态],
[镜头运动(如有)],[光线/氛围]。

示例:

(含角色参考图)
角色穿行于雾气弥漫的森林中,
脚下落叶沙沙作响,
薄雾在腿边缭绕,
低角度跟拍镜头。
(无角色参考图)
一位身穿红色夹克的年轻女性沿山间小径向上攀登,
背包随步伐颠动,头发束在脑后,
呼出的白气在冷空气中清晰可见,
黄金时刻的侧光。

要点提示:只在确实需要角色参考时才用它,其余情况 Ray3.14 更快、分辨率更高;它同样是"仅正向"模型;角色参考图最好清晰、光线充足,能展现面部和关键特征;可将角色参考与关键帧结合,同时掌控身份与构图;增强提示模式有助于复杂场景,但会增加生成时间。

Veo 3

Veo 3 是 Google 的视频模型,最大特点是原生音频生成,能同步产出对白、音效与环境音。将对白放入引号即可自动匹配口型,例如 一名男子说道:"Hello world"。它支持基于文本的局部修改(inpainting),并可借助参考图保持角色与背景一致;提供 720p 和 1080p(1080p 仅限 16:9),时长为 4、6 或 8 秒,对专业的镜头、镜片与光照术语遵循度高。

它的局限较明显:仅 2 种宽高比(16:9、9:16),不支持关键帧、角色参考与循环,画面电影感不及 Ray 系列,偶有 AI 痕迹与瑕疵,音频质量时好时坏(对白可能略显机械)。

提示词建议干净简洁(1–2 句),既写清画面发生了什么,也写清想听到什么;明确描述音效(如"雷声隆隆""海浪拍岸""脚步声回响")与环境音(如"咖啡馆嘈杂人声""林间鸟鸣")。

提示词模板:

[镜头语言] + [主体] + [动作] + [环境] + [风格] + [氛围] + [音频]。

示例:

跟拍镜头,
跟随这位探险者步入空地,
她抬手抚过一面残破石墙上繁复的雕刻。
情绪:惊叹与敬畏。
大远景、高角度升降镜头,
渺小的探险者独自立于这片被丛林半掩、被遗忘的庞大神庙建筑群中央。
音效:一段渐强而舒缓的管弦乐响起。

要点提示:当音频需要从一开始就嵌入、不想另行配音时最适用;若追求更高画质而无需音频,用 Ray3.14 配合独立音频工具;1080p 仅在 16:9 可用,竖屏被锁定在 720p,这是个明显限制;对白功能强大但音色不稳定;适合音频比画面精致度更重要的快速社媒内容。

Veo 3.1

Veo 3.1 是 Veo 3 的升级版,在保留全部原生音频能力的基础上新增了起始帧与结束帧关键帧支持。它能在两张关键帧图之间生成带音频的过渡,这是其独有能力;提供 4、6、8 秒下的 720p 与 1080p(1080p 适用于全部时长),并可选 4K 放大——这种放大会重建纹理与皮肤毛孔等细节,而非简单拉伸像素。

局限与 Veo 3 相同:宽高比仍仅 16:9 与 9:16,最多支持 3 张参考图,不支持循环,画质同样不及 Ray 系列,音频质量仍有波动,生成失败时会回退到 Veo 3。

提示词规则与 Veo 3 一致——对白入引号、音效明确描述。使用关键帧时,应描述两帧之间的过渡/动作以及想要的音频,聚焦从起始帧到结束帧的过程,不要重复描述关键帧中已有的静态元素。

提示词模板:

[镜头语言] + [主体] + [动作] + [环境] + [风格] + [氛围] + [音频]。

示例:

跟拍镜头,
跟随这位探险者步入空地,
她抬手抚过一面残破石墙上繁复的雕刻。
情绪:惊叹与敬畏。
反打镜头,
对准探险者长着雀斑的脸庞,
她凝望着背景中布满青苔的古老遗迹,神情满是敬畏。
音效:茂密枝叶的沙沙声,远处奇异的鸟鸣。

要点提示:当手头有关键帧图且需要音频时,优先用它而非 Veo 3;测试阶段可用 Veo 3.1 Fast 模型(约便宜 70%、速度快一倍),锁定方案后再以相同种子和提示词在 Standard 上开启 4K 出最终成片;关键帧+音频的组合是其独门能力;失败时能平稳回退,值得一试;画质仍受 Veo 3 限制,不及 Ray 系列电影感。

Sora 2

Sora 2 是 OpenAI 的视频模型,擅长高能、多主体的运动场面,物理表现与群体动态可信度高,并自带音频生成。它在人群、运动、群体互动等多元素动作场景上表现出色,单个片段内的角色与世界一致性强,背景活动自然,物理真实感高;可自动生成环境音、音效乃至对白,也能选择性抑制音频(如"无对白""无配乐""无音频")。时长因界面而异,通常为 4、8 或 15 秒,Pro 用户可达 25 秒,是所列模型中单镜头最长的。

局限在于:仅 16:9 与 9:16 两种宽高比,分辨率仅 720p(1080p 限 Pro),不支持结束帧插值(仅起始帧),内容审核严格(不允许受版权保护的素材、在世名人、政治人物),且无法保证多次独立生成之间的连续性,需借助 Remix/Re-cut/Storyboard 等功能或参考帧来弥补。生成在时间和算力上成本都偏高。

提示词方面,短提示词带来更多创意自由,长而详尽的提示词带来更强控制与一致性,二者皆可,视目标而定;写清景别、主体、动作、场景与光线即可,背景活动交给模型自然处理。对白入引号,音效明确描述;抑制音频可用 "Diegetic only"(仅画内音)、"No score"(无配乐)、"Natural ambience only"(仅自然环境音)等表述。可引用已故历史人物(如林肯、马丁·路德·金、弗雷迪·墨丘利),但不可用在世名人或受版权保护的角色。

提示词模板:

[景别/取景] of [主体] [动作],置于 [场景] 中,
(可选:[次级动态/环境效果]),[镜头运动],[光线/色调]。
(可选:音频:[对白/背景声])

示例:

街头平视广角手持镜头,
四名篮球运动员在一处粗粝的城市球场上,正值黄金时刻,
快速的胯下变向后突破上篮;
镜头在持球者一侧跟拍,轻微晃动,浅景深。
光线:温暖低斜的夕阳,长长的影子,空气中浮尘可见。
背景声:球鞋摩擦沥青的吱声、运球声、人群欢呼与掌声。
广角镜头过渡到中景跟拍,
穿行于摩洛哥一处热闹的露天市集;
小贩们比划吆喝,购物者从五彩的布料摊位前走过。
镜头:稳定的手持云台感,以步行速度缓缓向前穿行。
光线:明亮的正午阳光,遮阳棚下斑驳的阴影,饱和的色调。
背景声:此起彼伏的人声、讨价还价的喊声、脚步声、布料随风翻飞声。

要点提示:最适合动感与能量充沛的短视频;25 秒选项强大但极慢,需谨慎使用;可在 Veo 或 Ray 不给力时作为兜底;自带音频是不错的加分项,但可控性不及 Veo 的引号对白;它很适合更看重能量而非电影质感的表情包与病毒式内容;如需历史人物,它在历史/年代重现上也有不错表现。

Kling 2.6

Kling 2.6 是快手的视频模型,主打原生音频与对口型能力。将对白放入引号即可生成同步口型,支持英文和中文(其他语言会自动翻译),文生视频与图生视频均可,支持起始帧与结束帧参考图、3 种宽高比(16:9、9:16、1:1)、720p 与 1080p、5 秒或 10 秒时长,并提供 CFG scale(0–1)用于调节提示词遵循度。其运动质量与一致性良好,1:1 方形画幅尤其适合 Instagram。

局限在于:仅 3 种宽高比(无超宽、无 3:4/4:3),不支持循环与 HDR/EXR,电影感不及 Ray 系列,语言以中英文为佳,且无专门的角色参考支持。

CFG scale 的用法:0.5 为均衡默认值(建议起点),调高(0.7–1.0)会更严格地遵循提示词,调低(0.2–0.4)则给模型更多创作自由。整体仍以干净简洁的提示词为佳,写清动作与场景。

提示词模板:

[场景+光线]。[主体] [动作/运动](可选:[镜头])。
音频:[环境音+音效]。
[角色] 说"[对白]"(可选:[嗓音特征])。风格:[视觉美学]。

示例:

中近景,创作者面向镜头置身家庭录影棚,
手势轻微,镜头缓缓推进。
音频:清晰人声下垫着低音量 lo-fi 节拍,淡淡的室内环境音。
她说:"我来演示三个今天就能用上的 AI 技巧。"
温暖的主光,柔和的背景虚化,自然的皮肤质感。
雨后的霓虹夜街,从身后缓慢跟拍主体行走,随后她转向镜头。
音频:雨打路面声、远处车流声、脚步声。
她说:"好了……一切从这里开始。"
忧郁的黑色电影式光照,高对比,浅景深。
一部造型流畅的智能手机置于极简底座上,360 度旋转镜头,缓慢悬浮。
音频:柔和的录影棚环境音,旋转时细微的呼啸声,屏幕亮起时轻微的咔哒声。
无对白。利落的商业布光,干净的反光,产品摄影质感。

要点提示:CFG scale 适合在遵循度与创意之间做微调;可用强调符(++)为关键元素加权,例如 ++造型流畅的红色敞篷车++ 沿海岸公路行驶;对口型质量在同类中仍是亮点;1:1 方形画幅非常适合 Instagram 信息流;如需更宽画幅或更强电影感,请改用 Ray 系列;它很适合面对镜头说话的达人风格内容;中英双语能力对国际化营销很实用。

视频修改 / Ray3 & Ray3.14 V2V

视频修改是基于提示词对已有视频进行改造的视频到视频(V2V)能力,而非从零生成。它接收一段已有视频,在保留底层运动与构图的前提下,依据提示词改变风格、光线、环境、天气、时段等。

强度控制分三种模式、每种三档:Adhere(1–3)紧贴原片,仅做细微改动(1 档改动最小,3 档在忠于原片的前提下适度改动);Flex(1–3)为均衡改造(1 档适度,3 档显著);Reimagine(1–3)给予最大创作自由(1 档已属显著,3 档为戏剧性的重新诠释)。修改时也可借助起始帧/结束帧来锚定希望保留的视觉元素或构图。

关键规则:描述想要的最终状态,而非下达命令;不要使用"变成""转变为"等时序性措辞;只用正向描述,例如写"晴朗的蓝天"而非"没有云";并尽量具体说明想要的改造效果。

正确示例:

赛博朋克霓虹夜城,雨水浸润的街道,紫色与蓝色的光照
水彩画风格,柔和的粉彩色调,印象派笔触
黄金时刻光照,温暖的橙色光晕,长长的影子

错误示例:

"把天空改成蓝色"(命令,而非描述)
"去掉云"(反向描述)
"场景变成一片森林"(时序性措辞)

典型用途包括:风格迁移(实拍转动画、写实转插画)、重新打光(改变时段、增添戏剧性光照)、环境替换(都市转自然、夏季转冬季、白天转夜晚)、天气调整(加雨、雾、雪、阳光)以及艺术化处理(油画、水彩、漫画、电影调色)。

要点提示:从较低强度起步(Adhere 1–2、Flex 1),不够再加;强度越高偏离原片越多,可能丢失重要细节;原片本身运动与构图越好,效果越佳;可用关键帧锚定希望保留的视觉元素;它很适合把已有素材改造成不同风格或情绪,且可迭代使用——改完一版再对结果继续修改。

快速选型参考

速度排序(由快到慢,与画质强相关):Ray3.14(最快,低分辨率下尤甚)→ Ray3(略慢于 3.14)→ Veo 3/Veo 3.1(长时长下较快)→ Kling 2.6(中等)→ Sora 2(明显偏慢,12 秒、20 秒时尤甚)。

按需求的选型要点:

需求推荐
通用视频、高一致性与时序稳定Ray3.14
跨镜头角色一致Ray3
关键帧+音频Veo 3.1
文生视频带音频、无关键帧Veo 3
对口型质量+社媒内容Kling 2.6
多主体高能动作Sora 2
最长单镜头(约 20–25 秒)Sora 2
修改已有视频视频修改(Ray3)
超宽 21:9Ray3.14 或 Ray3
HDR/EXR 导出Ray3.14(仅 720p 与 540p)
无缝循环Ray3.14 或 Ray3
角色参考仅 Ray3
1:1 方形Kling 2.6(或 Ray 系列)
结束帧关键帧Ray3.14、Ray3、Veo 3.1

评论

0
还没有评论,来写第一条吧