3. 音频提示词指南


Luma 的音频生成分为语音(Speech)、音乐(Music)、音效(Sound Effects)三类。与图像、视频不同,音频是纯时间维度的产物——只能随时间逐秒展开,因此除了"内容描述",还要兼顾时长、节奏与同步。以下围绕四条核心实践展开,并补充各类型的撰写要点。

核心实践

生成较长旁白前,先试听音色

语音生成提供多种音色,涵盖不同性别、年龄、口音与性格。一旦生成长段旁白,若中途发现音色不合适,整段都需重做,既费时间也费额度。因此动笔写完整脚本前,建议先用一两句短文本快速试听几个候选音色,确认语速、音调、气质与项目调性相符后,再投入完整旁白的生成。尤其在品牌片、纪录片解说等对声音形象要求高的场景,音色选择往往比文案本身更影响成片质感。

音乐提示词中写明风格、节奏与能量

音乐生成对"风格(genre)+ 节奏(tempo)+ 能量(energy)"这三要素的响应最稳定。仅写"背景音乐"过于笼统,模型只能给出泛泛的结果;补足这三个维度,方向会清晰得多。可进一步叠加乐器编制、情绪基调与用途说明,让结果更贴近预期。

提示词模板:

[风格/流派] 的 [用途] 音乐,
[节奏:如 缓慢 / 中速 / 明快,或具体 BPM],
[能量级别:如 舒缓 / 渐强 / 激昂],
主要乐器为 [乐器编制],
情绪基调 [情绪],适合 [使用场景]。

示例:

史诗管弦风格的电影预告片配乐,
节奏由慢到快,能量层层递进、最终爆发,
以弦乐铺底,配合鼓点与铜管,
情绪庄严而紧张,适合高潮转场。
轻快的 lo-fi 嘻哈背景音乐,
中速、低能量,循环感强,
以柔和钢琴、慵懒鼓点和黑胶底噪为主,
情绪放松惬意,适合口播或学习类视频垫底。

音效适当多生成几秒,给后期留余地

音效(SFX)建议比实际所需时长稍长一些。剪辑时往往需要做淡入淡出、对齐画面动作或微调起止点,若音效卡得过紧,留给后期的操作空间就很小。多出的一两秒既方便裁切,也便于循环或叠加。描述音效时应直接刻画声音本身,而非"……的声音"这类绕弯表述,并用形容词刻画质感、用动词交代动作。

提示词模板:

[声音主体] [动作/状态],
[质感形容:如 低沉 / 清脆 / 闷响],
[环境或距离:如 近处 / 远处 / 室内回响],
[强度:如 轻微 / 剧烈]。

示例:

木柴在篝火中噼啪燃烧,
偶有爆裂的轻响与火星迸溅声,
近距离收音,温暖而松弛。
沉重的金属门缓缓推开,
铰链发出刺耳的吱呀声,
随后是低沉的闷响关闭,
室内带轻微回响。

最终导出前,先把音频与画面对一遍时间轴

音频与视频是分别生成的,时长、节拍与画面节奏未必天然吻合。最终导出前,务必把音频叠在视频上完整走查一遍:确认配音与口型/字幕对得上,音乐的情绪转折落在画面的关键节点上,音效与具体动作(关门、脚步、撞击)严丝合缝。Luma 提供节拍检测、静音检测与逐词时间戳分析,可借助这些信息把音乐重拍、停顿与画面剪切点精确对齐,减少反复试错。

分类型撰写要点

语音(Speech)

语音生成支持将情绪/表达标签直接嵌入文本来控制朗读语气,例如 [excited][whisper][sad][angry][laughing] 等。把标签放在需要变化的句子前,即可让同一段文本呈现不同的情感层次。

示例:

[whisper] 别出声,他们就在门外。
[excited] 我们成功了!真的成功了!

撰写脚本时,建议按口语习惯断句、适当加标点,给模型自然的停顿提示;专有名词、缩写或易读错的词,可改写成更贴近发音的形式,降低读错概率。

音乐(Music)

除前述"风格+节奏+能量"三要素外,明确"用途"能进一步收敛方向——同样是钢琴曲,"婚礼背景乐"与"悬疑片配乐"的走向截然不同。需要纯伴奏时,可注明"无人声(instrumental)";需要循环垫底时,注明"循环友好(loop-friendly)"。

音效(Sound Effects)

复杂场景音可拆成多个独立音效分别生成,再在视频合成中分层叠加,比一次性生成一整套混合音更可控。例如"雨夜街头"可拆为雨声、远处车流、脚步声三层,分别生成后逐层混合,调整各自音量与出现时机。

整体工作流建议

一个稳妥的音频制作顺序是:先确定语音音色并生成旁白 → 据旁白长度与情绪铺设音乐 → 针对关键动作补充音效 → 借助节拍/时间戳分析把三者对齐画面 → 完整走查后再导出。语音、音乐、音效分层制作、最后统一混合,远比追求"一次到位"更高效,也更容易获得干净、可控的成片音轨。

评论

0
还没有评论,来写第一条吧