3. 音频提示词指南

Luma 的音频生成分为语音（Speech）、音乐（Music）、音效（Sound Effects）三类。与图像、视频不同，音频是纯时间维度的产物——只能随时间逐秒展开，因此除了"内容描述"，还要兼顾时长、节奏与同步。以下围绕四条核心实践展开，并补充各类型的撰写要点。

核心实践

生成较长旁白前，先试听音色

语音生成提供多种音色，涵盖不同性别、年龄、口音与性格。一旦生成长段旁白，若中途发现音色不合适，整段都需重做，既费时间也费额度。因此动笔写完整脚本前，建议先用一两句短文本快速试听几个候选音色，确认语速、音调、气质与项目调性相符后，再投入完整旁白的生成。尤其在品牌片、纪录片解说等对声音形象要求高的场景，音色选择往往比文案本身更影响成片质感。

音乐提示词中写明风格、节奏与能量

音乐生成对"风格（genre）+ 节奏（tempo）+ 能量（energy）"这三要素的响应最稳定。仅写"背景音乐"过于笼统，模型只能给出泛泛的结果；补足这三个维度，方向会清晰得多。可进一步叠加乐器编制、情绪基调与用途说明，让结果更贴近预期。

提示词模板：

[风格／流派] 的 [用途] 音乐，
[节奏：如 缓慢 / 中速 / 明快，或具体 BPM]，
[能量级别：如 舒缓 / 渐强 / 激昂]，
主要乐器为 [乐器编制]，
情绪基调 [情绪]，适合 [使用场景]。

示例：

史诗管弦风格的电影预告片配乐，
节奏由慢到快，能量层层递进、最终爆发，
以弦乐铺底，配合鼓点与铜管，
情绪庄严而紧张，适合高潮转场。
轻快的 lo-fi 嘻哈背景音乐，
中速、低能量，循环感强，
以柔和钢琴、慵懒鼓点和黑胶底噪为主，
情绪放松惬意，适合口播或学习类视频垫底。

音效适当多生成几秒，给后期留余地

音效（SFX）建议比实际所需时长稍长一些。剪辑时往往需要做淡入淡出、对齐画面动作或微调起止点，若音效卡得过紧，留给后期的操作空间就很小。多出的一两秒既方便裁切，也便于循环或叠加。描述音效时应直接刻画声音本身，而非"……的声音"这类绕弯表述，并用形容词刻画质感、用动词交代动作。

提示词模板：

[声音主体] [动作／状态]，
[质感形容：如 低沉 / 清脆 / 闷响]，
[环境或距离：如 近处 / 远处 / 室内回响]，
[强度：如 轻微 / 剧烈]。

示例：

木柴在篝火中噼啪燃烧，
偶有爆裂的轻响与火星迸溅声，
近距离收音，温暖而松弛。
沉重的金属门缓缓推开，
铰链发出刺耳的吱呀声，
随后是低沉的闷响关闭，
室内带轻微回响。

最终导出前，先把音频与画面对一遍时间轴

音频与视频是分别生成的，时长、节拍与画面节奏未必天然吻合。最终导出前，务必把音频叠在视频上完整走查一遍：确认配音与口型／字幕对得上，音乐的情绪转折落在画面的关键节点上，音效与具体动作（关门、脚步、撞击）严丝合缝。Luma 提供节拍检测、静音检测与逐词时间戳分析，可借助这些信息把音乐重拍、停顿与画面剪切点精确对齐，减少反复试错。

分类型撰写要点

语音（Speech）

语音生成支持将情绪／表达标签直接嵌入文本来控制朗读语气，例如 [excited]、[whisper]、[sad]、[angry]、[laughing] 等。把标签放在需要变化的句子前，即可让同一段文本呈现不同的情感层次。

示例：

[whisper] 别出声，他们就在门外。
[excited] 我们成功了！真的成功了！

撰写脚本时，建议按口语习惯断句、适当加标点，给模型自然的停顿提示；专有名词、缩写或易读错的词，可改写成更贴近发音的形式，降低读错概率。

音乐（Music）

除前述"风格＋节奏＋能量"三要素外，明确"用途"能进一步收敛方向——同样是钢琴曲，"婚礼背景乐"与"悬疑片配乐"的走向截然不同。需要纯伴奏时，可注明"无人声（instrumental）"；需要循环垫底时，注明"循环友好（loop-friendly）"。

音效（Sound Effects）

复杂场景音可拆成多个独立音效分别生成，再在视频合成中分层叠加，比一次性生成一整套混合音更可控。例如"雨夜街头"可拆为雨声、远处车流、脚步声三层，分别生成后逐层混合，调整各自音量与出现时机。

整体工作流建议

一个稳妥的音频制作顺序是：先确定语音音色并生成旁白 → 据旁白长度与情绪铺设音乐 → 针对关键动作补充音效 → 借助节拍／时间戳分析把三者对齐画面 → 完整走查后再导出。语音、音乐、音效分层制作、最后统一混合，远比追求"一次到位"更高效，也更容易获得干净、可控的成片音轨。

0 条

登录后可以参与评论。

还没有评论，来写第一条吧

#3. 音频提示词指南

#核心实践

#分类型撰写要点

#整体工作流建议

评论

3. 音频提示词指南

核心实践

分类型撰写要点

整体工作流建议