3. 音频提示词指南
Luma 的音频生成分为语音(Speech)、音乐(Music)、音效(Sound Effects)三类。与图像、视频不同,音频是纯时间维度的产物——只能随时间逐秒展开,因此除了"内容描述",还要兼顾时长、节奏与同步。以下围绕四条核心实践展开,并补充各类型的撰写要点。
核心实践
生成较长旁白前,先试听音色
语音生成提供多种音色,涵盖不同性别、年龄、口音与性格。一旦生成长段旁白,若中途发现音色不合适,整段都需重做,既费时间也费额度。因此动笔写完整脚本前,建议先用一两句短文本快速试听几个候选音色,确认语速、音调、气质与项目调性相符后,再投入完整旁白的生成。尤其在品牌片、纪录片解说等对声音形象要求高的场景,音色选择往往比文案本身更影响成片质感。
音乐提示词中写明风格、节奏与能量
音乐生成对"风格(genre)+ 节奏(tempo)+ 能量(energy)"这三要素的响应最稳定。仅写"背景音乐"过于笼统,模型只能给出泛泛的结果;补足这三个维度,方向会清晰得多。可进一步叠加乐器编制、情绪基调与用途说明,让结果更贴近预期。
提示词模板:
示例:
音效适当多生成几秒,给后期留余地
音效(SFX)建议比实际所需时长稍长一些。剪辑时往往需要做淡入淡出、对齐画面动作或微调起止点,若音效卡得过紧,留给后期的操作空间就很小。多出的一两秒既方便裁切,也便于循环或叠加。描述音效时应直接刻画声音本身,而非"……的声音"这类绕弯表述,并用形容词刻画质感、用动词交代动作。
提示词模板:
示例:
最终导出前,先把音频与画面对一遍时间轴
音频与视频是分别生成的,时长、节拍与画面节奏未必天然吻合。最终导出前,务必把音频叠在视频上完整走查一遍:确认配音与口型/字幕对得上,音乐的情绪转折落在画面的关键节点上,音效与具体动作(关门、脚步、撞击)严丝合缝。Luma 提供节拍检测、静音检测与逐词时间戳分析,可借助这些信息把音乐重拍、停顿与画面剪切点精确对齐,减少反复试错。
分类型撰写要点
语音(Speech)
语音生成支持将情绪/表达标签直接嵌入文本来控制朗读语气,例如 [excited]、[whisper]、[sad]、[angry]、[laughing] 等。把标签放在需要变化的句子前,即可让同一段文本呈现不同的情感层次。
示例:
撰写脚本时,建议按口语习惯断句、适当加标点,给模型自然的停顿提示;专有名词、缩写或易读错的词,可改写成更贴近发音的形式,降低读错概率。
音乐(Music)
除前述"风格+节奏+能量"三要素外,明确"用途"能进一步收敛方向——同样是钢琴曲,"婚礼背景乐"与"悬疑片配乐"的走向截然不同。需要纯伴奏时,可注明"无人声(instrumental)";需要循环垫底时,注明"循环友好(loop-friendly)"。
音效(Sound Effects)
复杂场景音可拆成多个独立音效分别生成,再在视频合成中分层叠加,比一次性生成一整套混合音更可控。例如"雨夜街头"可拆为雨声、远处车流、脚步声三层,分别生成后逐层混合,调整各自音量与出现时机。
整体工作流建议
一个稳妥的音频制作顺序是:先确定语音音色并生成旁白 → 据旁白长度与情绪铺设音乐 → 针对关键动作补充音效 → 借助节拍/时间戳分析把三者对齐画面 → 完整走查后再导出。语音、音乐、音效分层制作、最后统一混合,远比追求"一次到位"更高效,也更容易获得干净、可控的成片音轨。

评论
0 条