5. 制作音乐


image-20260325112429296

Gemini 内置了 AI 音乐生成器 Lyria,输入文字描述就能够生成对应的音乐和歌词。点击「工具」>「制作音乐」即可使用。

目前,Gemini 网页端「制作音乐」使用的是 **Lyria 3 Clip 和 Lyria 3 Pro **模型。

提示:「快速」模型只能创作 30 秒音乐,创作完整成品音乐需切换至「思考」或「Pro」模型。

Lyria 3 模型家族:

模型API 名称时长定位
Lyria 3 Cliplyria-3-clip-preview30 秒Flash 版,速度快,适合快速试错、社媒素材、循环音乐
Lyria 3 Prolyria-3-pro-preview最长 3 分钟旗舰版,理解歌曲结构(前奏/主歌/副歌/桥段),支持时间戳精确控制

Lyria 3 的特点:

  1. 完整成品输出 —— 一次生成就包含人声、歌词、配器、编曲,无需后期单独制作
  2. 时间戳级别精度 —— [00:00]、[01:30] 这种标记可以指定每一段的内容(Pro 独有)
  3. 多语言人声 —— 支持 8 种语言演唱:英语、德语、西班牙语、法语、印地语、日语、韩语、葡萄牙语
  4. 商用友好 —— 比其他主流 AI 音乐模型有更宽松的商用条款

核心规格:

  • Clip:30 秒固定时长
  • Pro:最长 3 分钟,可精确指定时长

提示词编写

Google Cloud 官方在《Ultimate Prompting Guide for Lyria 3》中给出的标准框架:

[流派与风格] + [情绪] + [配器] + [节奏与速度] + [人声风格与语言] + [歌词]
要素说明示例
Genre & Style 流派与风格主要类型 + 时代早期 90 年代嘻哈、电影管弦奇幻、Lo-fi
Mood 情绪情感意图紧张悬疑、温暖怀旧、欢快振奋
Instrumentation 配器关键乐器钢琴、Fender Rhodes、808 鼓、弦乐组
Tempo & Rhythm 节奏与速度速度 + 律动120 BPM、慢摇摆、强劲鼓点
Vocal style & Language 人声风格与语言性别、音域、音色、语言沙哑男中音、轻柔女高音、英语演唱
Lyrics 歌词主题或具体歌词关于跨文化连接的爱情

流派词典

Lyria 3 训练数据涵盖几乎所有主流音乐流派,下面是高频且效果稳定的几类:

类别流派
电子舞曲类House、Techno、Drum and Bass、Dubstep、Trance、Phonk、UK Garage、Future Bass
流行类Pop、K-pop、J-pop、City Pop、Synth-pop、Indie Pop、Bedroom Pop
摇滚类Rock、Punk Rock、Indie Rock、Garage Rock、Post-rock、Math Rock、Emo
嘻哈类Hip-hop、Trap、Boom Bap、Lo-fi Hip-hop、Drill、Cloud Rap、Gospel Hip-hop
爵士与放克类Jazz、Bossa Nova、Funk、Soul、Motown、Neo-soul、Acid Jazz
电影与氛围类Cinematic Orchestral、Ambient、Drone、Score、Trailer Music
世界音乐类Afrobeats、Reggaeton、Bollywood、Flamenco、Celtic、Cumbia
经典与传统类Classical、Baroque、Romantic、Folk、Country、Bluegrass

示例一:

经典 Bossa Nova 与现代 R&B 的浪漫融合。情绪亲密、温暖、深情。
配器包含柔和的尼龙弦原声吉他、温暖的电钢琴和声、清脆放松的
现代嘻哈鼓点。慢速摇摆节奏。
人声为男女对唱:一位顺滑男声用英语演唱,一位轻柔气声女声用
法语演唱。歌词是一首关于不可阻挡的跨文化连接的优美情歌。

***此处插入音频:Gemini-260507-106.mp3

示例二:

紧张悬疑的电影管弦乐配合现代 Trap 鼓点。情绪黑暗、压迫、充满
张力。配器包含低音弦乐持续音、不和谐的钢琴单音、808 低音、
急促的踩镲连击,以及偶尔点缀的合成器脉冲。中速 90 BPM,鼓点
密集有力。无人声纯器乐版本。营造一种主角在霓虹城市中被追捕
的视觉画面感。

***此处插入音频:Gemini-260517-155.mp3

示例三:

怀旧的 90 年代 City Pop 与 Lo-fi Hip-hop 融合。情绪温暖、慵懒、
带一丝淡淡忧伤。配器包含 Fender Rhodes 电钢琴、闷音电吉他
分解和弦、柔和的贝斯线、复古鼓机节拍,加入轻微的黑胶噪声
质感。慢速摇摆 75 BPM。人声为轻柔气声女高音,日语演唱。
歌词描写夏日傍晚独自走过东京街头,回忆已逝去的青春恋情。

***此处插入音频:Gemini-260517-154.mp3

节奏与速度词典

除了控制 BPM(每分钟节拍数)外,描述性词汇往往更直观:

描述对应 BPM 范围适用场景
Slow ballad 慢板叙事曲60-80情歌、电影抒情
Mid-tempo 中速90-110流行、R&B
Uptempo 快板120-140流行舞曲、摇滚
Driving beat 强劲律动130-150EDM、Trap
Fast-paced 快速150-180朋克、Drum and Bass
Frenetic 狂热180+Dubstep、Hardcore

时间戳控制

该能力为 Lyria 3 Pro 独有,支持使用 [MM:SS - MM:SS] 时间戳标签为各时间段精确指定生成内容,实现段落级的时序控制。

基础语法

[00:00] 开始内容描述
[00:15] 第二段变化
[00:30] 第三段变化
...
[03:00] 结尾

示例:

[00:00] 立刻以一支大型福音合唱团开场,演唱一段强大、振奋的
关于善待自己的和声。

[00:15] 一组沉重的现代嘻哈鼓点和深沉的 808 贝斯线条加入,
能量与合唱团匹配。

[00:30] 一位男主唱开始 rap 一段关于克服生活挑战的自信主歌,
合唱团在背景中以人声点缀他的歌词。

[01:10] 进入一段巨大、凯旋的副歌,庆祝胜利与成就。福音合唱团
全音量演唱,丰富而灵魂的和声层叠在驱动的嘻哈鼓点和凯旋的铜管
之上。

[01:50] 节拍褪去,仅留温暖的 Hammond B3 风琴。Rapper 演绎
一段安静、情感丰沛的桥段,关于给自己宽容,背景由合唱团柔和
温暖的哼唱支持。

[02:10] 完整嘻哈节拍和大型合唱团以最大能量回归,进入一段
振奋的最终副歌,最后以 [02:50] 处一个共鸣绵长的合唱团和弦
结束。

***此处插入音频:Gemini-260517-156.mp3

三个细节参数

Vertex AI 文档里还提到几个更精细的参数,可以放在时间戳之后:

参数写法说明
Song key 调性Song key: A major调性,如 A 大调、D 小调
Beat rate 节拍BPM: 120精确每分钟节拍
Intensity 强度Intensity: 3/10 (Low)1-10 数值表达段落能量

完整示例:

创建一首 60 秒的器乐曲,80 BPM,G 大调。

[00:00 - 00:12] 前奏:仅 Fender Rhodes 钢琴弹奏柔和的氤氲和弦,
浸入温暖混响。Intensity: 1/10

[00:12 - 00:24] 主歌 1:慵懒鼓点加入,简单的 kick 和 snare,
柔和空灵合成器铺底。Intensity: 3/10

[00:24 - 00:36] 推进段:律动加深,加入切分 hi-hat。
Intensity: 5/10

[00:36 - 01:00] 高潮:完整鼓组、贝斯、Rhodes 主旋律齐奏,
情绪饱满。Intensity: 8/10

***此处插入音频:Gemini-260517-157.mp3

结构标签

结构标签(Section Tags) 是 Lyria 3 Pro 用来识别歌曲段落的标准化标记。

不用结构标签时,模型会按流派惯例自动安排走向,结果往往是"流畅但平淡的循环"。用了结构标签后,歌曲会有明显起承转合:前奏铺垫、主歌叙事、副歌爆发、桥段转折、尾奏收束。模型在每个标签处会主动改变旋律、和声、能量水平。

前置条件:

  • 必须使用 Lyria 3 Pro,30 秒的 Clip 版本不支持完整结构展开
  • 建议生成时长在 1-3 分钟之间,太短装不下完整结构

Lyria 3 Pro 官方支持的结构标签

根据 Replicate 上 Google 官方 Lyria 3 Pro 模型页、Scenario 帮助文档、Google Cloud 官方提示词指南,Lyria 3 Pro 明确支持以下五个核心标签:

标签中文典型时长作用
[Intro]前奏8-15 秒建立氛围、引入听众
[Verse]主歌15-30 秒叙事主体,铺陈故事或情感
[Chorus]副歌15-30 秒全曲情绪和能量最高点,记忆点所在
[Bridge]桥段15-25 秒提供反差,常用于打破副歌重复
[Outro]尾奏8-15 秒收尾段,逐渐淡出或干净停止

这五个是 Google 文档明确提到的"一线标签",模型理解最稳定、响应最准确。

标签编号

同一首歌里相同段落多次出现时可以编号区分,便于精确控制:

[Verse 1]
[Verse 2]
[Chorus 1]
[Chorus 2]
[Final Chorus]

编号能告诉模型"这是不同主歌但用同一旋律变体",对叙事性强的歌曲特别有用。

使用方式

方式一:纯标签序列

只列出标签顺序,让模型自己填充内容。适合快速试错或不需要精确控制的场景。

一首温暖的独立流行情歌,女声演唱,原声吉他主导,
85 BPM。

结构:
[Intro]
[Verse 1]
[Chorus]
[Verse 2]
[Chorus]
[Bridge]
[Final Chorus]
[Outro]

方式二:标签 + 歌词

在每个标签下面写出对应的歌词。这是 Lyria 3 Pro 最标准的用法,模型会按照填写歌词演唱,并在每段切换时主动改变编曲能量。

一首温暖的独立流行情歌,女声演唱,原声吉他 + 副歌处加入弦乐,
85 BPM。

[Intro]
(仅器乐:原声吉他指弹 8 秒)

[Verse 1]
深夜的街灯把影子拉得很长
我数着脚步走过你住过的方向
那扇窗的灯光早已不再为我亮
只剩回忆在风里轻轻晃

[Chorus]
但我还是会记得你笑的模样
像夏天最后一缕阳光
即使时间把一切都偷走
你还在我心底某个角落生长

[Verse 2]
朋友说该学会向前看
新的人会带来新的答案
可有些故事不需要重新翻
只想留在最美的那一段

[Chorus]
但我还是会记得你笑的模样
像夏天最后一缕阳光
即使时间把一切都偷走
你还在我心底某个角落生长

[Bridge]
也许某一天我也能微笑着说
谢谢你曾经路过

[Final Chorus]
(情绪饱满,加入弦乐和和声)
我还是会记得你笑的模样
像夏天最后一缕阳光
即使时间把一切都偷走
你永远在我心底某个角落生长

[Outro]
(吉他指弹收束,逐渐淡出)

***此处插入音频:Gemini-260517-158.mp3

方式三:标签 + 时间戳

[0:00 - 0:30] [Section Name] 格式同时指定段落类型和具体时间。这是为视频卡点、广告精确收尾等场景设计的最高精度用法。

创建一首 90 秒的电影感流行曲,120 BPM。

[0:00 - 0:10] [Intro]
钢琴独奏铺底,氛围 pad 缓慢渐入,建立期待感。

[0:10 - 0:30] [Verse 1]
鼓机轻拍加入,男声主唱开始低吟叙事,
配合稀疏的电吉他和弦。

[0:30 - 0:50] [Chorus]
全编制爆发:弦乐组、强劲鼓点、合成器主音齐奏,
男声进入情感高音区。

[0:50 - 1:10] [Verse 2]
能量回落,但比第一段更丰富一层(加入女声和声)。

[1:10 - 1:25] [Final Chorus]
情绪顶点,所有元素齐奏,叠加儿童合唱团和声。

[1:25 - 1:30] [Outro]
干净停止在一个钢琴和弦上,留有余韵。

***此处插入音频:Gemini-260517-159.mp3

专业用法

把段落长度用"小节数"(bar count)而不是秒数表达,模型响应会更加准确。因为音乐本来就是按小节组织的,秒数会被四舍五入到最近的乐句边界。

BPM 120,Lo-fi 嘻哈,C 小调。

结构:
[Intro] 8 bars
[Verse 1] 16 bars
[Chorus] 16 bars
[Verse 2] 16 bars
[Chorus] 16 bars
[Bridge] 8 bars
[Final Chorus] 16 bars
[Outro] 8 bars

小节数换算参考:

公式:小节秒数 = (60 / BPM) × 4(4/4 拍)

BPM4 小节8 小节16 小节
8012 秒24 秒48 秒
1009.6 秒19.2 秒38.4 秒
1208 秒16 秒32 秒
1406.9 秒13.7 秒27.4 秒

评论

0
还没有评论,来写第一条吧