4. 语音与音乐生成（Text to Speech and Music）

功能介绍

Google AI Studio 提供了语音合成（TTS）和音乐生成两大音频能力。语音方面由 Gemini 2.5 Pro Preview TTS 模型驱动，支持高自然度的文本转语音；音乐方面由 Lyria 3 系列模型驱动，可以根据文字描述生成完整的音乐作品。

当前可用模型：

模型名称	状态	说明
Lyria 3 Pro Preview	付费	全曲生成模型，深度作曲理解，支持复杂音乐结构和多风格过渡
Lyria 3 Clip Preview	付费	低延迟音乐片段生成，高保真音质和精确节奏控制
Gemini 2.5 Pro Preview TTS	免费	强大的文本转语音模型，低延迟，自然输出，支持通过提示词控制风格

开启方式

在 Playground 主页点击「Text to Speech and Music（语音与音乐）」卡片

从模型列表中选择目标模型后即可开始对话。

语音模型使用方法

界面右边角提供两种音频模式切换：

「Single-speaker audio（单人语音）」：适合朗读、旁白等单一角色场景
「Multi-speaker audio（多人语音）」：适合对话、播客、有声剧等多角色场景

多人语音模式（Multi-speaker audio）的详细配置：

主界面

界面分为左右两栏。左侧「Raw structure（原始结构）」展示 API 请求的原始文本格式。

右侧「Script builder（脚本构建器）」提供可视化编辑界,拥有以下选项:

「Style instructions（风格指令）」：文本框，输入整体朗读风格（如 "Read aloud in a warm, welcoming tone"）
「Speaker 1（说话人 1）」/ 「Speaker 2（说话人 2）」等角色标签：点击可编辑该角色的台词
「 Add dialog（添加对话）」：点击可添加更多对话轮次

底部快捷模板按钮：

「Podcast transcript（播客文稿）」：预设播客对话格式
「Movie scene script（电影场景脚本）」：预设影视对话格式
「Audio voice assistant（语音助手）」：预设语音助手对话格式

右侧设置面板

「Temperature (温度)」：通过滑块控制输出结果的随机性与创造力水平。
「Name (名称)」：为发言人自定义一个在文稿中显示的识别名称。
「Voice (语音)」：从下拉列表中选择具体的音色模型（如 Zephyr 或 Puck）。

生成对话

设置好参数后，输入对话的内容即可开始生成。

生成效果展示。

音乐模型使用方法

在中央输入框中用文字描述你想要的音乐风格或情绪即可生成音乐，也可以直接点击下方的“快速启动模板”体验预设流派。

核心能力

语音合成（TTS）：

将文本转换为自然流畅的语音
支持多种语言和口音
可通过提示词控制语速、情绪和朗读风格
适用于有声读物、播客、视频配音等场景

音乐生成：

根据文字描述生成原创音乐
支持多种音乐风格和流派
Lyria 3 Pro 支持全曲结构（前奏、主歌、副歌、桥段等）
Lyria 3 Clip 适合快速生成短音乐片段

使用技巧

语音生成时，在提示词中描述期望的语气和风格效果更好
音乐生成建议指定风格、乐器、节奏和情绪
可以先用 Lyria 3 Clip 快速试听效果，满意后用 Lyria 3 Pro 生成完整曲目
在描述中加入具体的音乐术语（如 BPM、调式）可以获得更精确的控制

音乐风格参考

风格类别	常用描述词
流行	流行、朗朗上口、电子流行、合成器流行
摇滚	摇滚、硬摇滚、另类摇滚、独立摇滚
电子	EDM、House、Techno、Ambient、Lo-Fi
古典	交响乐、钢琴独奏、弦乐四重奏、管弦乐
爵士	爵士、布鲁斯、Swing、Bossa Nova
影视	电影配乐、史诗感、悬疑、温馨

示例

示例一：文本转语音

请用温暖、富有感染力的男声朗读以下内容，语速适中，在关键句处稍作停顿：

"每一个清晨，当阳光穿过窗帘的缝隙，新的一天便悄然开始。不必急于赶路，给自己一杯咖啡的时间，用心感受生活的美好。"

示例二：背景音乐生成

生成一段30秒的Lo-Fi风格背景音乐。要求：慵懒的节奏，BPM 75左右，带有轻柔的钢琴和采样鼓点。适合作为学习或工作时的背景音乐。温暖、放松的氛围。

示例三：电影配乐

创作一段史诗感的管弦乐配乐，适合奇幻电影中英雄出征的场景。从缓慢庄重的铜管开始，逐渐加入弦乐和定音鼓，在高潮处全乐团齐奏。壮观、激昂、充满希望。

示例四：流行歌曲

创作一首轻快的夏日流行歌曲。主歌用吉他和贝斯打底，副歌加入合成器和明亮的鼓点。整体风格类似日系City Pop，明快、怀旧、带有80年代的感觉。BPM 115。

示例五：播客节目开场

生成一段15秒的播客节目开场音乐。风格：现代、简洁、科技感。使用电子合成器音色，轻快有力的节奏，适合一档科技资讯类播客。在结尾处自然收束。

0 条

登录后可以参与评论。

还没有评论，来写第一条吧

#4. 语音与音乐生成（Text to Speech and Music）

#功能介绍

#开启方式

#语音模型使用方法

#音乐模型使用方法

#核心能力

#使用技巧

#音乐风格参考

#示例

评论