4. 语音与音乐生成(Text to Speech and Music)


功能介绍

Google AI Studio 提供了语音合成(TTS)和音乐生成两大音频能力。语音方面由 Gemini 2.5 Pro Preview TTS 模型驱动,支持高自然度的文本转语音;音乐方面由 Lyria 3 系列模型驱动,可以根据文字描述生成完整的音乐作品。

当前可用模型:

模型名称状态说明
Lyria 3 Pro Preview付费全曲生成模型,深度作曲理解,支持复杂音乐结构和多风格过渡
Lyria 3 Clip Preview付费低延迟音乐片段生成,高保真音质和精确节奏控制
Gemini 2.5 Pro Preview TTS免费强大的文本转语音模型,低延迟,自然输出,支持通过提示词控制风格

开启方式

image-20260330165755722

在 Playground 主页点击「Text to Speech and Music(语音与音乐)」卡片

image-20260330165808959

从模型列表中选择目标模型后即可开始对话。

语音模型使用方法

image-20260330165938067

界面右边角提供两种音频模式切换:

  • 「Single-speaker audio(单人语音)」:适合朗读、旁白等单一角色场景
  • 「Multi-speaker audio(多人语音)」:适合对话、播客、有声剧等多角色场景

多人语音模式(Multi-speaker audio)的详细配置

主界面

image-20260330170744027

界面分为左右两栏。左侧「Raw structure(原始结构)」展示 API 请求的原始文本格式。

image-20260330170815665

右侧「Script builder(脚本构建器)」提供可视化编辑界,拥有以下选项:

  • 「Style instructions(风格指令)」:文本框,输入整体朗读风格(如 "Read aloud in a warm, welcoming tone")
  • 「Speaker 1(说话人 1)」/ 「Speaker 2(说话人 2)」等角色标签:点击可编辑该角色的台词
  • 「 Add dialog(添加对话)」:点击可添加更多对话轮次

底部快捷模板按钮:

  • 「Podcast transcript(播客文稿)」:预设播客对话格式
  • 「Movie scene script(电影场景脚本)」:预设影视对话格式
  • 「Audio voice assistant(语音助手)」:预设语音助手对话格式

右侧设置面板

image-20260330171131887

  • 「Temperature (温度)」:通过滑块控制输出结果的随机性与创造力水平。
  • 「Name (名称)」:为发言人自定义一个在文稿中显示的识别名称。
  • 「Voice (语音)」:从下拉列表中选择具体的音色模型(如 Zephyr 或 Puck)。

生成对话

image-20260330172212836

设置好参数后,输入对话的内容即可开始生成。

生成效果展示。

音乐模型使用方法

image-20260330171248265

在中央输入框中用文字描述你想要的音乐风格或情绪即可生成音乐,也可以直接点击下方的“快速启动模板”体验预设流派。

核心能力

语音合成(TTS)

  • 将文本转换为自然流畅的语音
  • 支持多种语言和口音
  • 可通过提示词控制语速、情绪和朗读风格
  • 适用于有声读物、播客、视频配音等场景

音乐生成

  • 根据文字描述生成原创音乐
  • 支持多种音乐风格和流派
  • Lyria 3 Pro 支持全曲结构(前奏、主歌、副歌、桥段等)
  • Lyria 3 Clip 适合快速生成短音乐片段

使用技巧

  • 语音生成时,在提示词中描述期望的语气和风格效果更好
  • 音乐生成建议指定风格、乐器、节奏和情绪
  • 可以先用 Lyria 3 Clip 快速试听效果,满意后用 Lyria 3 Pro 生成完整曲目
  • 在描述中加入具体的音乐术语(如 BPM、调式)可以获得更精确的控制

音乐风格参考

风格类别常用描述词
流行流行、朗朗上口、电子流行、合成器流行
摇滚摇滚、硬摇滚、另类摇滚、独立摇滚
电子EDM、House、Techno、Ambient、Lo-Fi
古典交响乐、钢琴独奏、弦乐四重奏、管弦乐
爵士爵士、布鲁斯、Swing、Bossa Nova
影视电影配乐、史诗感、悬疑、温馨

示例

示例一:文本转语音

请用温暖、富有感染力的男声朗读以下内容,语速适中,在关键句处稍作停顿:

"每一个清晨,当阳光穿过窗帘的缝隙,新的一天便悄然开始。不必急于赶路,给自己一杯咖啡的时间,用心感受生活的美好。"

示例二:背景音乐生成

生成一段30秒的Lo-Fi风格背景音乐。要求:慵懒的节奏,BPM 75左右,带有轻柔的钢琴和采样鼓点。适合作为学习或工作时的背景音乐。温暖、放松的氛围。

示例三:电影配乐

创作一段史诗感的管弦乐配乐,适合奇幻电影中英雄出征的场景。从缓慢庄重的铜管开始,逐渐加入弦乐和定音鼓,在高潮处全乐团齐奏。壮观、激昂、充满希望。

示例四:流行歌曲

创作一首轻快的夏日流行歌曲。主歌用吉他和贝斯打底,副歌加入合成器和明亮的鼓点。整体风格类似日系City Pop,明快、怀旧、带有80年代的感觉。BPM 115。

示例五:播客节目开场

生成一段15秒的播客节目开场音乐。风格:现代、简洁、科技感。使用电子合成器音色,轻快有力的节奏,适合一档科技资讯类播客。在结尾处自然收束。

评论

0
还没有评论,来写第一条吧