5. 语音


功能介绍

海螺AI的语音创作功能由 MiniMax Audio 提供技术支持,集成了 MiniMax Speech 2.8-hd 高清语音合成模型与 Music-2.5+ 音乐创作模型。整个语音模块分为两大板块:AI生成(语音合成、音乐创作)和AI工具(音色设计、声音克隆、人声提取),五大功能覆盖从内容创作到音频处理的完整链路。

语音合成(AI生成)

将文字输入后,选择喜欢的音色,一键生成高质量语音。支持在文字中插入「情绪标签」(如[开心]、[悲伤]、[惊讶])、「停顿标签」(如<#1.0#>表示停顿1秒)和「语气词标签」(如[嗯]、[哦]),实现对语音情感和节奏的精细控制。

音乐创作(AI生成)

输入歌词和音乐风格描述,AI即可生成完整的AI原创歌曲;也可选择「纯音乐」模式,根据风格描述生成无人声背景音乐,适用于视频配乐、短视频BGM等场景。

音色设计(AI工具)

通过文字描述来"定制"一个专属音色,例如"讲述悬疑故事的播音员,声音低沉富有磁性,语速时快时慢,营造紧张神秘的氛围",系统会据此生成专属音色并可保存至音色库供后续使用。

声音克隆(AI工具)

朗读一段指定文字,即可完整克隆你自己的声音,并将其用于后续文字转语音任务。开始录音即表示你已取得声音授权。克隆完成的音色可在「音色库 → 我的音色」中使用。

人声提取(AI工具)

上传含有环境噪音或背景音乐的音频/视频文件,AI会自动去除环境音和背景噪声,提取并增强原始人声的清晰度与纯净度。支持最大500MB、时长不超过300秒的文件。

💡提示:使用语音功能需要登录MiniMax语音账号。

语音合成

image-20260403163606363

点击左侧边栏「音频」,或直接访问 MiniMax Audio。

image-20260403165452687

点击左侧「语音合成」,在文本输入区输入需要合成的文字(最多5000字符,开启「长文模式」后支持更多,但等到时间更久)。

image-20260403165654084

还可以点击下方的「停顿」和「语气词」按钮,在光标的位置添加停顿时间和语气词。

image-20260403165854166

框选文本后还可以设置朗读文字的情感。

image-20260403171009702

右侧边栏可以设置音色、语速、声调、音量。用户可以自行搭配。最后选择模型,设置成完成后点击「生成音频」即可。

生成效果展示。

使用技巧

  • 长文稿建议分段合成:将长文按自然段或情绪转折点切分,每段单独生成后在剪辑软件中拼接,这样可以对每段单独调整音色和语速,整体效果更自然。
  • 情绪标签嵌入技巧:在对话或旁白中插入情绪标签时,建议将标签紧贴对应文字,如「他激动地喊道[激动]:我终于做到了!」比放在句首效果更精准。
  • 利用停顿标签控制节奏:在新闻播报、广告配音场景中,用<#0.5#>(半秒停顿)隔开不同语句,可以让语音听起来更从容专业,避免语速过快连成一片。
  • 同一段文字尝试多个音色:不同音色对同一段文字的诠释差异很大,建议先用2-3个候选音色各生成一次,对比后再决定最终方案。
  • 语速和声调微调:语速调至0.85-0.95之间通常比默认1.0更具亲切感,适合情感类内容;新闻、解说类内容可保持1.0或调至1.05,显得干练利落。

示例一

场景:为短视频制作情感旁白配音
文本内容:那一年夏天<#0.8#>,阳光还很好[平静]。
她坐在海边<#0.5#>,看着远处的帆船发呆。
没有人知道她在想什么[若有所思],但所有人都看出来了<#0.3#>——她在想一个人。
音色选择:温柔女声(如"温柔小姐姐")
语速设置:0.9,声调略降

示例二

场景:企业宣传片解说词配音
文本内容:[沉稳]2024年,我们交出了一份令人骄傲的成绩单。<#1.0#>
营收同比增长37%<#0.5#>,用户规模突破一千万大关。<#0.8#>
这背后,是每一位团队成员不懈努力的结果。
音色选择:沉稳高管(低沉厚实、磁性十足)
语速设置:0.95,音量适当提高

音乐创作

image-20260403170759515

点击左侧「音乐创作」进入创作界面,填写歌曲名(可选填),完整歌词(最多3500字符)和音乐风格。

image-20260403170812869

如果不想写歌词,点击「纯音乐」按钮即可。

image-20260403171045489

设置生成数量后,选择创作模型。点击「创作」按钮即可。

生成效果展示。

使用技巧

  • 风格描述越具体,效果越好:不要只写"流行音乐",而是写"抒情流行,女声,钢琴+弦乐编曲,节拍偏慢,适合睡前聆听",这样AI对风格的把握会更准确。
  • 纯音乐模式适合视频配乐:如果需要视频BGM,选择「纯音乐」模式并描述画面的情绪和节奏,例如"轻快活泼的背景音乐,适合美食探店视频,有清脆的吉他和手鼓节奏"。
  • 同一歌词生成多次:同一套歌词每次生成的旋律都不同,建议设置生成数量为2-4首,从中挑选最满意的旋律版本。
  • 歌词分节技巧:歌词中用空行分隔主歌、副歌和过渡段,有助于AI理解歌曲结构,生成的音乐段落感会更清晰。

示例一

场景:为短视频生成抒情BGM
模式:纯音乐
风格描述:轻柔治愈的钢琴曲,带有轻微的弦乐点缀,节奏舒缓,适合记录日常生活的Vlog,有一种温暖的午后感
生成数量:4首(从中挑选最满意的)

示例二

场景:创作一首完整的流行歌曲
歌曲名:《路过的风》
歌词片段:
(主歌)
路过的风,带走了你的名字
窗外的树,还是那年的样子
...
(副歌)
我在原地,等你回头看一眼
那些说好的将来,成了烟
风格描述:华语流行,男声,吉他+钢琴为主,情绪是淡淡的忧伤与释然

音色设计

image-20260403171605810

点击左侧「音色设计」进入设计页面。

image-20260403171741770

描述想要的音色或选择下方预设的模板。然后点击「自动生成」。

image-20260403171959529

自动生成完成后在「试听文本」输入框会生成一段试听文本,点击下方「生成」即可试听。

image-20260403172126738

选择满意的音色,点击「确认选择」。

image-20260403172211712

设置音色的名称,性别,和语言。点击「保存音色」即可。

image-20260403172257430

保存好的音色可在「音色库」>「我的音色」中找到。

使用技巧

  • 音色描述要包含声音特征、说话风格和使用场景三个维度,这样设计出的音色与预期最接近。例如:「一位30岁左右的男性,声音低沉且有磁性,说话沉稳不急促,适合商业纪录片解说」。
  • 多次生成对比:点击「自动生成」可以生成多个版本的音色描述,再逐一试听,从中选择最贴合需求的版本。
  • 保存命名规范:建议给自定义音色起一个有意义的名字(如"悬疑男声-低沉版"、"活泼女声-清脆版"),方便后续创作时快速找到对应音色。
  • 设计好的音色可直接用于「语音合成」:保存后的自定义音色会出现在语音合成的音色列表中,可直接调用,实现专属声音批量输出。

示例一

音色描述:一位40岁左右的男性,声音厚重而低沉,语气严肃且权威,略带沧桑感,适合历史纪录片的旁白解说,让人感觉岁月的积淀
适用场景:历史、军事类纪录片解说

示例二

音色描述:一位25岁左右的活力女孩,声音清脆明亮,语速偏快,充满热情和感染力,像在和好朋友分享一件超级有趣的事情,适合美妆、美食探店类短视频
适用场景:生活方式类短视频配音

声音克隆

image-20260403172408288

点击左侧边栏「声音克隆」进入页面。

image-20260403172434616

选择朗读场景,系统会提供对应的朗读文本。

image-20260403172544634

点击录音按钮开始朗读(建议在安静环境下进行)。

image-20260403172657298

录制完成后,在下方选择试听的语言和文本,点击右下角「生成」。

image-20260403172821161

生成完成后点击播放键即可试听克隆的音色。没问题后点击右下角确认即可保存。

使用技巧

  • 录音环境至关重要:选择安静的室内环境,关闭风扇、空调等噪音源,距离麦克风15-20cm正面朗读,效果最佳。录音时避免手机通知干扰,建议开启勿扰模式。
  • 朗读时保持自然状态:不要刻意表演或"播音腔",用日常说话的节奏和语调朗读指定文本,这样克隆出的音色在后续合成时会更加自然。
  • 录制多个场景版本:平台提供多种朗读场景(如"新闻播报"、"情感旁白"等),建议选择与自己实际使用场景最接近的,克隆效果会更对口。
  • 克隆后先用短文测试:保存克隆音色后,先用一段简短的测试文字生成音频,听一听效果,确认与本人声音的相似度后再大量使用。

示例一

场景:内容创作者克隆自己的声音用于大量视频解说配音
操作步骤:
1. 选择"新闻资讯"场景朗读文本(共约200字)
2. 在安静的录音棚或密闭小房间中录制
3. 克隆完成后,用一段视频脚本测试效果
4. 确认满意后,将克隆音色应用于后续所有解说配音任务
优势:一次录音,无限复用,节省大量重复录音时间

示例二

场景:教育博主批量生成课程讲解音频
操作步骤:
1. 用"知识讲解"场景录制克隆样本
2. 将课程文稿分段输入「语音合成」,选择克隆好的自己的音色
3. 批量生成每节课的配音文件,直接在视频剪辑中使用
优势:保持个人声音的一致性,观众接受度更高

人声提取

image-20260403173036182

点击左侧边栏「人声提取」进入页面,点击「上传音频」或「开始录音」,添加需要处理的音频/视频文件。

image-20260403173502651

上传成功后点击「提取人声」。

image-20260403173541969

等待AI处理完成,下载提取后的干净人声文件即可。

使用技巧

  • 支持上传音频或视频文件:既可以上传MP3、WAV等纯音频文件,也可以直接上传含有人声的视频文件(如录制的采访视频),系统会自动处理并提取干净人声。
  • 文件大小和时长限制:单次上传文件最大500MB,时长不超过300秒。若原始文件较长,建议先在剪辑软件中裁切到目标片段再上传处理。
  • 提取后的人声可直接用于声音克隆:如果想克隆某人的声音但没有干净的录音素材,可以先用人声提取功能处理带背景音的视频,再将提取的干净人声用于声音克隆(注意遵守平台规定,仅限处理已获授权的声音)。
  • 适合处理户外采访和会议录音:户外拍摄或会议室录音通常夹杂大量环境噪音,人声提取功能可以有效净化这些素材,让后期配音和字幕工作更顺畅。

示例一

场景:处理户外采访视频,提取干净人声用于视频剪辑
操作步骤:
1. 上传户外采访的视频文件(含风噪、环境音)
2. 点击「提取人声」,等待处理完成(通常约30秒-1分钟)
3. 下载提取后的干净人声WAV文件
4. 在剪辑软件(如剪映、Premiere)中用提取的人声替换原始音轨
预期效果:人声清晰度和纯净度大幅提升,风声、车声等背景噪音消除

示例二

场景:为翻唱/配音项目提取参考人声
操作步骤:
1. 上传原版歌曲或带背景音乐的原声视频
2. 提取出干净的人声轨道,作为翻唱参考
3. 或提取人声后结合「声音克隆」功能,实现个性化声音替换
注意:仅限用于个人学习与参考,商业用途请确认版权授权情况

进阶创作思路

语音功能与平台其他功能结合,可以解锁更多创作可能:

方案一:语音合成 + 视频生成,制作完整配音视频。先在「创作视频」中生成视频片段,再在「语音合成」中根据视频时长和节奏生成配音(注意控制语音时长与视频时长匹配),最后在剪辑软件中合轨,即可得到有画有声的完整短视频。

方案二:音色设计 + 大批量内容生产。如果需要为多个系列视频制作配音,先通过「音色设计」定制一个专属品牌音色,再批量将文稿输入「语音合成」,以这个固定音色生成所有配音文件,有效建立内容的声音品牌识别度。

方案三:人声提取 + 声音克隆,打造个性化声音素材库。如果你有一些录制较早、质量不稳定的历史音频,可以先用「人声提取」清洗音质,再结合「声音克隆」重建更清晰的克隆音色,让旧内容也能焕发新生。