4. 语音体验中心


「语音体验中心」是阶跃星辰专为语音交互场景打造的综合功能区,集成了语音通话、语音识别、语音合成等多种语音相关能力。点击主界面输入框下方的「语音体验中心」入口即可进入能够满足日常沟通、内容创作、学习辅助等多元需求。

进入后,左侧边栏提供五大子功能入口:语音合成、语音复刻、语音推理、声音编辑、语音对话。

语音合成

语音合成支持将文字内容转换为自然流畅的音频文件。

支持的语言:普通话、四川话俚语、粤语俚语、英文、日文

右侧控制面板说明

  • 模型:默认使用 step-tts-2,阶跃星辰自研语音合成模型
  • 格式:输出音频格式,默认 mp3
  • 音色:可选择系统音色或自定义克隆音色,内置多种风格(如「气质温婉」「沉稳男声」等)
  • 音色调节:默认「自动」,可手动调整语速、语调等参数

适用场景示例

输入文本:
"亲爱的旅客朋友们,欢迎乘坐本次列车,
 请注意保管好随身携带的物品,祝您旅途愉快。"

配置:系统音色 > 气质温婉,格式 mp3
→ 生成一段播报风格的标准普通话音频

输出结果如下:

***此处插入音频yyhc-jyxc.mp3

💡 提示:语音合成每天有50次免费额度。

语音复刻

「语音复刻」支持录制用户的声音样本,AI 会学习声音特征,生成一个专属的克隆音色。

克隆完成后,该音色会出现在语音合成的音色选择列表中,可以直接用于后续的文字转语音任务——让 AI 用你自己的声音来朗读内容。

适用场景:个人播客配音、视频博主批量配音、个性化语音提醒等。

💡 提示:复刻的声音最多能保存5个。

语音推理

「语音推理」支持直接输入语音或上传音频文件,让 AI 对语音内容进行理解和推理分析。相较于普通语音识别(只做转写),语音推理会在理解语音内容的基础上进一步给出分析、判断或回答。

适用场景示例

语音输入:
"一列火车从 A 城出发,时速 120 公里,
 另一列从 B 城出发,时速 80 公里,
 两城相距 600 公里,问几小时后相遇?"

→ AI 理解题意后直接给出解题步骤和答案,无需手动打字

输出结果如下:

💡 提示:语音推理每天有50次试用次数,上传和录制的音频需小于240秒。

声音编辑

「声音编辑」提供对已生成或上传音频的二次加工能力,支持调整情绪、风格、速度,以及添加副语言效果。

操作流程

点击添加音频。

image-20260409153307660

上传或录制音频。

image-20260409153711360

点击左下角选择参数,共有三个分类可以选择,情绪、风格、速度控制。(一次只能选择一个分类,需要等编辑完成后才能选择另一个分类),选择完成后点击「编辑新音频」。

image-20260409153726207

编辑完成后可以再次点击选择参数再次编辑。

image-20260409153743292

用户还可以点击左下角「副语言」按钮为音频添加副语言。

image-20260409154455995

选择好要添加副语言的位置。

image-20260409153828205

点击左下角「副语言」选择副语言的类型。

image-20260409154514808

选择后即可在选择的位置添加上副语言。

image-20260409154544500

编辑完成后可以点击「下载」按钮即可下载。

原始音频

***此处插入音频ysyp-jyxc.mp3

添加情绪

***此处插入音频qx-jyxc.mp3

添加副语言

***此处插入音频fyy-jyxc.mp3

💡 提示:声音编辑每天有20次编辑次数,且上传和录制的音频需小于30秒。

语音对话

「语音对话」支持与 AI 进行连续的多轮语音交互——你说话,AI 听懂后以语音回答,整个过程无需打字。

两种通话方式

  • 语音输入:点击语音输入开始非实时按轮次语音对话
  • 实时对话:点击实时对话开始实时语音对话,对话过程中不可调整参数设置

使用方法

在右边设置好参数以及是否联网,选择语音输入或者实时对话即可与 AI 进行对话。

对话界面。

适用场景

  • 双手不方便操作时(驾车、做饭、运动)
  • 希望以更自然的口语方式和 AI 交流
  • 语言学习练习,模拟真实对话场景
  • 通勤路上快速学习新知识

使用建议

  • 在安静环境下使用,语音识别准确率更高
  • 说话语速适中,避免过长的无停顿单句
  • 若识别结果有误,可手动修正后继续对话