8. 对口型


对口型功能能够驱动角色的嘴部动作与音频内容同步,让静态的人物角色"开口说话或唱歌",是制作数字人口播视频的核心工具。

功能介绍

对口型(Lip Sync)技术通过分析音频的节奏、发音特征,驱动视频中人物的嘴型、面部表情和头部动作产生自然的同步变化。支持传入任意语言的人声音频,适用于配音配乐、短视频口播、数字人播报等多种场景。

万相的对口型功能不限制角色类型,可以驱动真实人物、卡通形象、动漫角色甚至宠物。

使用方法

image-20260402160553592

在主页输入框左侧选择「数字人」。

image-20260402160604558

在下拉菜单中选择「对口型」。

image-20260402160817665

点击「+ 角色」,从资产库选择或上传要驱动的角色图片。

image-20260402160914932

点击「+ 音频」,上传音频文件,或选择输入文本生成音频。

image-20260402161054454

右上角确认分辨率设置(720P),点击「生成」。

生成效果展示。

注意事项

  • 音频质量影响效果:清晰、无噪音的人声音频效果最佳;背景音乐过重可能影响口型精度
  • 角色正面照更稳定:正脸角度的角色照片还原度最高,侧脸可能出现偏差
  • 控制单次音频时长:建议单段音频在 30 秒以内,过长的音频可分段生成后拼接

示例

示例一

角色:@优雅女
音频:一段普通话新闻播报
描述:角色坐在新闻播报台前,穿着正式,神情专注,语速平稳地播报新闻。

示例二

角色:上传的宠物猫照片
音频:一段搞笑配音
描述:猫咪好像在认真发表讲话,表情夸张,眼神专注。

示例三

角色:@Ewan
音频:一首英文流行歌曲片段
描述:角色在舞台灯光下演唱,神情投入,偶尔闭眼感受音乐,氛围感十足。

示例四

角色:卡通风格的虚拟主播角色
音频:产品介绍讲解音频
描述:虚拟主播在画面中对着镜头讲解,偶尔配合手势,背景为简洁品牌背景板。

示例五

角色:古装人物图片
音频:一段古诗词朗诵
描述:古装角色端坐于书案前,悠然吟诵,书香气息浓厚,烛光摇曳。