4. 数字人


功能介绍

image-20260331125558868

数字人功能可以让用户上传一张角色图片和一段音频(或直接输入文字),即可生成角色"开口说话"的视频。数字人功能基于 OmniHuman 模型,能够实现嘴部、面部表情和身体动作的自然协调,适用于演讲、对白、短视频口播等场景。

使用方法

image-20260331125645255

上传角色图片(点击「+ 角色」按钮)。

image-20260331125910541

输入说话内容,或点击「上传音频」上传本地录音。然后添加动作描述(可选)。

image-20260331125937600

选择音色和语速(如果使用文字输入方式)。

image-20260331130127085

选择模式,点击发送按钮开始生成。

生成效果展示。

模式对比

模型特点积分消耗
大师模式电影级的表演效果,嘴部和面部非常自然较高
快速模式更低成本,快速生成较低
基础模式仅修改人物口型,适合演讲、对白场景最低

使用技巧

  • 上传的角色图片建议选择正面或微侧面的清晰照片,面部占比适中
  • 大师模式的生成效果最好,但积分消耗也最高,建议先用快速模式预览效果
  • 根据字数的不同,消耗的积分也不同,大约2字/积分(大师模式约3字消耗8积分)
  • 动作描述虽然是可选项,但加上后可以让视频更生动(如"镜头推进""摘下眼镜""对着镜头笑着说")

注意事项

  • 数字人功能支持克隆自己的声音,但需要完成声音采集流程
  • 大师模式仅赠送一次免费试用机会,之后需要消耗积分
  • 基础模式只会修改口型,不会产生额外的面部表情和身体动作

示例一

角色图片:一张正面微笑的职业女性照片
说话内容:大家好,欢迎来到今天的产品发布会,我将为大家介绍我们最新的AI创作工具。
动作描述:镜头推进,对着镜头微笑说话

示例二

角色图片:一张古风人物立绘
说话内容:此去经年,应是良辰好景虚设。便纵有千种风情,更与何人说。
音色:温柔女声

示例三

角色图片:一张卡通IP形象
说话内容:嘿,朋友们!今天给大家分享一个超级实用的小技巧!
动作描述:摘下眼镜,对着镜头笑着说

示例四

角色图片:一张新闻主播风格照片
说话内容:据最新消息,本次科技大会将于明天正式开幕,届时将有超过200家企业参展。
动作描述:正面端庄播报,表情严肃专业

示例五

角色图片:一位穿汉服的古风男子
上传音频:一段本地录制的古文朗诵音频
动作描述:手持折扇,微微低头吟诵