1. 视频生成


视频生成是通义万相最核心的功能,支持「文生视频」和「图生视频」两种模式,可以将用户的文字描述或一张静态图片转化为流畅的动态视频。

功能介绍

通义万相的视频生成基于万相大模型,能够理解复杂的场景语义和动作描述,生成具有连贯运动和合理物理规律的视频内容。支持 720P 和 1080P 分辨率,时长可选 5 秒、10 秒或 15 秒(部分需会员权限),支持 16:9、9:16(竖版)、1:1 等多种画面比例。

万相 2.6 及以上版本还支持原生音频生成,可以为视频自动配音,也可以传入自定义音频文件实现声画同步。

使用方法

文生视频

image-20260402143647729

在主页输入框顶部选择「生成」模式。

image-20260402144013613

在输入框中输入详细的视频场景描述,还可以点即右下角智能扩写让AI帮助扩写描述。

image-20260402144424939

image-20260402144443162

如果不知道专业的视频术语,可以点击右下角「咒语书」,选择预设的视频术语。

image-20260402144215718

右上角选择模型版本、分辨率、画面比例和时长。以及是否启用提示词优化和灵感值生成。关闭灵感值生成后,生成视频的时间会较长。

image-20260402144705138

还可以点击右下角选择开启「智能运镜」,可以拥有更好的叙事表达效果。然后点击「生成」按钮,等待生成完成。

生成效果展示。

图生视频

image-20260402145022601

在输入左下角点击「+ 图像」按钮,上传一张参考图片。

image-20260402145556108

在输入框中描述希望图片"动起来"的方式(可选)。

image-20260402145627236

还可以上传结束帧图片和音频更精确,控制视频起止画面。然后点击「生成」按钮,等待生成完成。

生成效果展示。

使用技巧

  • 分辨率先用 720P 测试:生成满意后再使用 1080P,节省灵感值
  • 善用首尾帧:如果用户有明确的起点和终点画面,使用首尾帧模式能让视频更可控
  • 多次生成取最佳:AI 生成有随机性,同一提示词多试几次,通常能找到更满意的结果
  • 图生视频更稳定:相比文生视频,图生视频对画面主体的还原度更高,适合有明确视觉参考的创作
  • 关闭灵感模式:如果想严格按照提示词生成,建议关闭灵感模式

示例

示例一

一只橙色的猫咪坐在日式枯山水庭院的石头上,阳光透过竹叶洒落,猫咪慵懒地闭上眼睛打了个哈欠,尾巴轻轻摆动,远处有鸟鸣声,画面宁静温柔。

示例二

浩瀚星云中,一艘银色飞船从画面左侧缓缓驶入,引擎喷出蓝色火焰,穿越旋转的星云彩带,最终消失在远处的星系之中。镜头跟随飞船推进。史诗感配乐。

示例三

城市夜晚的繁华街道,霓虹灯倒映在雨后的地面上,一位身穿黄色雨衣的女孩撑着透明雨伞穿行其中,慢动作,电影感光影,暖色调。

示例四

上传两张图片:
首帧图片:一扇紧闭的木门,门前台阶落满秋叶,色调昏暗。
尾帧图片:同一扇木门敞开,门内透出温暖灯光,地面秋叶已被清扫。
描述:木门缓缓自动开启,门缝中透出的暖光逐渐扩散,落叶随门开的气流轻轻卷起。

示例五

首帧图片:城市街头,一棵树枝光秃秃的梧桐树,树下行人裹着厚重冬装匆匆而过。
尾帧图片:同一棵梧桐树,枝头绿叶茂盛,树下行人换上了轻薄夏装悠闲漫步。
描述:镜头固定不动,梧桐树枝条上嫩芽破出,绿叶逐渐生长铺满枝头,街道上行人服装由厚变薄,季节流转。