7. 提示词常见误区与解决方案


描述过于模糊

这是最常见的问题。过于简短或笼统的提示词会让模型自行发挥,结果充满不确定性。

❌ "一个人在走路"
✅ "一位穿着深色西装的中年男性,在雨后的东京街头匆匆走过,
   手中撑着一把黑色雨伞,皮鞋踏过水坑溅起微小的水花,
   低角度跟踪镜头,霓虹灯反射在湿润路面上"

描述过于复杂

相反的极端也需要避免。在一个 5 秒的视频中堆砌过多元素和动作,会导致模型无法同时兼顾,最终画面混乱或出现变形。

❌ "一个武士骑着马从山上冲下来,同时挥舞着剑,
   旁边有一群士兵在战斗,天上有龙在飞,
   地上着火,下着大雨,背景是城堡..."

✅ 拆分为多个独立镜头,每个镜头聚焦一个核心动作。

💡 建议:视频提示词中包含 3-5 个核心视觉元素效果最佳,超过 7 个元素就容易导致画面"过载"。

图生视频中重复描述场景

使用图生视频时,图片本身已经提供了场景信息。此时提示词应只描述主体运动,不要再重复描述图中已有的内容。

❌ "在一片绿色草原上,蓝天白云,一只小狗在草地上"(重复描述图片场景)
✅ "小狗欢快地向前奔跑,耳朵随风飘动,尾巴摇摆"(只描述动作)

数量描述不精确

可灵 AI 对具体数量的理解有时不够精确,"5棵树"可能变成"3棵"或"7棵"。建议在必须保证数量准确的情况下,使用图生视频模式,先通过图片精确控制构图。

物理运动描述不合理

在描述复杂物理运动(如球体弹跳轨迹、高空抛物等)时,模型可能无法完美模拟。建议用更简洁的动作替代,或添加物理质感词汇来辅助模型理解:

"每一步先脚跟着地,再向前滚动,可以感受到明显的重量转移"
——通过描述具体的物理特征,帮助模型生成更真实的运动效果。