△各模型整体得分和 Ranking 图
近两年,AI 模型的文生视频模型发展迅猛,从文字到动态影像,多模态文生视频大模型正以“魔法”般的速度重塑内容创作边界——只需输入一段描述,多模态文生视频大模型就能生成画面细腻、动作连贯的短视频。那么面对各类顶尖模型,究竟哪款模型最懂文字细节,哪款生成的视频更流畅,能在“文字变电影”的赛道上技高一筹?
为解答这些关键问题,AGI-Eval社区选取全球主流的 Vidu Q1、可灵 2.0、PixVerse V4、Video-01(海螺 AI )、Dreamina 3.0、Pika 2.2、Dreamina S2.0 Pro、可灵 2.1、Seedance 1.0 及海螺 02 等十款多模态文生视频大模型,围绕“文生一致性”“视频画质”“动态表现力”三大核心维度展开实测,从创意还原度到视觉震撼力,再到动态的真实感,进行了一场全方位的“大比武”。
评测结果显示,国产 AI 模型 Seedance 1.0 、可灵 2.0 领跑,海外 AI 模型 Pika2.2 则排名垫底。
下面就一起查看文生视频模型的评测维度与规则以及这些模型的详细评测表现吧!
01. 评测结果明细
评估内容主要为视频文本一致性、视频质量、运动质量,视觉质量倾向于判断视频运动的合理性(与物理客观世界对比);运动质量倾向于评估视频当前动起来的效果质量。
本次文生视频评测为人工评测形式,整体量级 500 条,覆盖 40+ 能力项,新增数据中融合了约 60 条应用场景相关的数据、增加动作生成,物理世界的真实模拟数据比例,减少字符相关数据。
1.1 评测综合榜单
为了得到符合用户主观感受的评估结果,评测社区对各模型在人工评测黑盒数据上进行了 5 档 MOS 分的人工评测(打分范围 1-5 分),各模型得分结果如下:
- 在视频文本一致性维度:海螺 02、Dreamina 3.0 依次领先其他模型,但与Seedance 1.0、可灵 2.0 二者差距较小。可灵 2.1 在视频文本一致性维度不及可灵 2.0 。
- 在视频质量维度:不同文生视频模型视频质量表现有明显差异。可灵2.0 视频质量得分排名第一 ,Seedance 1.0、可灵2.1处于同一水平,Pika 2.2 明显掉队。
- 在运动质量维度:运动质量不同模型呈现更大分差,头部模型(可灵2.1、海螺02、可灵2.0、Seedance 1.0)表现均在 3.8 分以上。Wanx 2.1 plus 作为开源模型在运动质量上表现出了超部分闭源模型的水平,在运动连贯性、真实感上有较好的表现。

1.2 评测能力项榜单
文生视频人工评测对动作生成、物理世界真实模拟等能力项进行了详细评测,评测结果显示:
- Seedance 1.0 在大部分能力项子维度展现明显优势,尤其在动作生成、人像生成、风格生成细分维度全面领先,但在物理世界真实模拟方面稍显不足,且在文字和符号生成维度与海螺 02 存在较大差距。
- 海螺 02 模型在常识知识、文字和符号生成维度领先。
- 可灵 2.0 在物理世界的真实模拟维度表现出色,在文字和符号生成、风格生成上略有不足。

02. 评测案例
决定文生视频成败有三大核心维度:生成内容与提示的“一致性”(是否精准还原想象)、“视频质量”(画面清晰度、细节、美观度)以及“运动质量”(动作是否自然流畅、符合物理规律)。让我们通过具体 Prompt 实测,直观感受各模型在想象还原、画面细节与动作流畅性上的真实表现差异。
2.1 视频文本一致性实测
Prompt:动漫风格,暖色调画面,固定镜头 ,一个小男孩坐在一张木质桌子面前,桌子上放着 6 个苹果,小男孩的头顶上浮现数字“ 6 ”,接着他将一颗苹果往前一推,苹果匀速滚动,随后消失在画面之外,这时候小男孩头顶上的数字变成了“ 6-1 ”的计算结果。
生成效果:Seedance1.0>海螺02>可灵2.0
Seedance1.0:视频与文本不具备一致性,虽满足了“桌子上放着 6 个苹果”的要求,但推动苹果后桌面上的苹果数量不是 5 个。小男孩头顶的字符一定程度上满足了从“ 6 ”到“ 5 ”的要求。
海螺02:视频与文本具备一定的一致性,小男孩头顶的字符满足了从“ 6 ”到“ 5 ”的要求,但桌子上的苹果不是 6 个,推动后桌面上的苹果数量也不是 5 个。
可灵2.0:视频与文本不具备一致性,视频中桌子上只有四个苹果,不满足“桌子上放着 6 个苹果”的要求,小男孩头顶的字符也不满足文本要求。苹果的运动形态不符合客观现实。
本项测试揭示了各模型在处理精确数值和事件逻辑关联上的共同挑战。海螺 02 在数字逻辑还原上表现最优,成功实现了从“ 6 ”到“ 5 ”的计算结果,但初始物品数量(苹果)未能完全符合文本要求。Seedance 1.0 则在初始视觉元素( 6 个苹果)的呈现上更准确,但在后续的数字变化和推动苹果后的数量保持上仍有不足。可灵 2.0 在此项表现最差,不仅在数量和数字还原上偏差明显,生成的苹果运动形态也缺乏真实感。这表明当前模型在结合精确数据与动态逻辑时仍存在瓶颈。
2.2 视频质量维度
Prompt:3D 动漫风格,俯拍视角,晚上,黑暗的房间内一个小男孩正坐在电脑面前点击着鼠标,屏幕上显示经典的扫雷游戏,发光的屏幕是整个房间唯一的光源,突然他妈妈推门而入,吓得小男孩从椅子上摔坐到地上。
生成效果:可灵2.1>Seedance 1.0 >可灵 2.0 >Dreamina S2.0 Pro
可灵 2.1:整体视频质量较高,完成了“ 3D 动漫风格,俯拍视角、唯一光源、扫雷游戏”等细节,也实现了“妈妈推门而入,所以小男孩摔倒”情节关联,“摔倒”动作也较为自然。
可灵 2.0:“妈妈推门而入,所以小男孩摔倒”的情节关联没有实现,只是按照要求生成了实体、动作。在“摔倒”这个动作上体现得生硬,基本的运动轨迹和形态不太符合现实逻辑。 Prompt 中要求的“ 3D 动漫风格,俯拍视角、唯一光源”均未实现。
Dreamina S2.0 Pro:对于“扫雷游戏”体现比较好,但“唯一光源、妈妈推门而入、小男孩摔倒”的情节和动作未能体现,人物出现了严重的畸形,视频质量较低。
Seedance 1.0:视频顺序为“小男孩摔倒后爸爸推门而入”,“妈妈推门而入,所以小男孩摔倒”的情节关联没有实现。未体现 Prompt 中要求的“唯一光源、妈妈推门而入”,但体现了“俯拍视角、扫雷游戏”。
此维度是模型对复杂叙事、细节渲染及情节关联的综合考验。可灵 2.1 表现突出,不仅精准还原了多项视觉细节( 3D 动漫、俯拍、唯一光源),更难得地实现了“妈妈推门导致摔倒”的情节因果关联,动作自然流畅。相比之下,Seedance 1.0 和可灵 2.0 均未能准确理解并呈现这一因果关系,生成的动作或场景逻辑存在偏差,且可灵 2.0 在视觉细节还原上也有明显不足。 Dreamina S2.0 Pro 尽管展现了部分细节,但人物出现严重畸形,整体视频质量较低。这揭示了模型在深层语义理解和高质量视觉输出上的显著能力差异。
2.3 运动质量维度
Prompt:黑白风格,一只豹猫从地面跳到一旁的枯树上,然后静静地注视着镜头,枯树旁有一块画着红色感叹号标牌,中景画面。
生成效果:Seedance1.0>PixVerse V4>Pika2.2
Seedance1.0:满足了“黑白风格、红色感叹号标牌”的要求,豹猫的整体运动灵动真实。
PixVerse V4:生成豹猫的后退有轻微的运动不连贯,整体运动较灵动真实,运动质量较高。
Pika2.2:满足了“黑白风格、红色感叹号标牌”的要求,但豹猫的运动质量较低,出现了严重的畸形。
运动质量是文生视频的核心竞争力,此轮评测直观展现了模型在模拟物体自然动态方面的能力。Seedance 1.0 在此维度表现最佳,生成豹猫动作灵动真实,精准满足 Prompt 要求,展现出卓越的动态表现力。 PixVerse V4 紧随其后,整体运动流畅度较高,仅在局部存在轻微不连贯。而 Pika2.2 则表现垫底,豹猫运动质量极低并伴随严重畸形,反映其在复杂动物动态模拟上的明显短板。这凸显了不同模型在处理非人主体动作上的技术鸿沟。
小结
当前顶尖文生视频模型已能驾驭“跳绳熊猫”、“篮球弹跳”这类文生视频要求,在细节雕琢与运动美学上不断突破。然而,“妈妈推门惊坐起”的情节连贯性不足、“数字苹果”的计算符号变形、“深海城堡”材质特征模糊等案例,也清晰地揭示了当前技术仍需在复杂叙事逻辑、精确符号表达、材质细节呈现及高度拟真的物理运动方面发展。
03. 总结和展望
本次对多模态文生视频大模型的深度评测,清晰勾勒出当前技术版图的领先阵营与发展梯度。以 Seedance 1.0、可灵 2.0 和海螺 02 为代表的国产模型展现出强劲势头,共同站稳第一梯队,标志着文生视频技术在文本一致性、画质与运动表现力上取得了显著突破。然而,评测案例亦揭示了现有模型在处理复杂叙事逻辑、精确符号表达、材质细节呈现以及高度拟真物理运动方面的不足,例如对因果关系的理解、计算的准确性与人物动作的自然度仍需打磨。这预示着,从“文字”到“电影”的跃迁,不仅仅是技术参数的竞赛,更是对 AI 理解人类意图、还原复杂场景、甚至模拟真实世界的深层次挑战。未来,随着模型的不断迭代与优化,我们有望见证更为智能、更具创造力,能真正实现“想你所想,创你所见”的 AI 电影制作新时代。