阿里AI视频升级：通义万相2.1登顶VBench

2025年伊始，AI视频生成技术即将迎来重大突破？阿里旗下通义万相视频生成模型今日宣布2.1版本的重大升级。

新发布的模型分为两个版本，即通义万相2.1极速版和专业版。前者强调高效性能，后者则着重于卓越表现力。

据介绍，通义万相此次全面升级了模型整体性能，尤其在处理复杂运动、还原真实物理规律、提升电影质感及优化指令遵循方面取得显著进展，为AI的艺术创作开辟了新天地。

先来欣赏一下视频生成效果，看看能否震撼到你。

以经典的「切牛排」为例，可以看到牛排纹理清晰，表面覆盖一层薄薄油脂，闪烁着光泽，刀锋沿着肌肉纤维缓缓切入，肉质Q弹，细节丰富。![切牛排效果](https://www.qewen.com/wp-content/uploads/2025/01/1736429926-20250109133846-677fd16628532.gif)

再来看一个人物特写生成效果，小女孩的面部表情、手部和肢体动作自然协调，风掠过头发也符合运动规律。![人物特写效果](https://www.qewen.com/wp-content/uploads/2025/01/1736429926-20250109133846-677fd16649e04.gif)

模型实力如何，来看看评测结果。目前，在权威视频生成评测榜单VBench Leaderboard上，升级后的通义万相以总分84.7%的成绩登顶榜首，超越了Gen3、Pika、CausVid等国内外视频生成模型。看来，视频生成竞争格局又将迎来新变化。

即日起，用户即可在通义万相官网使用最新一代模型。同样，开发者也可在阿里云百炼调用大模型API。

官网地址：https://tongyi.aliyun.com/wanxiang/

一手实测：表现力提升，还能玩转特效字体

最近一段时间，视频生成大模型迭代速度很快，新版本的通义万相是否实现了代际提升？我们进行了一番实际测试。

AI视频会写字了

首先，AI生成的视频终于告别了「鬼画符」。此前，市面上主流AI视频生成模型一直无法准确生成中英文，只要是该有文字的地方，就是一堆难以辨认的乱码。如今这一行业难题被通义万相2.1破解了。

它成为了首个具备支持中文文字生成能力、且同时支持中英文文字特效生成的视频生成模型。

现在，用户只需输入简短的文字描述，即可生成具有电影级效果的文字和动画。

比如一只小猫正在电脑前打字，画面依次跳出「不工作就没饭吃」7个大字。![猫咪打字效果](https://www.qewen.com/wp-content/uploads/2025/01/1736429926-20250109133846-677fd1666b87d.png)

再比如从一个橘色的正方体小盒子里跳出英文单词「Synced」。![小盒子跳出单词效果](https://www.qewen.com/wp-content/uploads/2025/01/1736429926-20250109133846-677fd166727e0.png)

无论是生成中文还是英文，通义万相都能搞定，没有错别字，也没出现「鬼画符」。

不仅如此，它还支持多种场景下的字体应用，包括特效字体、海报字体以及真实场景中的字体展示等。

比如在塞纳河畔的埃菲尔铁塔附近，绚烂的烟花在空中绽放，随着镜头拉近，粉色数字「2025」逐渐变大，直到充斥整个画面。![烟花绽放效果](https://www.qewen.com/wp-content/uploads/2025/01/1736429926-20250109133846-677fd16678777.png)

大幅度运动不再「鬼畜」

复杂的人物运动一度是AI视频生成模型的「噩梦」，以往AI生成的视频要么手脚乱飞、大变活人，要么出现「只转身不转头」的诡异动作。![大幅度运动效果](https://www.qewen.com/wp-content/uploads/2025/01/1736429926-20250109133846-677fd1667ef34.gif)

而通义万相通过先进的算法优化和数据训练，能够在多种场景下实现稳定的复杂运动生成，特别是在大幅度肢体运动和精确的肢体旋转方面，上图生成的霹雳舞就很丝滑。

再比如下面这则生成视频中，男子奔跑时动作流畅自然，没有出现左右腿不分或者扭曲变形的问题。而且它还很注重细节，男子每一次脚尖触地都会留下印迹，并微微扬起细沙。![男子奔跑效果](https://www.qewen.com/wp-content/uploads/2025/01/1736429927-20250109133847-677fd1671e5b8.png)

运镜媲美电影大师

大导演斯皮尔伯格曾说过：一场好电影的秘诀就在于镜头语言。为了拍出震撼的电影镜头，摄影师们恨不得上天入地、飞檐走壁。![电影镜头效果](https://www.qewen.com/wp-content/uploads/2025/01/1736429927-20250109133847-677fd16726f2d.png)

不过在这个AI时代，「拍」电影就容易了许多。

我们只需输入一句简单的文本指令，比如镜头左移、镜头拉远、镜头推进等，通义万相就能自动根据视频的主体内容和运镜需求输出合理的视频。

我们输入Prompt：摇滚乐队在前院草坪上演出，随着镜头的推进，画面聚焦到吉他手身上，他身穿皮夹克，一头凌乱的长发随节奏摆动。吉他手的手指在琴弦上快速跳跃，背景中其他乐队成员也在全情投入。![摇滚乐队演出效果](https://www.qewen.com/wp-content/uploads/2025/01/1736429927-20250109133847-677fd167ed79e.png)

通义万相2.1严格遵循了指令。视频一开始，吉他手、鼓手激情演奏，随着摄影机缓慢拉近，背景逐渐模糊，画面放大，突出了吉他手的神态和手部动作。

长文本指令不会丢三落四

要想AI生成的视频效果达到惊艳水准，必然离不开精准的文本提示。

然而，有时大模型「记性」有限，面对包含各种场景切换、角色互动和复杂动作的文本指令，它就容易丢三落四，不是遗漏细节，就是搞不清逻辑顺序。

上新后的通义万相在长文本指令遵循方面就有了较大的进步。

Prompt：一位摩托车骑手在狭窄的城市街道上以极快的速度疾驰，避开了附近建筑物发生的大爆炸，火焰猛烈地咆哮着，投射出明亮的橙色光芒，碎片和金属碎片在空中飞舞，加剧了现场的混乱。身着深色装备的车手，弯腰紧握车把，神情专注，他以极快的速度向前冲去，丝毫不畏惧身后的火光冲天。爆炸留下的浓浓黑烟弥漫在空中，将背景笼罩在世界末日般的混乱之中。然而，骑手依然不屈不挠，准确无误地在混乱中穿梭，极富电影感，超精细细节，身临其境，3D，动作连贯。![摩托车骑手效果](https://www.qewen.com/wp-content/uploads/2025/01/1736429928-20250109133848-677fd168001d2.png)

在以上这段长篇大论般的文本描述中，狭窄的街道、明亮的火焰、弥漫的黑烟、乱飞的碎片以及身着深色装备的骑手……这些细节都被通义万相捕捉到。

通义万相还具备更强大的概念组合能力，能够准确理解各种不同的想法、元素或者风格，并将其组合在一起，创造出全新的视频内容。

一位穿着西装的老人从鸡蛋中破壳而出，瞪大双眼紧盯镜头的白发老头，再配上公鸡咯咯叫的声音，画面相当搞笑。![老人从鸡蛋中破壳而出效果](https://www.qewen.com/wp-content/uploads/2025/01/1736429928-20250109133848-677fd16805866.png)

擅长卡通油画等多种风格

新版通义万相还能生成电影质感的视频画面，同时对各类艺术风格也有很好的支持，比如卡通、电影色、3D风格、油画、古典等风格。

来看这个3D动画风格的小怪兽，站在葡萄藤上手舞足蹈，甚是可爱。![小怪兽效果](https://www.qewen.com/wp-content/uploads/2025/01/1736429928-20250109133848-677fd1680af8b.gif)

此外，它还支持不同长宽比，涵盖1:1、3:4、4:3、16:9和9:16五个比例，能够更好适配电视、电脑、手机等不同终端设备。![不同长宽比效果](https://www.aisharenet.com/wp-content/uploads/2025/01/c5d3fab

阿里AI视频升级：通义万相2.1登顶VBench

文心智能体赞赏组件，躺赚新机遇

Grok聊天机器人iOS应用全球测试，功能强大引关注

暂无评论

发表评论取消回复

文心智能体赞赏组件，躺赚新机遇

Grok聊天机器人iOS应用全球测试，功能强大引关注

相关推荐

暂无评论

发表评论 取消回复

搜索

阿里AI视频升级：通义万相2.1登顶VBench

发表评论取消回复