阿里AI视频升级:通义万相2.1登顶VBench

2025年伊始,AI视频生成技术即将迎来重大突破?阿里旗下通义万相视频生成模型今日宣布2.1版本的重大升级。

新发布的模型分为两个版本,即通义万相2.1极速版和专业版。前者强调高效性能,后者则着重于卓越表现力。

据介绍,通义万相此次全面升级了模型整体性能,尤其在处理复杂运动、还原真实物理规律、提升电影质感及优化指令遵循方面取得显著进展,为AI的艺术创作开辟了新天地。

先来欣赏一下视频生成效果,看看能否震撼到你。

以经典的「切牛排」为例,可以看到牛排纹理清晰,表面覆盖一层薄薄油脂,闪烁着光泽,刀锋沿着肌肉纤维缓缓切入,肉质Q弹,细节丰富。![切牛排效果](https://www.qewen.com/wp-content/uploads/2025/01/1736429926-20250109133846-677fd16628532.gif)

再来看一个人物特写生成效果,小女孩的面部表情、手部和肢体动作自然协调,风掠过头发也符合运动规律。![人物特写效果](https://www.qewen.com/wp-content/uploads/2025/01/1736429926-20250109133846-677fd16649e04.gif)

模型实力如何,来看看评测结果。目前,在权威视频生成评测榜单VBench Leaderboard上,升级后的通义万相以总分84.7%的成绩登顶榜首,超越了Gen3、Pika、CausVid等国内外视频生成模型。看来,视频生成竞争格局又将迎来新变化。

即日起,用户即可在通义万相官网使用最新一代模型。同样,开发者也可在阿里云百炼调用大模型API。

官网地址:https://tongyi.aliyun.com/wanxiang/

一手实测:表现力提升,还能玩转特效字体

最近一段时间,视频生成大模型迭代速度很快,新版本的通义万相是否实现了代际提升?我们进行了一番实际测试。

AI视频会写字了

首先,AI生成的视频终于告别了「鬼画符」。此前,市面上主流AI视频生成模型一直无法准确生成中英文,只要是该有文字的地方,就是一堆难以辨认的乱码。如今这一行业难题被通义万相2.1破解了。

它成为了首个具备支持中文文字生成能力、且同时支持中英文文字特效生成的视频生成模型。

现在,用户只需输入简短的文字描述,即可生成具有电影级效果的文字和动画。

比如一只小猫正在电脑前打字,画面依次跳出「不工作就没饭吃」7个大字。![猫咪打字效果](https://www.qewen.com/wp-content/uploads/2025/01/1736429926-20250109133846-677fd1666b87d.png)

再比如从一个橘色的正方体小盒子里跳出英文单词「Synced」。![小盒子跳出单词效果](https://www.qewen.com/wp-content/uploads/2025/01/1736429926-20250109133846-677fd166727e0.png)

无论是生成中文还是英文,通义万相都能搞定,没有错别字,也没出现「鬼画符」。

不仅如此,它还支持多种场景下的字体应用,包括特效字体、海报字体以及真实场景中的字体展示等。

比如在塞纳河畔的埃菲尔铁塔附近,绚烂的烟花在空中绽放,随着镜头拉近,粉色数字「2025」逐渐变大,直到充斥整个画面。![烟花绽放效果](https://www.qewen.com/wp-content/uploads/2025/01/1736429926-20250109133846-677fd16678777.png)

大幅度运动不再「鬼畜」

复杂的人物运动一度是AI视频生成模型的「噩梦」,以往AI生成的视频要么手脚乱飞、大变活人,要么出现「只转身不转头」的诡异动作。![大幅度运动效果](https://www.qewen.com/wp-content/uploads/2025/01/1736429926-20250109133846-677fd1667ef34.gif)

而通义万相通过先进的算法优化和数据训练,能够在多种场景下实现稳定的复杂运动生成,特别是在大幅度肢体运动和精确的肢体旋转方面,上图生成的霹雳舞就很丝滑。

再比如下面这则生成视频中,男子奔跑时动作流畅自然,没有出现左右腿不分或者扭曲变形的问题。而且它还很注重细节,男子每一次脚尖触地都会留下印迹,并微微扬起细沙。![男子奔跑效果](https://www.qewen.com/wp-content/uploads/2025/01/1736429927-20250109133847-677fd1671e5b8.png)

运镜媲美电影大师

大导演斯皮尔伯格曾说过:一场好电影的秘诀就在于镜头语言。为了拍出震撼的电影镜头,摄影师们恨不得上天入地、飞檐走壁。![电影镜头效果](https://www.qewen.com/wp-content/uploads/2025/01/1736429927-20250109133847-677fd16726f2d.png)

不过在这个AI时代,「拍」电影就容易了许多。

我们只需输入一句简单的文本指令,比如镜头左移、镜头拉远、镜头推进等,通义万相就能自动根据视频的主体内容和运镜需求输出合理的视频。

我们输入Prompt:摇滚乐队在前院草坪上演出,随着镜头的推进,画面聚焦到吉他手身上,他身穿皮夹克,一头凌乱的长发随节奏摆动。吉他手的手指在琴弦上快速跳跃,背景中其他乐队成员也在全情投入。![摇滚乐队演出效果](https://www.qewen.com/wp-content/uploads/2025/01/1736429927-20250109133847-677fd167ed79e.png)

通义万相2.1严格遵循了指令。视频一开始,吉他手、鼓手激情演奏,随着摄影机缓慢拉近,背景逐渐模糊,画面放大,突出了吉他手的神态和手部动作。

长文本指令不会丢三落四

要想AI生成的视频效果达到惊艳水准,必然离不开精准的文本提示。

然而,有时大模型「记性」有限,面对包含各种场景切换、角色互动和复杂动作的文本指令,它就容易丢三落四,不是遗漏细节,就是搞不清逻辑顺序。

上新后的通义万相在长文本指令遵循方面就有了较大的进步。

Prompt:一位摩托车骑手在狭窄的城市街道上以极快的速度疾驰,避开了附近建筑物发生的大爆炸,火焰猛烈地咆哮着,投射出明亮的橙色光芒,碎片和金属碎片在空中飞舞,加剧了现场的混乱。身着深色装备的车手,弯腰紧握车把,神情专注,他以极快的速度向前冲去,丝毫不畏惧身后的火光冲天。爆炸留下的浓浓黑烟弥漫在空中,将背景笼罩在世界末日般的混乱之中。然而,骑手依然不屈不挠,准确无误地在混乱中穿梭,极富电影感,超精细细节,身临其境,3D,动作连贯。![摩托车骑手效果](https://www.qewen.com/wp-content/uploads/2025/01/1736429928-20250109133848-677fd168001d2.png)

在以上这段长篇大论般的文本描述中,狭窄的街道、明亮的火焰、弥漫的黑烟、乱飞的碎片以及身着深色装备的骑手……这些细节都被通义万相捕捉到。

通义万相还具备更强大的概念组合能力,能够准确理解各种不同的想法、元素或者风格,并将其组合在一起,创造出全新的视频内容。

一位穿着西装的老人从鸡蛋中破壳而出,瞪大双眼紧盯镜头的白发老头,再配上公鸡咯咯叫的声音,画面相当搞笑。![老人从鸡蛋中破壳而出效果](https://www.qewen.com/wp-content/uploads/2025/01/1736429928-20250109133848-677fd16805866.png)

擅长卡通油画等多种风格

新版通义万相还能生成电影质感的视频画面,同时对各类艺术风格也有很好的支持,比如卡通、电影色、3D风格、油画、古典等风格。

来看这个3D动画风格的小怪兽,站在葡萄藤上手舞足蹈,甚是可爱。![小怪兽效果](https://www.qewen.com/wp-content/uploads/2025/01/1736429928-20250109133848-677fd1680af8b.gif)

此外,它还支持不同长宽比,涵盖1:1、3:4、4:3、16:9和9:16五个比例,能够更好适配电视、电脑、手机等不同终端设备。![不同长宽比效果](https://www.aisharenet.com/wp-content/uploads/2025/01/c5d3fab

相关推荐

暂无评论

发表评论