2025年伊始,AI视频生成技术即将迎来重大突破?阿里旗下通义万相视频生成模型今日宣布2.1版本的重大升级。
新发布的模型分为两个版本,即通义万相2.1极速版和专业版。前者强调高效性能,后者则着重于卓越表现力。
据介绍,通义万相此次全面升级了模型整体性能,尤其在处理复杂运动、还原真实物理规律、提升电影质感及优化指令遵循方面取得显著进展,为AI的艺术创作开辟了新天地。
先来欣赏一下视频生成效果,看看能否震撼到你。
以经典的「切牛排」为例,可以看到牛排纹理清晰,表面覆盖一层薄薄油脂,闪烁着光泽,刀锋沿着肌肉纤维缓缓切入,肉质Q弹,细节丰富。
再来看一个人物特写生成效果,小女孩的面部表情、手部和肢体动作自然协调,风掠过头发也符合运动规律。
模型实力如何,来看看评测结果。目前,在权威视频生成评测榜单VBench Leaderboard上,升级后的通义万相以总分84.7%的成绩登顶榜首,超越了Gen3、Pika、CausVid等国内外视频生成模型。看来,视频生成竞争格局又将迎来新变化。
即日起,用户即可在通义万相官网使用最新一代模型。同样,开发者也可在阿里云百炼调用大模型API。
官网地址:https://tongyi.aliyun.com/wanxiang/
一手实测:表现力提升,还能玩转特效字体
最近一段时间,视频生成大模型迭代速度很快,新版本的通义万相是否实现了代际提升?我们进行了一番实际测试。
AI视频会写字了
首先,AI生成的视频终于告别了「鬼画符」。此前,市面上主流AI视频生成模型一直无法准确生成中英文,只要是该有文字的地方,就是一堆难以辨认的乱码。如今这一行业难题被通义万相2.1破解了。
它成为了首个具备支持中文文字生成能力、且同时支持中英文文字特效生成的视频生成模型。
现在,用户只需输入简短的文字描述,即可生成具有电影级效果的文字和动画。
比如一只小猫正在电脑前打字,画面依次跳出「不工作就没饭吃」7个大字。
再比如从一个橘色的正方体小盒子里跳出英文单词「Synced」。
无论是生成中文还是英文,通义万相都能搞定,没有错别字,也没出现「鬼画符」。
不仅如此,它还支持多种场景下的字体应用,包括特效字体、海报字体以及真实场景中的字体展示等。
比如在塞纳河畔的埃菲尔铁塔附近,绚烂的烟花在空中绽放,随着镜头拉近,粉色数字「2025」逐渐变大,直到充斥整个画面。
大幅度运动不再「鬼畜」
复杂的人物运动一度是AI视频生成模型的「噩梦」,以往AI生成的视频要么手脚乱飞、大变活人,要么出现「只转身不转头」的诡异动作。
而通义万相通过先进的算法优化和数据训练,能够在多种场景下实现稳定的复杂运动生成,特别是在大幅度肢体运动和精确的肢体旋转方面,上图生成的霹雳舞就很丝滑。
再比如下面这则生成视频中,男子奔跑时动作流畅自然,没有出现左右腿不分或者扭曲变形的问题。而且它还很注重细节,男子每一次脚尖触地都会留下印迹,并微微扬起细沙。
运镜媲美电影大师
大导演斯皮尔伯格曾说过:一场好电影的秘诀就在于镜头语言。为了拍出震撼的电影镜头,摄影师们恨不得上天入地、飞檐走壁。
不过在这个AI时代,「拍」电影就容易了许多。
我们只需输入一句简单的文本指令,比如镜头左移、镜头拉远、镜头推进等,通义万相就能自动根据视频的主体内容和运镜需求输出合理的视频。
我们输入Prompt:摇滚乐队在前院草坪上演出,随着镜头的推进,画面聚焦到吉他手身上,他身穿皮夹克,一头凌乱的长发随节奏摆动。吉他手的手指在琴弦上快速跳跃,背景中其他乐队成员也在全情投入。
通义万相2.1严格遵循了指令。视频一开始,吉他手、鼓手激情演奏,随着摄影机缓慢拉近,背景逐渐模糊,画面放大,突出了吉他手的神态和手部动作。
长文本指令不会丢三落四
要想AI生成的视频效果达到惊艳水准,必然离不开精准的文本提示。
然而,有时大模型「记性」有限,面对包含各种场景切换、角色互动和复杂动作的文本指令,它就容易丢三落四,不是遗漏细节,就是搞不清逻辑顺序。
上新后的通义万相在长文本指令遵循方面就有了较大的进步。
Prompt:一位摩托车骑手在狭窄的城市街道上以极快的速度疾驰,避开了附近建筑物发生的大爆炸,火焰猛烈地咆哮着,投射出明亮的橙色光芒,碎片和金属碎片在空中飞舞,加剧了现场的混乱。身着深色装备的车手,弯腰紧握车把,神情专注,他以极快的速度向前冲去,丝毫不畏惧身后的火光冲天。爆炸留下的浓浓黑烟弥漫在空中,将背景笼罩在世界末日般的混乱之中。然而,骑手依然不屈不挠,准确无误地在混乱中穿梭,极富电影感,超精细细节,身临其境,3D,动作连贯。
在以上这段长篇大论般的文本描述中,狭窄的街道、明亮的火焰、弥漫的黑烟、乱飞的碎片以及身着深色装备的骑手……这些细节都被通义万相捕捉到。
通义万相还具备更强大的概念组合能力,能够准确理解各种不同的想法、元素或者风格,并将其组合在一起,创造出全新的视频内容。
一位穿着西装的老人从鸡蛋中破壳而出,瞪大双眼紧盯镜头的白发老头,再配上公鸡咯咯叫的声音,画面相当搞笑。
擅长卡通油画等多种风格
新版通义万相还能生成电影质感的视频画面,同时对各类艺术风格也有很好的支持,比如卡通、电影色、3D风格、油画、古典等风格。
来看这个3D动画风格的小怪兽,站在葡萄藤上手舞足蹈,甚是可爱。
此外,它还支持不同长宽比,涵盖1:1、3:4、4:3、16:9和9:16五个比例,能够更好适配电视、电脑、手机等不同终端设备。![不同长宽比效果](https://www.aisharenet.com/wp-content/uploads/2025/01/c5d3fab
暂无评论