近期,魔乐社区(Modelers)宣布推出阶跃星辰研发的 Step-Video 和 Step-Audio 两款开源多模态大模型。Step-Video 和 Step-Audio 分别致力于视频生成和语音交互,为开发者及企业带来更先进的 AI 解决方案。

Step-Video 模型的正式名称为 Step-Video-T2V,它是全球参数量达到300亿的最大开源视频生成模型。该模型能够直接输出204帧、540P分辨率的高清视频,在指令执行、运动流畅性、物理真实感和美学表现等方面,均超越了市场上的顶尖开源视频模型。而 Step-Audio 则成为业界首款能生成多情感、方言、语言、唱腔和个性化风格的语音的大模型,这一技术的推出,标志着 AI 语音交互领域的重大进展。

元宇宙 科幻 赛博朋克 绘画 (4)大模型

图源说明:本图由AI生成,版权归属Midjourney。

值得一提的是,这些模型已经适配了华为昇腾 CANN 异构计算架构和昇腾服务器。开发者和企业用户可轻松在魔乐社区下载并体验这些模型。为了降低使用门槛,魔乐社区还提供免费算力支持,让用户能在线进行模型推理,无需复杂的搭建环境,快速验证他们的 AI 方案。

阶跃星辰的开放模型已受到众多行业领军企业的关注,如天数智芯、阿里云、火山引擎、TCL 等企业纷纷加入这一开源生态。未来,阶跃星辰计划于3月份推出新的图生视频模型,以进一步丰富其产品线。

华为昇腾与阶跃星辰的合作不仅扩展了多模态 AI 模型的应用范围,也为开发者提供了更强大的工具,推动了整个行业的技术发展。