在今日的新闻中,阶跃星辰与吉利汽车集团携手宣布,共同开源了两款阶跃Step系列多模态大模型,分别是Step-Video-T2V视频生成模型和Step-Audio语音模型。
特别值得一提的是,阶跃Step-Video-T2V视频生成模型在参数量和性能上均达到了全球领先地位。该模型参数量高达300亿,能够直接生成204帧、540P分辨率的高品质视频,确保生成内容信息密度高、一致性出色。根据评测结果,Step-Video-T2V在指令遵循、运动平滑性、物理合理性、美感度等方面均表现出色,显著超越了市面上现有的顶级开源视频模型。
目前,这两款模型已经上线于跃问App,供开发者朋友们体验并给予宝贵意见。
阶跃Step-Video-T2V视频生成模型在复杂运动、美感人物、视觉想象力等方面展现出了卓越的生成能力。它能精准理解指令,高效助力视频创作者实现创意呈现。无论是优雅的芭蕾舞、激烈的空手道、紧张的羽毛球,还是高速翻转的跳水,Step-Video-T2V都能生成真实且符合物理规律的画面。
同时,它还支持多种镜头运动方式和景别切换,能够生成大幅度运镜的视觉效果。生成的人物形象更加逼真、生动,细节丰富,表情自然。
GitHub:
https://github.com/stepfun-ai/Step-Audio
Hugging Face:
https://huggingface.co/collections/stepfun-ai/step-audio-67b33accf45735bb21131b0b
技术报告:
https://github.com/stepfun-ai/Step-Audio/blob/main/assets/Step-Audio.pdf
暂无评论