阶跃Step-Video-T2V：全球领先的视频生成模型

2025-02-18

在今日的新闻中，阶跃星辰与吉利汽车集团携手宣布，共同开源了两款阶跃Step系列多模态大模型，分别是Step-Video-T2V视频生成模型和Step-Audio语音模型。

特别值得一提的是，阶跃Step-Video-T2V视频生成模型在参数量和性能上均达到了全球领先地位。该模型参数量高达300亿，能够直接生成204帧、540P分辨率的高品质视频，确保生成内容信息密度高、一致性出色。根据评测结果，Step-Video-T2V在指令遵循、运动平滑性、物理合理性、美感度等方面均表现出色，显著超越了市面上现有的顶级开源视频模型。

微信截图_20250218085337.png

目前，这两款模型已经上线于跃问App，供开发者朋友们体验并给予宝贵意见。

阶跃Step-Video-T2V视频生成模型在复杂运动、美感人物、视觉想象力等方面展现出了卓越的生成能力。它能精准理解指令，高效助力视频创作者实现创意呈现。无论是优雅的芭蕾舞、激烈的空手道、紧张的羽毛球，还是高速翻转的跳水，Step-Video-T2V都能生成真实且符合物理规律的画面。

同时，它还支持多种镜头运动方式和景别切换，能够生成大幅度运镜的视觉效果。生成的人物形象更加逼真、生动，细节丰富，表情自然。

GitHub:

https://github.com/stepfun-ai/Step-Audio

Hugging Face:

https://huggingface.co/collections/stepfun-ai/step-audio-67b33accf45735bb21131b0b

技术报告:

https://github.com/stepfun-ai/Step-Audio/blob/main/assets/Step-Audio.pdf

标签：AI-assisted content creation · multi-modal · video generation

暂无评论

发表评论取消回复

要发表评论，您必须先登录。