2024年12月17日,北京图森未来科技有限公司正式推出其首个“图生视频”大模型——“Ruyi”,并将Ruyi-Mini-7B版本开源,方便用户在huggingface平台下载使用。图森未来成立于2015年,总部位于美国加利福尼亚州圣迭戈,致力于AI技术在动画游戏、交通运输等多个行业的应用。

Ruyi大模型专为消费级显卡设计,提供详细的部署指南和ComfyUI工作流程,帮助用户快速上手。该模型在帧间一致性、动作流畅性、色彩表现和构图方面表现出色,为视觉叙事开辟新天地,特别是在动漫和游戏场景的深度学习方面,成为ACG爱好者的绝佳创意助手。

微信截图_20241217140324.png

Ruyi模型支持多种分辨率和时长,能处理384×384至1024×1024分辨率的视频,支持任意长宽比,最长可生成120帧/5秒的视频。此外,还支持首帧、首尾帧控制,运动幅度调整以及五种镜头控制。Ruyi基于DiT架构,由Casual VAE模块和Diffusion Transformer组成,总参数量约7.1B,训练使用了约200M视频片段。

尽管Ruyi在技术上取得了重大突破,但仍存在一些不足,如手部畸形、多人场景下面部细节失真、转场不可控等问题。图森未来正致力于改进这些问题,并在未来的更新中予以修复。

展望未来,图森未来计划深入挖掘场景需求,实现直接生成CUT的突破,并在下一次发布时提供两个版本,以满足不同创作者的需求。公司致力于通过大模型缩短动漫和游戏内容的开发周期和成本,Ruyi大模型已实现输入关键帧后生成5秒内容,或输入两个关键帧由模型生成中间过渡内容,大幅缩短开发周期。

Hugging Face 链接 :

https://huggingface.co/IamCreateAI/Ruyi-Mini-7B