每个人心中都怀揣着电影梦想——渴望融入角色体验戏中人生,或是成为导演掌控镜头,亦或是编剧创造平行宇宙中的无限可能。
海螺AI,一台造梦机器,让每个人都能以接近电影的方式创作。新年伊始,海螺AI为全球用户带来全新创作助手——主体参考。
(adsbygoogle=window.adsbygoogle||[]).push({});
MiniMax最新研发的S2V-01视频模型,凭借单图主体参考架构,以低于传统方案1%的输入和计算成本,仅需输入一张图片,就能实现视觉细节的精确还原,同时具备高自由度和组合性。用户等待时间大幅缩短,实现高可用效果。
目前,主体参考功能已在全球范围内全面上线,前往海螺视频创作平台即可体验。
一张图片输入,生成高清视频
在AI视频生成领域,如何保持人物面部在动态视频中的多角度真实度和稳定性;如何在连续片段拼接创作中,使人物角色保持高度一致,一直是业界难题。我们通过自研的S2V-01视频模型,为用户提供最优解决方案。
用户在海螺AI中选择“主体参考”功能,上传一张图片后即可识别并锁定主体角色。输入Prompt提示词,无需等待,即可生成创意十足且主体保持一致的高质量视频。
S2V-01模型能准确识别照片中的性别、年龄、肤色、五官结构等面部特征,所生成的角色稳定、连贯,且在每一帧中均能保持角色一致。主体人物的面部表情控制,非主体场景的画面质感,依旧是海螺AI的强项。
主体参考+Prompt:A close-up of a young boy in a dimly lit room, his eyes fixed on the glowing screen of a gaming console. The camera is positioned slightly above eye level, focusing on his concentrated expression as his fingers nimbly manipulate the controller. A game character appears, breaking free from the screen's confines.
创作者@OlivioSarikas上传油画动漫肖像为主体,所创作动画作品将观众带入童话乐园。
目前,海螺AI开放对单个人物进行参考的能力,需要上传可识别的面部信息,作为视频主体生成的面部参考。未来,海螺AI将继续开放多人、物体、场景等更加丰富的参考能力。
降低输入、计算成本,重塑视频创作体验
MiniMax自早期便持续探索图片参考的能力,包括角色、风格等。基于大量的技术探索,我们认为在考虑到效果和扩展性的情况下,对于主体类的参考问题,图片参考方案的效果上限足够高,甚至可以优于精调的LoRA(Low-Rank Adaptation)方案。我们认为一项好的技术应该可以服务尽可能广泛的用户,同时效果也足够好,可以解决实际问题。
由于MiniMax的主体参考方案只需一张图片作为输入,没有额外的训练计算成本和等待时间,生成成本和常规文生视频、图生视频接近。相较于目前的LoRA方案,主体参考既降低了用户的输入成本,也将计算成本降低至百分之一以下,用户的等待时间大幅减少,使用体验翻倍提升。
主体参考+Prompt:A woman in an elaborate gown and a pair of white gloves walks through a corridor in a medieval castle. She runs with her back to the camera, then looks back to the camera, her expression changing from calm to horror. The end of the corridor is dimly lit. The camera follows the woman as she pushes closer and the view changes from medium to close-up, focusing on the woman's face.
为了让视频中只保有主体自身的必要视觉信息(如人的面部特征),而不受姿态、表情、光照等其他信息干扰,MiniMax在数据构造、模型架构和训练策略上持续做大量优化。在已上线的S2V-01模型中,我们同时实现了两方面的关键效果:
- 视觉细节的精准还原:生成视频中角色的面部特征与参考图片有较高的相似度;
- 高自由度+组合性:除了代表身份的面部特征,其他维度都有极高的自由度。例如,可以通过文本控制让角色呈现任意姿势、表情;将角色置于任一环境中都有自然和谐的光照表现等。
有了主体参考技术,用户不再受制于通过抽卡解决一致性问题,可以把更多精力放在内容表达上,从而大幅提高创作长视频内容的效率。你的角色,天然就是一致的。
视觉模态开启AI共创新时代
AI技术已经为微电影、广告、综艺、动画、CG特效等内容制作行业带来了便利,但视频主体在生成过程中容易崩坏是最大的问题,呈现内容往往缺乏灵活性且有割裂感。
主体参考功能的推出为专业创作者提供高度一致的视觉呈现和创作灵活性,将为短视频、广告等多个视频生产行业带来颠覆性创新,让一致性和连贯性不再是难题。目前,MiniMax将主体参考功能以API服务形式上线开放平台,并将在多主体参考方面持续探索,为企业与专业创作者提供更加完善的解决方案。
自MiniMax推出视频模型起,海螺AI便持续成为业界焦点。2024年12月,MiniMax所推出的图生视频模型I2V-01-Live受到广泛好评,海螺AI海外访问量超2700万,突破历史新高并荣登12月全球AI视频产品榜首位。
- 2024年12月全球AI视频产品榜
人和世界交互的方式本身就是多模态的,所以多模态的理解与生成正是通往AGI、开启AI共创新时代的关键一环。我们期待有更多用户与MiniMax共创智能,在海螺AI中收获创作的喜悦。这里准备了一份如何玩转主体参考功能的教学文档,点击阅读原文即可跳转。感谢每一位支持和喜爱MiniMax和海螺AI的你。
暂无评论