近日,英伟达发布了名为 Sana 的新型图像生成模型,其参数量仅为0.6亿,大幅降低了使用门槛。
模型展示图如下:
Sana 能够生成4096×4096分辨率的图像,且在16GB显卡上运行,仅需不到1秒即可生成1024×1024分辨率的高清图片,速度在同类模型中十分突出。
研究团队采用了深度压缩自编码器(DC-AE),其压缩比高达32倍,大幅减少了潜在标记的数量,对于生成超高分辨率图像至关重要。此外,Sana 还引入了线性扩散变换器(DiT),用线性注意力代替了传统二次注意力,降低了复杂度至O(N),并通过3×3深度卷积增强了局部信息捕捉能力。这样的设计使得Sana在生成4K图像时,延迟提升了1.7倍。
在文本编码方面,Sana选用了小型解码器专用大语言模型Gemma,相较于传统的T5模型,Gemma在理解和执行复杂指令方面表现更佳,增强了图像与文本之间的对齐能力。此外,Sana还优化了训练和推理策略,通过自动标记和选择高CLIP评分的描述,提升了文本与图像的一致性。新提出的Flow-DPM-Solver算法将推理步骤减少至14-20步,显著提高了性能。
综合性能方面,Sana在多个先进的文本到图像扩散模型中表现出色。在512×512分辨率下,Sana-0.6的吞吐量是PixArt-Σ的5倍,并在图像生成质量方面表现出色。在1024×1024分辨率下,Sana-0.6B在小于3亿参数的模型中也有着显著优势。
Sana-0.6B不仅性能强劲,还可以在16GB笔记本GPU上快速生成图像,助力内容创作者高效实现创作目标。据称,Sana0.6B在性能上与Flux-12B具备竞争力,参数量仅为其1/20,速度却是其100倍。
有趣的是,Sana支持英文、中文和emoji提示词。用户可以输入中文诗句,生成相关的艺术图像。此外,Sana还具有安全性,当用户输入不当词汇时,系统会自动用红心图案❤️替代,避免生成不适内容。
例如,输入提示词“一只猫咪在草地玩耍,星星🌟”,Sana生成速度很快,效果也特别不错。
模型展示图如下:
又如,给出提示词“一只可爱的 🐼 在吃 🎋, 水墨画风格”,可以看到模型能精准识别emoji。
模型展示图如下:
值得一提的是,Sana已获得官方对ComfyUI的支持,并配备了Lora训练工具。这使得用户在使用过程中更加便捷,实用性也大幅提升,感兴趣的朋友可以亲自尝试。
项目入口:https://nv-sana.mit.edu/
划重点:
🌟 高效生成:Sana能够快速生成高达4096×4096分辨率的高质量图像,适合在普通笔记本GPU上使用。
⚙️ 创新设计:深度压缩自编码器和线性扩散变换器大幅提升了生成速度和质量。
🚀 卓越性能:Sana在多项测试中表现优异,吞吐量显著高于其他先进模型,支持快速内容创作。
暂无评论