英伟达(NVIDIA)与麻省理工学院和清华大学携手,推出了一款名为SANA的开源图像生成模型。SANA能够快速生成高达4096×4096分辨率的图像。
### SANA的性能表现
SANA的核心优势在于速度,SANA-0.6B仅需不到一秒即可生成1024×1024分辨率图像,比Flux-Dev快25倍;生成4096×4096分辨率图像的速度比Flux-Dev快106倍。

在生成质量上,SANA在DPG-Bench测试基准中得分与Flux相当,仅在GenEval指标上略逊一筹。

### SANA的核心设计
SANA的成功得益于以下四大核心设计:
1. 深度压缩自动编码器(DC-AE)
2. 线性DIT(Diffusion Image Transformer)
3. 仅解码器的小型LLM作为文本编码器
4. 高效的训练和推理策略

### 低成本部署与开源
SANA另一个亮点是低成本部署能力。SANA-0.6B可在16GB的笔记本电脑GPU上运行,生成1024×1024分辨率图像仅需不到1秒,且22GB显存能直接生成4096×4096分辨率图像。英伟达还宣布将公开发布SANA的代码和模型。
### 使用
英伟达建立了8个3090的网页使用界面,所有人都可以免费试用。SANA模型可直接使用中文提示词,甚至使用带有图标符号的提示词。

通过ComfyUI_ExtraModels插件,在本地Comfyui上也能方便地使用SANA模型。

SANA凭借深度压缩自动编码器、线性DIT、仅解码器的小型LLM以及高效的训练和推理策略,在生成超高分辨率图像的同时,还具备强大的文本-图像对齐能力和低成本部署优势。
### 项目页、网页使用、Comfyui插件
- 项目页:github.com/NVlabs/Sana
- 网页使用:nv-sana.mit.edu
- Comfyui插件:github.com/Efficient-Large-Model/ComfyUI_ExtraModels
暂无评论