SANA开源图像生成模型：快速高效，中文支持

英伟达（NVIDIA）与麻省理工学院和清华大学携手，推出了一款名为SANA的开源图像生成模型。SANA能够快速生成高达4096×4096分辨率的图像。

### SANA的性能表现

SANA的核心优势在于速度，SANA-0.6B仅需不到一秒即可生成1024×1024分辨率图像，比Flux-Dev快25倍；生成4096×4096分辨率图像的速度比Flux-Dev快106倍。

![SANA性能展示](https://www.qewen.com/wp-content/uploads/2025/01/1736994519-20250116022839-67886ed722f0b.png)

在生成质量上，SANA在DPG-Bench测试基准中得分与Flux相当，仅在GenEval指标上略逊一筹。

![DPG-Bench测试结果](https://www.qewen.com/wp-content/uploads/2025/01/1736994519-20250116022839-67886ed7893fe.png)

### SANA的核心设计

SANA的成功得益于以下四大核心设计：

1. 深度压缩自动编码器（DC-AE）
2. 线性DIT（Diffusion Image Transformer）
3. 仅解码器的小型LLM作为文本编码器
4. 高效的训练和推理策略

![SANA核心设计图](https://www.qewen.com/wp-content/uploads/2025/01/1736994519-20250116022839-67886ed7b2cfb.png)

### 低成本部署与开源

SANA另一个亮点是低成本部署能力。SANA-0.6B可在16GB的笔记本电脑GPU上运行，生成1024×1024分辨率图像仅需不到1秒，且22GB显存能直接生成4096×4096分辨率图像。英伟达还宣布将公开发布SANA的代码和模型。

### 使用

英伟达建立了8个3090的网页使用界面，所有人都可以免费试用。SANA模型可直接使用中文提示词，甚至使用带有图标符号的提示词。

![SANA使用示例](https://www.qewen.com/wp-content/uploads/2025/01/1736994520-20250116022840-67886ed801600.png)

通过ComfyUI_ExtraModels插件，在本地Comfyui上也能方便地使用SANA模型。

![SANA插件使用](https://www.qewen.com/wp-content/uploads/2025/01/1736994520-20250116022840-67886ed809122.png)

SANA凭借深度压缩自动编码器、线性DIT、仅解码器的小型LLM以及高效的训练和推理策略，在生成超高分辨率图像的同时，还具备强大的文本-图像对齐能力和低成本部署优势。

### 项目页、网页使用、Comfyui插件

- 项目页：github.com/NVlabs/Sana
- 网页使用：nv-sana.mit.edu
- Comfyui插件：github.com/Efficient-Large-Model/ComfyUI_ExtraModels