SANA开源图像生成模型:快速高效,中文支持

英伟达(NVIDIA)与麻省理工学院和清华大学携手,推出了一款名为SANA的开源图像生成模型。SANA能够快速生成高达4096×4096分辨率的图像。

### SANA的性能表现

SANA的核心优势在于速度,SANA-0.6B仅需不到一秒即可生成1024×1024分辨率图像,比Flux-Dev快25倍;生成4096×4096分辨率图像的速度比Flux-Dev快106倍。

![SANA性能展示](https://www.qewen.com/wp-content/uploads/2025/01/1736994519-20250116022839-67886ed722f0b.png)

在生成质量上,SANA在DPG-Bench测试基准中得分与Flux相当,仅在GenEval指标上略逊一筹。

![DPG-Bench测试结果](https://www.qewen.com/wp-content/uploads/2025/01/1736994519-20250116022839-67886ed7893fe.png)

### SANA的核心设计

SANA的成功得益于以下四大核心设计:

1. 深度压缩自动编码器(DC-AE)
2. 线性DIT(Diffusion Image Transformer)
3. 仅解码器的小型LLM作为文本编码器
4. 高效的训练和推理策略

![SANA核心设计图](https://www.qewen.com/wp-content/uploads/2025/01/1736994519-20250116022839-67886ed7b2cfb.png)

### 低成本部署与开源

SANA另一个亮点是低成本部署能力。SANA-0.6B可在16GB的笔记本电脑GPU上运行,生成1024×1024分辨率图像仅需不到1秒,且22GB显存能直接生成4096×4096分辨率图像。英伟达还宣布将公开发布SANA的代码和模型。

### 使用

英伟达建立了8个3090的网页使用界面,所有人都可以免费试用。SANA模型可直接使用中文提示词,甚至使用带有图标符号的提示词。

![SANA使用示例](https://www.qewen.com/wp-content/uploads/2025/01/1736994520-20250116022840-67886ed801600.png)

通过ComfyUI_ExtraModels插件,在本地Comfyui上也能方便地使用SANA模型。

![SANA插件使用](https://www.qewen.com/wp-content/uploads/2025/01/1736994520-20250116022840-67886ed809122.png)

SANA凭借深度压缩自动编码器、线性DIT、仅解码器的小型LLM以及高效的训练和推理策略,在生成超高分辨率图像的同时,还具备强大的文本-图像对齐能力和低成本部署优势。

### 项目页、网页使用、Comfyui插件

- 项目页:github.com/NVlabs/Sana
- 网页使用:nv-sana.mit.edu
- Comfyui插件:github.com/Efficient-Large-Model/ComfyUI_ExtraModels

相关推荐

暂无评论

发表评论