字节跳动商业化技术团队在人工智能领域取得了重大突破,其最新研究成果Infinity模型,凭借其卓越性能和先进技术,成为自回归文生图领域的领军者。这款新开源的模型不仅在图像生成质量上超越了Stable Diffusion 3,而且在推理速度上表现出显著优势。

Infinity模型的核心创新在于采用Bitwise Token的自回归框架,该框架通过预测下一级分辨率的+1或-1,构成细粒度的“Bitwise Token”,显著提升了模型对高频信号的捕捉能力,进而生成更丰富的图像细节。此外,Infinity模型将词表扩展至无限大,大幅增强了Image tokenizer的表示空间,从而提高了自回归文生图的性能上限。

image.png

在性能对比中,Infinity模型在自回归方法中表现卓越,远超HART、LlamaGen、Emu3等方法,在人类评测中以近90%的胜率击败了HART模型。同时,Infinity以75%、80%、65%的胜率击败了SOTA的扩散模型,如PixArt-Sigma、SD-XL、SD3-Medium等,证明了其在同尺寸模型中的领先地位。

image.png

Infinity模型还具有出色的scaling特性。随着模型大小和训练资源的增加,验证集损失稳步下降,验证集准确率稳定提升。此外,Infinity还提出了比特自我矫正技术,增强了模型的自我矫正能力,缓解了自回归推理时的累计误差问题。

image.png

在推理速度上,Infinity继承了VAR的速度优势,2B模型生成1024x1024图像仅需0.8秒,比同尺寸的SD3-Medium快3倍,比12B的Flux Dev快14倍。8B模型比同尺寸的SD3.5快7倍,20B模型生成1024x1024图像用时3秒,比12B的Flux Dev快近4倍。

Infinity模型的训练和推理代码、demo、模型权重已在GitHub仓库上线,同时提供网站体验,方便用户试用和评估模型效果。

项目页:https://foundationvision.github.io/infinity.project/