在图像生成领域,尤其是文本到图像的合成过程中,实现高分辨率和逼真图像一直是个难题。传统的生成技术主要依赖扩散模型和变换自回归(VAR)框架,虽然能产出高质量图像,但计算资源消耗巨大,实时应用受限。同时,VAR模型在处理离散标记时易出现累积误差,导致图像细节丢失,影响真实感。

image.png

为解决这些问题,字节跳动的研究团队推出了“Infinity”框架,旨在提高文本到图像合成的效率和质量。

Infinity框架采用比特级标记替代传统索引级标记,实现更精细的表示,大幅降低量化误差,提升图像真实度。此外,框架还引入了无限词汇分类器(IVC),将标记词汇扩展至2^64,显著降低内存和计算需求。

image.png

Infinity架构包含三部分:比特级多尺度量化标记器,将图像特征转换为二进制标记;基于变换器的自回归模型,根据文本提示和先前输出预测残差;自我修正机制,通过随机比特翻转提高模型对误差的鲁棒性。研究团队使用LAION和OpenImages等大型数据集进行训练,从256×256逐步提升至1024×1024分辨率,取得了显著成果。

评估结果显示,Infinity在关键指标上表现优异,GenEval得分为0.,Fréchet Inception Distance(FID)降至3.48,证明其在生成速度和质量上的提升。Infinity能在0.8秒内生成1024×1024的高分辨率图像,高效且可靠。生成的图像不仅视觉上真实、细节丰富,还能准确响应复杂文本指令,获得高人类偏好评分。

Infinity的推出标志着高分辨率文本到图像合成领域的新突破,它通过创新设计解决了可扩展性和细节质量的问题,推动了生成AI的进一步发展。

论文链接:https://arxiv.org/abs/2412.04431

重点摘要:

🌟 **创新框架Infinity:** 字节跳动推出的Infinity框架,通过比特级标记化和无限词汇分类器,大幅提高高分辨率图像生成效率。

⚡ **卓越性能:** Infinity在关键评估指标上超越现有模型,0.8秒内即可生成1024×1024的高质量图像。

🖼️ **真实细节与响应能力:** 生成的图像不仅具有高度真实性,还能精确响应复杂文本提示,获得高人类偏好评分。