首个开源汉字文生图模型CogView4亮相

智谱AI最新开源的文生图模型CogView4正式推出，CogView4不仅在参数数量上达到了6亿，同时全面支持中文输入和将中文文本转换为图像，被誉为“首个能在图像中生成汉字的开源模型”。

CogView4的核心优势在于支持中英双语提示词输入，尤其擅长理解并执行复杂的中文指令，对中文内容创作者来说是一大福音。作为首个能够生成汉字图像的开源文生图模型，它为开源领域填补了空白。此外，该模型支持生成不同尺寸的图片，并能处理任意长度的提示词，显示出极高的灵活性。

CogView4的双语能力得益于其技术架构的全面升级。文本编码器升级为GLM-4，支持中英双语输入，彻底打破了先前开源模型仅支持英文的限制。据悉，该模型通过中英双语图文数据进行训练，确保了其在中文语境下的生成质量。

在文本处理方面，CogView4采用了动态文本长度方案，取代了传统的固定长度设计。当平均描述文本为200-300个词元时，相比传统的512词元方案，冗余减少约50%，训练效率提升5%-30%。这一创新优化了计算资源，并让模型能更高效地处理不同长度的提示词。

CogView4支持生成任意分辨率的图像，这得益于其多项技术突破。模型采用混合分辨率训练，结合二维旋转位置编码和内插位置表示，以适应不同的尺寸需求。此外，其基于Flow-matching扩散模型和参数化线性动态噪声规划，进一步提升了生成图像的质量和多样性。

CogView4的训练流程分为多个阶段：从基础分辨率训练开始，经过泛分辨率适配，再到高质量数据微调，最后通过人类偏好对齐优化输出。整个过程中保留了Share-param DiT架构，并为不同模态引入了独立的自适应层归一化，确保模型在多种任务中的稳定性和一致性。

项目链接：https://github.com/THUDM/CogView4