智谱AI最新开源的文生图模型CogView4正式推出,CogView4不仅在参数数量上达到了6亿,同时全面支持中文输入和将中文文本转换为图像,被誉为“首个能在图像中生成汉字的开源模型”。
CogView4的核心优势在于支持中英双语提示词输入,尤其擅长理解并执行复杂的中文指令,对中文内容创作者来说是一大福音。作为首个能够生成汉字图像的开源文生图模型,它为开源领域填补了空白。此外,该模型支持生成不同尺寸的图片,并能处理任意长度的提示词,显示出极高的灵活性。
CogView4的双语能力得益于其技术架构的全面升级。文本编码器升级为GLM-4,支持中英双语输入,彻底打破了先前开源模型仅支持英文的限制。据悉,该模型通过中英双语图文数据进行训练,确保了其在中文语境下的生成质量。
在文本处理方面,CogView4采用了动态文本长度方案,取代了传统的固定长度设计。当平均描述文本为200-300个词元时,相比传统的512词元方案,冗余减少约50%,训练效率提升5%-30%。这一创新优化了计算资源,并让模型能更高效地处理不同长度的提示词。
CogView4支持生成任意分辨率的图像,这得益于其多项技术突破。模型采用混合分辨率训练,结合二维旋转位置编码和内插位置表示,以适应不同的尺寸需求。此外,其基于Flow-matching扩散模型和参数化线性动态噪声规划,进一步提升了生成图像的质量和多样性。
CogView4的训练流程分为多个阶段:从基础分辨率训练开始,经过泛分辨率适配,再到高质量数据微调,最后通过人类偏好对齐优化输出。整个过程中保留了Share-param DiT架构,并为不同模态引入了独立的自适应层归一化,确保模型在多种任务中的稳定性和一致性。
项目链接:https://github.com/THUDM/CogView4
暂无评论