CogView4最显著的特点,就是其对中文的“深刻理解力”!你无需再费力将中文prompt翻译成英文,直接用自然的中文“指令”,CogView4便能迅速领悟你的“画意”,精确生成你期望的画面!更令人惊叹的是,它还是首个能在画面中直接“书写”汉字的开源模型!这简直就是为中文用户量身定制的“神笔马良”,让你的创意表达更加“地道”,再也不用担心画面中的文字“水土不服”了!

QQ20250304-134226.png

CogView4还完全突破了图片尺寸和prompt长度的限制!想要制作“巨幅”宽屏海报?没问题!想要详细描述复杂场景的“长篇大论”prompt?随意输入!CogView4都能轻松应对,满足你各种“天马行空”的创作需求,让你的想象力不再受到“束缚”!

而且,CogView4并非“空有虚名”,它在权威DPG-Bench基准测试中“一马当先”,综合评分位居第一,实力不容小觑!这意味着,CogView4不仅“实用”,而且“出色”,在图像生成质量上也堪称一流,绝对能满足你对画面品质的“高要求”!

为了让更多开发者和用户能够“熟练运用”CogView4,智谱AI还贴心地表示,未来将开源配套的ControlNet、ComfyUI支持和模型微调工具,可谓是将“全部秘籍”都传授给了大家!这意味着,你不仅能“直接使用”CogView4的强大功能,还能根据自己的需求进行“深度定制”,打造更个性化、更强大的图像生成模型!

CogView4究竟是如何练就“神功”的呢?简单来说,它主要在以下几方面进行了“技术升级”:

1. 双语能力“大飞跃”:CogView4的“大脑”升级为更强大的GLM-4编码器,中英文“通吃”!它还“博学多才”,学习了海量的中英双语图文数据,彻底摆脱了以往中文模型“英文不灵”的尴尬,真正实现了“中英双语,自由切换”!

2. 文本处理更“智能”:CogView4采用了“动态文本长度”技术,就像一个“智能裁缝”,能根据prompt的长短“量体裁衣”,避免了传统固定长度方案的“浪费”和“冗余”,效率直接提升5%-30%!这意味着,CogView4不仅理解prompt更精准,生成速度也更快了!

3. 分辨率生成更“灵活”:CogView4采用了“混合分辨率训练”和“二维旋转位置编码”等“黑科技”,让它能够“驾驭”各种尺寸的图片生成,无论是“高清大图”还是“小巧精致”都能轻松搞定!它还采用了Flow-matching扩散模型和参数化线性动态噪声规划,让图像生成过程更加“丝滑”和“可控”!

4. 训练流程更“精细”:CogView4的训练过程堪称“精雕细琢”,经历了“多阶段训练”和“人类偏好对齐”等“层层淬炼”,从基础分辨率到泛分辨率,再到高质量数据微调,每一步都力求“精益求精”!它还保留了Share-param DiT架构,并为不同模态使用了独立的自适应层归一化,让模型更加“强大”和“高效”!

项目地址:https://github.com/THUDM/CogView4