智谱AI开源CogView4：中文图片生成新高度

还在寻找能理解中文的开源图片模型吗？现在，你无需再受限于英文prompt了！国内AI巨头智谱AI豪气开源了全新文生图模型CogView4，将中文图片生成技术提升至新境界！从此，设计师、内容创作者，乃至对AI绘画感兴趣的“新手”们，都能自信地使用母语，驾驭AI图像生成！

CogView4最显著的特点，就是其对中文的“深刻理解力”！你无需再费力将中文prompt翻译成英文，直接用自然的中文“指令”，CogView4便能迅速领悟你的“画意”，精确生成你期望的画面！更令人惊叹的是，它还是首个能在画面中直接“书写”汉字的开源模型！这简直就是为中文用户量身定制的“神笔马良”，让你的创意表达更加“地道”，再也不用担心画面中的文字“水土不服”了！

CogView4还完全突破了图片尺寸和prompt长度的限制！想要制作“巨幅”宽屏海报？没问题！想要详细描述复杂场景的“长篇大论”prompt？随意输入！CogView4都能轻松应对，满足你各种“天马行空”的创作需求，让你的想象力不再受到“束缚”！

而且，CogView4并非“空有虚名”，它在权威DPG-Bench基准测试中“一马当先”，综合评分位居第一，实力不容小觑！这意味着，CogView4不仅“实用”，而且“出色”，在图像生成质量上也堪称一流，绝对能满足你对画面品质的“高要求”！

为了让更多开发者和用户能够“熟练运用”CogView4，智谱AI还贴心地表示，未来将开源配套的ControlNet、ComfyUI支持和模型微调工具，可谓是将“全部秘籍”都传授给了大家！这意味着，你不仅能“直接使用”CogView4的强大功能，还能根据自己的需求进行“深度定制”，打造更个性化、更强大的图像生成模型！

CogView4究竟是如何练就“神功”的呢？简单来说，它主要在以下几方面进行了“技术升级”：

1. 双语能力“大飞跃”：CogView4的“大脑”升级为更强大的GLM-4编码器，中英文“通吃”！它还“博学多才”，学习了海量的中英双语图文数据，彻底摆脱了以往中文模型“英文不灵”的尴尬，真正实现了“中英双语，自由切换”！

2. 文本处理更“智能”：CogView4采用了“动态文本长度”技术，就像一个“智能裁缝”，能根据prompt的长短“量体裁衣”，避免了传统固定长度方案的“浪费”和“冗余”，效率直接提升5%-30%！这意味着，CogView4不仅理解prompt更精准，生成速度也更快了！

3. 分辨率生成更“灵活”：CogView4采用了“混合分辨率训练”和“二维旋转位置编码”等“黑科技”，让它能够“驾驭”各种尺寸的图片生成，无论是“高清大图”还是“小巧精致”都能轻松搞定！它还采用了Flow-matching扩散模型和参数化线性动态噪声规划，让图像生成过程更加“丝滑”和“可控”！

4. 训练流程更“精细”：CogView4的训练过程堪称“精雕细琢”，经历了“多阶段训练”和“人类偏好对齐”等“层层淬炼”，从基础分辨率到泛分辨率，再到高质量数据微调，每一步都力求“精益求精”！它还保留了Share-param DiT架构，并为不同模态使用了独立的自适应层归一化，让模型更加“强大”和“高效”！

项目地址：https://github.com/THUDM/CogView4

智谱AI开源CogView4：中文图片生成新高度

首个开源汉字文生图模型CogView4亮相

首个支持汉字生成开源文生图模型CogView4发布

暂无评论

发表评论取消回复

首个开源汉字文生图模型CogView4亮相

首个支持汉字生成开源文生图模型CogView4发布

相关推荐

暂无评论

发表评论 取消回复

搜索

智谱AI开源CogView4：中文图片生成新高度

发表评论取消回复