智谱AI开源GLM-PC模型，提升GUI交互能力

智谱AI旗下GLM-PC推出的基座模型CogAgent-9B现已开放源代码，旨在推动大型模型Agent生态系统的进步。CogAgent-9B，一个基于GLM-4V-9B训练的专用Agent任务模型，能够仅通过屏幕截图作为输入，结合用户指定的任务和历史操作，预测接下来的GUI操作。该模型的通用性使其适用于个人电脑、手机、车载设备等多种基于GUI交互的场合。

微信截图_20241227091131.png

与2023年12月发布的CogAgent初始版本相比，CogAgent-9B-20241220在GUI感知、推理预测准确性、动作空间完善性、任务普适性和泛化性等方面均实现了显著提升。此外，它还支持中英文的双语屏幕截图和语言交互。CogAgent的输入仅限于用户的自然语言指令、执行过的历史动作记录和GUI截图，无需任何布局信息或附加元素标签的文本表示。输出则包括思考过程、下一步动作的自然语言描述、结构化描述以及动作的敏感性判断。

在性能测试中，CogAgent-9B-20241220在多个数据集上取得了优异的成绩，证明了其在GUI定位、单步操作、中文step-wise榜单和多步操作等方面的优势。智谱技术的这一创新举措，不仅促进了大模型技术的发展，还为视障IT专业人士提供了新的工具和可能。

代码:

https://github.com/THUDM/CogAgent

模型:

Huggingface: https://huggingface.co/THUDM/cogagent-9b-20241220

魔搭社区: https://modelscope.cn/models/ZhipuAI/cogagent-9b-20241220

智谱AI开源GLM-PC模型，提升GUI交互能力

黄桥：中国提琴之都，匠心传承全球响

酒店新战略：住宿赠门票，延长游客停留，推动地方文旅发展

暂无评论

发表评论取消回复

黄桥：中国提琴之都，匠心传承全球响

酒店新战略：住宿赠门票，延长游客停留，推动地方文旅发展

相关推荐

暂无评论

发表评论 取消回复

搜索

智谱AI开源GLM-PC模型，提升GUI交互能力

发表评论取消回复