智谱发布AutoGLM与GLM-PC:全新自主执行AIAgent开启智能交互新纪元

智谱发布AutoGLM与GLM-PC:全新自主执行AIAgent开启智能交互新纪元
人类与机器的互动方式正面临范式转变,这主要源于仅具对话功能的聊天机器人正在逐步演变为“有手、有脑、有视”的自主代理。

作为首批探索自主代理的大规模模型公司之一,智谱今天发布了多项新进展:


(adsbygoogle=window.adsbygoogle||[]).push({});

AutoGLM 可自主执行超过 50 步的复杂操作,并可跨应用程序进行任务执行。
AutoGLM 实现了“全自动”上网新体验,支持数十个网站的无人驾驶。
基于视觉多模态模型,实现通用代理技术探索的 GLM-PC 开启内测,可以像人一样操作计算机。

在 Agent OpenDay 现场,AutoGLM 向在场的数百位嘉宾发送了“来自 AI 的微信红包”,并通过手机远程指挥电脑自动发送文件。

智谱发布AutoGLM与GLM-PC:全新自主执行AIAgent开启智能交互新纪元
智谱发布AutoGLM与GLM-PC:全新自主执行AIAgent开启智能交互新纪元智谱 CEO 张鹏只需在现场发出一个简单的语音指令,其余复杂的操作均由智谱的产品化代理完成。

 

AutoGLM 新升级:应对更复杂任务

新升级的 AutoGLM 能够挑战并完成更复杂的任务:
更长的指令:理解超长指令,执行多步骤任务。例如,在采购火锅食材的案例中,AutoGLM 自主执行了 54 步操作,显示出其在长时间多步、循环任务中的速度超过人工操作。
跨应用程序:AutoGLM 支持跨应用程序执行任务,使用户习惯于 AI 自动处理,无需在多个应用间反复切换。目前,AutoGLM 更像是用户与应用间的调度层,因此跨应用能力至关重要。
短命令:AutoGLM 能够支持长任务的自定义短语。现在,你只需说“点咖啡”就能让 AutoGLM 帮你购买咖啡,而不需要给出复杂的指令。
随意模式:为了帮助用户克服选择困难,AutoGLM 在随意模式下可以主动做出决策,带来意想不到的惊喜。想试试 AI 为你点的咖啡口味吗?

同时,AutoGLM 正在进行大规模内测,并将尽快上线,成为面向消费者的产品。同时宣布启动“10 个亿级应用免费 Auto 升级”计划,邀请应用合作伙伴共同探索新的自动化场景。

支持核心场景及应用的 AutoGLM 标准 API 将在两周内上线至智谱 maas 开放平台(bigmodel.cn)供试用。

Web 端开启“全自动”上网新体验:即日起智谱清言插件上线 AutoGLM 功能,支持百度搜索、微博、知乎、Github 等数十个网站的无人驾驶。在现场演示中,智谱清言插件自动完成了“在百度搜索芒果TV,打开小巷人家,播放最新一集,发弹幕结局打卡”,全程无需人工干预。

 

GLM-PC 邀请内测:面向“无人驾驶”电脑的技术探索

除了基于手机和浏览器,智谱今天还推出了基于 PC 的自主代理。GLM-PC 是 GLM 团队针对“无人驾驶”计算机的一次技术探索,基于智谱的多模态模型 CogAgent。目前已开放第一阶段的内测场景,包括:

会议替身:帮助用户预订并参与会议,发送会议总结。
文档处理:支持文档下载、发送、理解与总结。
网页搜索与总结:在指定平台(如微信公众号、知乎、小红书等)搜索关键词并完成阅读与总结。
远程和定时操作:可以通过手机远程指挥,GLM-PC 能自主完成电脑操作;可设定未来时间,在开机状态下定时执行任务。
隐形屏幕:在用户工作期间,GLM-PC 能在隐形屏幕上自主完成工作,从而解放用户的屏幕使用权。

人类使用电脑的过程——通过眼睛观察图形和文字,通过大脑进行规划,再通过手执行点击等操作。而 GLM-PC 在使用电脑方面几乎与人类相同。因此,理论上只要应用为人类设计,GLM-PC 学习后都能执行。这是一种系统级的跨平台能力,不依赖于 HTML 或 API,具备更高的能力上限。

然而,由于 PC 的复杂性,以及大多数在 PC 上执行的任务都较为复杂,坦率地说,目前大模型的能力距离完全替代人工办公仍有差距。当前版本的 GLM-PC,用户仍然需要输入相当精准的指令。

GLM-PC 的邀请体验已经开启。我们将继续努力,尽快在产品完善后上线供所有用户使用,期待与更多厂商共同探索。

 

AutoGLM 和 GLM-PC 是我们向 AI 智能操作系统迈进的重要尝试。它们的推出源于智谱在大语言模型、多模态模型、逻辑推理和工具使用等领域的技术积累。从 2023 年 4 月的 AgentBench 开始到 8 月的 CogAgent 模型,智谱经过一年半的研发,逐步成型。

与 OpenAI 不同,智谱将大模型的发展划分为五个阶段:L1 语言能力、L2 逻辑能力(多模态能力)、L3 使用工具的能力、L4 自我学习能力、L5 探索科学规律。

到现在为止,大模型已经初步具备了人类与现实物理世界互动的某些能力。“代理将极大提升 L3 使用工具的能力,同时为 L4 自我学习能力的探索铺平道路。”张鹏表示。

智谱发布AutoGLM与GLM-PC:全新自主执行AIAgent开启智能交互新纪元

 

张鹏表示,未来 GLM 团队将加快代理模型产品的研发,期待实现一句话操控电脑和手机的时代早日到来。

 

大模型从 Chat 走向 Act

如今,大模型技术正在改进机器与人之间的互动方式,基于理解需求、规划与决策、执行行动和自我反思,代理将带来更加直观的人机交互体验——从人适应机器,转向机器适应人。

苹果、Anthropic、谷歌和 OpenAI 等企业已经把代理视为 2025 年的主要关注点。业内普遍认为,2025 年将是代理爆发年。Gartner 最近将性代理 AI 列为 2025 年十大技术趋势之一,预计到 2028 年,至少有 15% 的日常工作决策将由代理 AI 自主完成,而这一比例在 2024 年为零。

与生成式 AI 不同,代理是目标驱动型的,能够完整执行工作流程,适应、学习、迭代,并与其它系统及人类协作,端到端完成任务。在张鹏看来,代理可视为大模型通用操作系统 LLM-OS 的雏形。

“目前,AutoGLM 大致是在用户与应用之间添加一个执行调度层,从而很大程度上改变了人机之间的交互形式。更重要的是,我们看到了 LLM-OS 的潜力,未来基于大模型的智能能力(从 L1 到 L4 甚至更高),有机会实现原生的人机交互,将人机交互带向新的阶段。”

 

AI 时代智能设备的新范式

随着大模型能力的持续进化,我们渐渐看到 AI 具备了自己的大脑、眼睛和手。不仅智能持续增强,感知能力和交互带宽也在不断丰富和拓展,而如今的代理则加速了执行力的提升。

智谱 COO 张帆表示,在大模型的加持下,智能设备将迎来新的机会。手机加 AI 将转变为个人智能助理,PC 加 AI 将成为全新的生产力工具,汽车加 AI 将使汽车成为人们的智能第三生活空间。当然,大模型的潜力不仅限于手机、PC 和汽车,而是将惠及各种智能设备。大模型的持续进化为代理在改变人车交互体验上奠定了强大基础。

智谱发布AutoGLM与GLM-PC:全新自主执行AIAgent开启智能交互新纪元

 

随着终端性能和算力的不断提升,AI 原生设备适配的模型与端云协同架构相继出现,代理不仅在操作系统和应用上实现用户体验的变革,还能推广至各种智能设备,从手机到电脑,再到汽车、智能眼镜、家居及各类边缘设备,各种 AI 原生设备正如雨后春笋般涌现。

荣耀 AI 技术总监王作建、华硕 AIPC 智能生态负责人钟怀圣、小鹏汽车智能座舱语音业务负责人廉磊、高通 AI 产品技术中国区负责人万卫星、英特尔中国区技术部总经理高宇等客户与合作伙伴,分别从不同场景出发,分享了他们对智能终端的实践及展望。

大模型与代理的发展不仅为用户带来了 AI 时代智能设备的新范式,意味着大模型技术更广阔的落地空间。从智能设备扩展到智能网络,在不久的将来,我们将看到 AI 原生设备之间的互联互通和无限可能。在此过程中,智谱将提供一系列产品和能力,帮助智能设备拥抱大模型,加速迈向 AI 原生设备新时代。

智谱发布AutoGLM与GLM-PC:全新自主执行AIAgent开启智能交互新纪元

 

AutoGLM 申请地址

 

在AutoGLM内测小助手中申请

相关推荐

暂无评论

发表评论