自从 Anthropic 在十月推出 Claude 的 “计算机使用” 功能以来,人工智能技术的能力引发了广泛的关注。这一功能使得 Claude 成为首个能够通过与人类相同的图形用户界面(GUI)进行交互的前沿模型。

Claude 可以通过访问桌面屏幕截图以及进行键盘和鼠标操作来完成各种任务,为用户提供了一种无需使用 API 接口即可自动化操作的便捷方式。

image.png

新加坡国立大学 Show Lab 进行的一项研究测试了 Claude 在多个任务中的表现,包括网络搜索、工作流程执行、办公室生产力,以及视频游戏等。这些任务考察了 Claude 在不同环境下的表现,例如在网络上搜索并购买商品,或是将信息从网页提取并输入到电子表格中。研究人员从规划、行动和评估三个维度对 Claude 的表现进行了评估。

在执行复杂任务时,Claude 的表现令人印象深刻。它能制定明确的计划,逐步执行,并在每个步骤中评估自己的进展。此外,Claude 还能够在多个应用程序之间进行协调,例如将网页上的信息复制到电子表格。在某些情况下,Claude 甚至能够在任务完成后回顾结果,以确保所有内容都与目标一致。

然而,Claude 在执行一些简单任务时也会出现失误,例如在一个任务中,由于没有向下滚动页面找到相应的按钮,导致未能完成订阅。

在其他情况下,比如进行简单的文本选择和替换或将项目符号更改为数字时,Claude 显得相当笨拙。此外,Claude 有时并未意识到自身的错误,或者对未能达成目标的原因形成错误的假设。

研究人员指出,Claude 在自我评估机制方面的不足可能导致了这些错误,因此未来可能需要改进 GUI 代理框架,以增强自我评估模块。研究结果还表明,现有的 GUI 代理并不能完全模拟人类在使用计算机时的基本细微差别。

对于企业而言,利用简单文本描述自动化任务的潜力十分吸引人,但目前该技术仍未达到大规模应用的成熟水平。模型行为不稳定,可能导致在敏感应用中产生不可预知的后果。此外,通过人工设计的界面执行操作,也并非完成任务的最快方法。

在广泛部署之前,企业需特别关注将大型语言模型(LLM)授权鼠标和键盘所带来的安全风险。例如,有研究显示,网络代理容易受到人类可能轻易忽视的对抗性攻击。尽管如此,像 Claude 这样的工具仍然可以帮助产品团队探索创意,迭代解决方案,从而在开发新功能或服务前节省时间和成本。

总结要点:

1. 🤖 Claude 具备通过图形用户界面进行复杂任务自动化的能力,并表现出色。

2. ⚠️ Claude 在执行简单任务时会出现失误,反映出其自我评估机制的不足。

3. 💼 目前,该技术尚不适合大规模应用,企业需谨慎对待潜在的安全风险。