近期,OpenAI 即将推出一款名为“Operator”的AI工具,该工具能控制个人电脑并代为执行各项任务。软件工程师Tibor Blaho在社交媒体上透露了这一消息,并透露了他获取的关于这款工具的最新信息。在此之前,包括《彭博社》在内的多家媒体已报道过“Operator”的传闻,称其能自主完成编写代码、预定旅行等多项任务。

image.png

Blaho透露,OpenAI计划于2025年1月发布“Operator”。他发现OpenAI的ChatGPT macOS客户端新增了隐藏选项,可以设置“切换Operator”和“强制退出Operator”的快捷键。此外,OpenAI的官方网站上也出现了“Operator”的相关信息,但这些信息目前尚未公开。

Blaho还提到,OpenAI网站上展示的“Operator”与其他计算机使用AI系统性能的表格可能只是占位符。如果表格中的数据准确,那么“Operator”的表现并不总是稳定,具体取决于执行的任务。

image.png

在OSWorld的一项基准测试中,“OpenAI计算机使用代理(CUA)”的得分为38.1%,虽然超越了Anthropic的计算机控制模型,但远低于人类的72.4%得分。在WebVoyager的测试中,Operator的表现超过了人类,而在WebArena的测试中则不及人类。对于一些简单任务,如注册云服务提供商并启动虚拟机,Operator的成功率仅为60%;而在创建比特币钱包的任务中,其成功率仅为10%。

OpenAI进入AI代理市场的时机,正值其他竞争对手如Anthropic、谷歌等也在积极推出类似技术。尽管AI代理目前仍处于初级阶段,但市场分析公司Markets and Markets预计,到2030年,AI代理市场的价值将达到471亿美元。

尽管目前的AI代理技术相对基础,但一些专家对其潜在的安全隐患表示担忧。Blaho透露的数据显示,Operator在某些安全评估中表现良好,能够有效应对试图让系统执行“非法活动”或搜索“敏感个人数据”的测试。安全测试被认为是Operator开发周期较长的原因之一。

OpenAI的联合创始人Wojciech Zaremba曾在社交媒体上批评Anthropic发布的代理缺乏安全保障,并表示如果OpenAI发布类似产品,可能会引发负面反响。

划重点:

🔍 OpenAI 即将发布的 “Operator” 工具能自主控制电脑执行任务,如编写代码和预定旅行。

🛠️ 根据泄露信息,Operator 在部分任务上的成功率相对较低,且表现不及人类。

⚠️ 尽管 Operator 在安全评估中表现较好,但专家对其潜在的安全隐患表示关注。