OpenAI 最新发布的模型 o3在 ARC-AGI 基准测试中表现出色,标准计算条件下得分高达75.7%,高计算版本更是达到了87.5%。这一成绩虽令人惊讶,但仍不足以证明人工智能通用性(AGI)的突破。

ARC-AGI 基准测试依托于抽象推理库(Abstract Reasoning Corpus),旨在测试AI系统适应新任务和展示流动智力的能力。ARC库中包含一系列视觉谜题,需要理解物体、边界和空间关系等基本概念。人类可以轻松解决这些谜题,而目前的AI系统在此方面仍面临巨大挑战。ARC被认为是AI评估中最具挑战性的标准之一。

image.png

o3的表现显著优于以往模型。在ARC-AGI上,o1-preview和o1模型最高得分仅为32%。在此之前,研究人员Jeremy Berman通过混合方法将Claude3.5Sonnet与遗传算法结合,取得了53%的分数,而o3的出现被视为AI能力的飞跃。

ARC的创建者François Chollet称赞o3在AI能力上的质变,认为其在新任务适应能力上达到了前所未有的水平。

尽管o3表现优异,但其计算成本也相当高。在低计算配置下,解决每个难题的费用在17到20美元之间,需消耗3300万个代币;而在高计算配置下,计算成本增加至172倍,使用数十亿个令牌。然而,随着推理成本的逐步降低,这些开销可能会变得更加合理。

image.png

关于o3如何实现这一突破,目前尚无详细信息。有科学家猜测,o3可能采用了一种程序合成方法,结合链式思维和搜索机制。而另一些科学家则认为,o3可能只是通过进一步扩展强化学习而来。

image.png

尽管o3在ARC-AGI上取得了重大进展,但Chollet强调,ARC-AGI并非AGI的测试,o3尚未达到AGI的标准。它在某些简单任务上依然表现不佳,显示出与人类智能的根本差异。此外,o3在推理过程中仍然依赖外部验证,这与AGI的独立学习能力相去甚远。

Chollet团队正在开发新的挑战性基准,以检验o3的能力,预计会将其得分降低到30%以下。他指出,真正的AGI将意味着创造出对普通人来说简单但对AI来说困难的任务几乎变得不可能。

划重点:

🌟 o3在ARC-AGI基准测试中获得75.7%的高分,表现超越以往模型。

💰 o3解决每个谜题的成本高达17到20美元,计算量巨大。

🚫 尽管 o3表现优秀,但专家们强调其尚未达到AGI的标准。