通用人工智能(AGI)进展的评估基准至关重要,有效基准能够揭示能力,而卓越的基准则能推动研究方向。ARC Prize基金会通过其ARC-AGI系列基准,旨在引导研究力量聚焦于真正的通用智能,其最新的ARC-AGI-2基准及其初步测试结果,为当前AI能力的边界和效率问题敲响了警钟。
(adsbygoogle=window.adsbygoogle||[]).push({});
自2019年推出的ARC-AGI-1基准以来,在追踪AGI进展方面发挥了独特作用,曾帮助识别AI何时开始超越单纯的模式记忆。随后的ARC Prize 2024竞赛也吸引了众多研究者探索新的测试时适应性思路。
然而,通往AGI的道路依然漫长。当前的进展,如OpenAI的o3系统所展现的,或许只是在“流体智力”这一维度上实现了有限突破。这些系统不仅效率低下,且仍需大量人工监督。显然,AGI的实现需要更多源头上的创新。
新挑战:ARC-AGI-2,专为暴露AI弱点而生
为此,ARC Prize基金会现已推出ARC-AGI-2基准。其设计目标明确:对AI(尤其是推理系统)来说难度显著提升,同时保持对人类的相对易处理性。这并非简单的难度增加,而是针对性地挑战当前AI方法难以克服的障碍。
设计哲学:聚焦人易AI难的智能鸿沟
与其他许多追求超人能力的AI基准不同,ARC-AGI聚焦于那些对人类来说相对容易,但对当前AI而言却极其困难的任务。这种策略旨在揭示那些无法通过简单地“扩大规模”就能弥补的能力缺口。通用智能的核心在于从有限经验中高效泛化和应用知识的能力,而这正是当前AI的软肋。
ARC-AGI-2:难度升级,直面AI推理软肋
ARC-AGI-2在ARC-AGI-1的基础上,显著提高了对AI的要求,强调高适应性与高效率的结合。通过分析前沿AI在先前任务上的失败案例,ARC-AGI-2引入了更多考验符号解释、组合推理、上下文规则应用等能力的挑战。这些任务旨在迫使AI超越表面模式匹配,进行更深层次的抽象和推理。
ARC-AGI-2成绩单:一份严峻的现实映照
最新公布的ARC-AGI排行榜数据,为我们描绘了一幅关于当前AI能力的严峻图景。这份数据不仅证实了ARC-AGI-2的挑战性,更深刻地揭示了AI在通用推理能力和效率上的巨大鸿沟。
Leaderboard 数据概览
AI System | Organization | System Type | ARC-AGI-1 | ARC-AGI-2 | Cost/Task | Code / Paper |
---|---|---|---|---|---|---|
Human Panel | Human | N/A | 98.0% | 100.0% | $17.00 | — |
o3 (low)* | OpenAI | CoT + Synthesis | 75.7% | 4.0% | $200.00 | 📄 |
o1 (high) | OpenAI | CoT | 32.0% | 3.0% | $4.45 | 💻 |
ARChitects | ARC Prize 2024 | Custom | 56.0% | 2.5% | $0.200 | 📄💻 |
o3-mini (medium) | OpenAI | CoT | 29.1% | 1.7% | $0.280 | 💻 |
Icecuber | ARC Prize 2024 | Custom | 17.0% | 1.6% | $0.130 | 💻 |
o3-mini (high) | OpenAI | CoT | 35.0% | 1.5% | $0.410 | 💻 |
Gemini 2.0 Flash | Base LLM | N/A | 1.3% | $0.004 | 💻 | |
o1 (medium) | OpenAI | CoT | 31.0% | 1.3% | $2.76 | 💻 |
Deepseek R1 | Deepseek | CoT | 15.8% | 1.3% | $0.080 | 💻 |
Gemini-2.5-Pro-Exp-03-25 ** | CoT | 12.5% | 1.3% | N/A | 💻 | |
o1-pro | OpenAI | CoT + Synthesis | 50.0% | 1.0% | $39.00 | — |
Claude 3.7 (8K) | Anthropic | CoT | 21.2% | 0.9% | $0.360 | 💻 |
Gemini 1.5 Pro | Base LLM | N/A | 0.8% | $0.040 | 💻 | |
GPT-4.5 | OpenAI | Base LLM | 10.3% | 0.8% | $2.10 | 💻 |
o1 (low) | OpenAI | CoT | 25.0% | 0.8% | $1.44 | 💻 |
Claude 3.7 (16K) | Anthropic | CoT | 28.6% | 0.7% | $0.510 | 💻 |
Claude 3.7 (1K) | Anthropic | CoT | 11.6% | 0.4% | $0.140 | 💻 |
Claude 3.7 | Anthropic | Base LLM | 13.6% | 0.0% | $0.120 | 💻 |
GPT-4o | OpenAI | Base LLM | 4.5% | 0.0% | $0.080 | 💻 |
GPT-4o-mini | OpenAI | Base LLM | N/A | 0.0% | $0.010 | 💻 |
o3-mini (low) | OpenAI | CoT | 11.0% | 0.0% | $0.060 | 💻 |
(注:表格中 * 表示初步估计值,** 表示实验性模型)*
深刻解读:数据背后的警示
- 人类 vs AI:难以逾越的鸿沟
最引人注目的莫过于人类与AI表现的巨大差距。在ARC-AGI-2上,人类小组取得了100%的完美得分,而表现最好的AI系统——OpenAI的o3(low),得分仅为4.0%。其他知名模型,如Gemini 2.0 Flash、Deepseek R1等,得分均在1.3%左右徘徊。更令人震惊的是,像Claude 3.7、GPT-4o、GPT-4o-mini这些在其他领域表现出色的基础大语言模型(Base LLM),在ARC-AGI-2上的得分直接归零。这无情地揭示了,尽管AI在特定任务上能力惊人,但在面对需要灵活、抽象、通用推理能力的新颖问题时,与人类相比仍有本质上的差距。 - 从AGI-1到AGI-2:AI能力的断崖式下跌
几乎所有参与测试的AI系统,在从ARC-AGI-1过渡到ARC-AGI-2时,性能都出现了急剧下滑。例如,o3(low)从75.7%骤降至4.0%,o1-pro从约50%跌至1.0%,ARChitects从56.0%降至2.5%。这一普遍现象强烈暗示,ARC-AGI-2确实成功触及了当前AI方法论的“痛点”,无论是基于CoT(思维链)、Synthesis(综合/搜索)还是其他定制方法,都难以有效应对ARC-AGI-2所代表的推理挑战。 - 系统类型与效率:高成本并未带来高智能
排行榜进一步揭示了不同AI系统类型在ARC-AGI-2上的表现差异和严峻的效率问题:- CoT + Synthesis 系统(o3(low), o1-pro) 虽然取得了相对最高的AI分数(4.0% 和 1.0%),但其成本却高得惊人(分别为$200 和 $39 每任务)。这表明复杂的推理加搜索策略或许能“挤”出一点分数,但效率极其低下。
- 纯CoT 系统表现参差不齐,得分普遍在1%-3%之间,成本也从几美分到几美元不等。这似乎说明仅靠CoT不足以应对挑战。
- 基础大语言模型(Base LLM)(GPT-4.5
暂无评论