AIIDE软件Trae中文版下载,体验DeepSeek-R1和Doubao-pro!

🚀体验邀请:中国首家AI IDE智能编程软件,Trae中文版下载,无限量使用DeepSeek-R1和Doubao-pro!

ARC-AGI-2成绩揭晓:全部AI模型推理能力遭遇滑铁卢-1

通用人工智能(AGI)进展的评估基准至关重要,有效基准能够揭示能力,而卓越的基准则能推动研究方向。ARC Prize基金会通过其ARC-AGI系列基准,旨在引导研究力量聚焦于真正的通用智能,其最新的ARC-AGI-2基准及其初步测试结果,为当前AI能力的边界和效率问题敲响了警钟。


(adsbygoogle=window.adsbygoogle||[]).push({});

自2019年推出的ARC-AGI-1基准以来,在追踪AGI进展方面发挥了独特作用,曾帮助识别AI何时开始超越单纯的模式记忆。随后的ARC Prize 2024竞赛也吸引了众多研究者探索新的测试时适应性思路。

然而,通往AGI的道路依然漫长。当前的进展,如OpenAI的o3系统所展现的,或许只是在“流体智力”这一维度上实现了有限突破。这些系统不仅效率低下,且仍需大量人工监督。显然,AGI的实现需要更多源头上的创新。

新挑战:ARC-AGI-2,专为暴露AI弱点而生

为此,ARC Prize基金会现已推出ARC-AGI-2基准。其设计目标明确:对AI(尤其是推理系统)来说难度显著提升,同时保持对人类的相对易处理性。这并非简单的难度增加,而是针对性地挑战当前AI方法难以克服的障碍。

设计哲学:聚焦人易AI难的智能鸿沟

与其他许多追求超人能力的AI基准不同,ARC-AGI聚焦于那些对人类来说相对容易,但对当前AI而言却极其困难的任务。这种策略旨在揭示那些无法通过简单地“扩大规模”就能弥补的能力缺口。通用智能的核心在于从有限经验中高效泛化和应用知识的能力,而这正是当前AI的软肋。

ARC-AGI-2:难度升级,直面AI推理软肋

ARC-AGI-2在ARC-AGI-1的基础上,显著提高了对AI的要求,强调高适应性与高效率的结合。通过分析前沿AI在先前任务上的失败案例,ARC-AGI-2引入了更多考验符号解释、组合推理、上下文规则应用等能力的挑战。这些任务旨在迫使AI超越表面模式匹配,进行更深层次的抽象和推理。

ARC-AGI-2成绩单:一份严峻的现实映照

最新公布的ARC-AGI排行榜数据,为我们描绘了一幅关于当前AI能力的严峻图景。这份数据不仅证实了ARC-AGI-2的挑战性,更深刻地揭示了AI在通用推理能力和效率上的巨大鸿沟。

ARC-AGI-2成绩揭晓:全部AI模型推理能力遭遇滑铁卢-1

Leaderboard 数据概览

AI System Organization System Type ARC-AGI-1 ARC-AGI-2 Cost/Task Code / Paper
Human Panel Human N/A 98.0% 100.0% $17.00
o3 (low)* OpenAI CoT + Synthesis 75.7% 4.0% $200.00 📄
o1 (high) OpenAI CoT 32.0% 3.0% $4.45 💻
ARChitects ARC Prize 2024 Custom 56.0% 2.5% $0.200 📄💻
o3-mini (medium) OpenAI CoT 29.1% 1.7% $0.280 💻
Icecuber ARC Prize 2024 Custom 17.0% 1.6% $0.130 💻
o3-mini (high) OpenAI CoT 35.0% 1.5% $0.410 💻
Gemini 2.0 Flash Google Base LLM N/A 1.3% $0.004 💻
o1 (medium) OpenAI CoT 31.0% 1.3% $2.76 💻
Deepseek R1 Deepseek CoT 15.8% 1.3% $0.080 💻
Gemini-2.5-Pro-Exp-03-25 ** Google CoT 12.5% 1.3% N/A 💻
o1-pro OpenAI CoT + Synthesis 50.0% 1.0% $39.00
Claude 3.7 (8K) Anthropic CoT 21.2% 0.9% $0.360 💻
Gemini 1.5 Pro Google Base LLM N/A 0.8% $0.040 💻
GPT-4.5 OpenAI Base LLM 10.3% 0.8% $2.10 💻
o1 (low) OpenAI CoT 25.0% 0.8% $1.44 💻
Claude 3.7 (16K) Anthropic CoT 28.6% 0.7% $0.510 💻
Claude 3.7 (1K) Anthropic CoT 11.6% 0.4% $0.140 💻
Claude 3.7 Anthropic Base LLM 13.6% 0.0% $0.120 💻
GPT-4o OpenAI Base LLM 4.5% 0.0% $0.080 💻
GPT-4o-mini OpenAI Base LLM N/A 0.0% $0.010 💻
o3-mini (low) OpenAI CoT 11.0% 0.0% $0.060 💻

(注:表格中 * 表示初步估计值,** 表示实验性模型)*

深刻解读:数据背后的警示

  1. 人类 vs AI:难以逾越的鸿沟
    最引人注目的莫过于人类与AI表现的巨大差距。在ARC-AGI-2上,人类小组取得了100%的完美得分,而表现最好的AI系统——OpenAI的o3(low),得分仅为4.0%。其他知名模型,如Gemini 2.0 Flash、Deepseek R1等,得分均在1.3%左右徘徊。更令人震惊的是,像Claude 3.7、GPT-4o、GPT-4o-mini这些在其他领域表现出色的基础大语言模型(Base LLM),在ARC-AGI-2上的得分直接归零。这无情地揭示了,尽管AI在特定任务上能力惊人,但在面对需要灵活、抽象、通用推理能力的新颖问题时,与人类相比仍有本质上的差距。
  2. 从AGI-1到AGI-2:AI能力的断崖式下跌
    几乎所有参与测试的AI系统,在从ARC-AGI-1过渡到ARC-AGI-2时,性能都出现了急剧下滑。例如,o3(low)从75.7%骤降至4.0%,o1-pro从约50%跌至1.0%,ARChitects从56.0%降至2.5%。这一普遍现象强烈暗示,ARC-AGI-2确实成功触及了当前AI方法论的“痛点”,无论是基于CoT(思维链)、Synthesis(综合/搜索)还是其他定制方法,都难以有效应对ARC-AGI-2所代表的推理挑战。
  3. 系统类型与效率:高成本并未带来高智能
    排行榜进一步揭示了不同AI系统类型在ARC-AGI-2上的表现差异和严峻的效率问题:

    • CoT + Synthesis 系统(o3(low), o1-pro) 虽然取得了相对最高的AI分数(4.0% 和 1.0%),但其成本却高得惊人(分别为$200 和 $39 每任务)。这表明复杂的推理加搜索策略或许能“挤”出一点分数,但效率极其低下。
    • 纯CoT 系统表现参差不齐,得分普遍在1%-3%之间,成本也从几美分到几美元不等。这似乎说明仅靠CoT不足以应对挑战。
    • 基础大语言模型(Base LLM)(GPT-4.5

相关推荐

暂无评论

发表评论