在人工智能领域,ARC-AGI(“通用人工智能抽象和推理语料库”)作为一项重要基准,即将迎来重大进展。然而,该测试的创始人弗朗索瓦·肖莱提醒,尽管成绩有所提升,但这并不意味着我们接近实现通用人工智能(AGI)。他强调,这项测试本身存在设计缺陷,并不能真正体现研究的突破。
自2019年肖莱推出ARC-AGI以来,AI系统在测试中的表现一直不尽如人意,目前表现最佳的系统也只能完成不到三分之一的任务。肖莱认为,这主要是因为当前人工智能研究过于依赖大型语言模型(LLM)。他指出,LLM在处理大数据时虽能识别模式,但它们更依赖于记忆而非推理,因此在面对未知情境或进行真正推理时显得力不从心。
“LLM模型只是从训练数据中提取模式,而非进行独立推理。它们‘记住’了模式,而非创造新的推理。”肖莱在社交平台X上的一系列帖子中如此解释。
尽管如此,肖莱并未放弃推动AI研究。今年6月,他与Zapier创始人Mike Knoop共同发起了一项奖金高达100万美元的竞赛,旨在鼓励开源AI挑战ARC-AGI基准。尽管在17,789份参赛作品中,表现最佳的AI系统得分仅为55.5%,低于“人类水平”所需的85%标准,但肖莱和Knoop仍认为这是前进的重要一步。
Knoop在博客文章中提到,这一成绩并不代表我们离实现AGI更近,反而暴露了ARC-AGI部分任务过于依赖“蛮力”解决方案的问题,这些任务可能无法有效评估真正的通用智能。ARC-AGI的设计初衷是通过复杂、未见过的任务来测试AI的泛化能力,但这些任务是否能有效评估AGI仍是个未知数。
图源备注:图片由AI生成,图片授权服务商Midjourney
ARC-AGI基准中的任务包括拼图问题等,要求AI根据已知信息推测未知答案。尽管这些任务看似能促进AI对新情境的适应,但结果显示,现有模型似乎仅通过大量计算找到解决方案,并未真正展现出智能适应能力。
同时,ARC-AGI的创建者也受到了同行的质疑,特别是在AGI定义方面的模糊性。OpenAI的一位员工最近表示,如果将AGI定义为“在大多数任务上比大多数人类表现更好”的人工智能,那么AGI实际上已经实现。然而,肖莱和Knoop认为,ARC-AGI基准的现有设计尚未完全达到这一目标。
展望未来,肖莱和Knoop计划在2025年发布第二代ARC-AGI基准,并举办新的竞赛,以弥补当前测试的不足。他们表示,新的基准将更加关注推动AI研究向更重要的方向发展,助力AGI的实现。
然而,改进现有基准并非易事。肖莱和Knoop的努力表明,在通用智能领域,定义人工智能的智能仍然是一项艰巨且复杂的任务。
暂无评论