OpenAIo3发布:突破ARC-AGI基准,AI新里程碑

OpenAI正式发布o3,成为首个突破 ARC-AGI 基准的 AI 模型-1


(adsbygoogle=window.adsbygoogle||[]).push({});

凌晨2点,OpenAI历经12天的直播活动圆满落幕,正式发布了o3模型。

作为o1系列模型的升级版,o3模型在回答问题前增加了更多思考时间(推理),以提升回答的准确性。值得注意的是,OpenAI在命名上跳过了o2,这是为了避免与英国电信公司O2的名称混淆,Sam Altman也在直播中对此进行了确认。

实际上,OpenAI自昨日就已开始为o3模型预热。已有开发者发现OpenAI网站上对o3_min_safety_test的引用。

OpenAI正式发布o3,成为首个突破 ARC-AGI 基准的 AI 模型-1

o3发布时间

正如传言,o3和o3-mini正式亮相。不过,o3系列模型将先进行安全测试,而不是直接公开发布。Sam Altman表示,今天只是宣布(announce),而非发布(launch)。他们计划在一月底左右推出o3-mini,并在之后不久推出完整的o3模型。

o3和o3-mini差异

o3-mini是一个更经济高效的o3版本,专注于提升推理速度、降低推理成本的同时兼顾模型性能。高性能低成本,非常适合编程。它支持三种不同的推理时间选项——低、中、高。

与o1相比,o3-mini在Codeforces上的性能具有显著的成本效益,这使其成为一个非常适合用来编程的模型。

OpenAI正式发布o3,成为首个突破 ARC-AGI 基准的 AI 模型-1

在数学问题上,o3-mini(low)实现了与gpt-4o相当的低延迟。

OpenAI正式发布o3,成为首个突破 ARC-AGI 基准的 AI 模型-1

o3-mini上所有的API特性和相应的能力表现如下:

OpenAI正式发布o3,成为首个突破 ARC-AGI 基准的 AI 模型-1

o3能力测试

o3的能力究竟有多强?与谷歌最新发布的Gemini 2.0 Flash Thinking进行比较:

OpenAI正式发布o3,成为首个突破 ARC-AGI 基准的 AI 模型-1

o3的能力几乎对现有所有模型都形成了降维打击。以下是o3的能力展示:

OpenAI正式发布o3,成为首个突破 ARC-AGI 基准的 AI 模型-1

左边的图片展示了软件工程考试(SWE-Bench Verified),这类似于一个编程考试,考察o3是否能像一流的软件工程师一样写出完美的代码。o3的成绩为71.7%,比o1还要强。右边的基准比较具有挑战性,是Codeforces,一个全球著名的编码竞赛平台。o3的得分为2727,相当于整个榜单的第175名,已经超越了99.99%的人类。

OpenAI正式发布o3,成为首个突破 ARC-AGI 基准的 AI 模型-1
o1的代码能力已经非常强大,而o3则再次向AGI的山顶迈进了一大步。

OpenAI正式发布o3,成为首个突破 ARC-AGI 基准的 AI 模型-1 在数学竞赛AIEM 2024和博士级科学考试GPQA Diamond中,o3的表现同样出色。AIEM 2024接近满分,这应该是AI首次达到这一水平。而博士级科学考试也有进步,但不及数学和编程方面的进步明显。

接下来,我们来看看一个有趣的数学基准测试。 OpenAI正式发布o3,成为首个突破 ARC-AGI 基准的 AI 模型-1 rontierMath,由Epoch AI开发的一个数学基准测试,由60多位顶尖数学家的合作开发,旨在评估人工智能在高级数学推理方面的能力。为了避免数据污染,所有的题目都是原创的且从未发布过的新题目。

之前,GPT-4和Gemini 1.5 Pro等模型在评估时,成功功率不足2%,而与其他传统数学基准(如GSM-8K和MATH)中超过90%的成功率形成鲜明对比。而这一次,o3直接达到了25.2%。当各大其他模型还在卷传统数学基准时,o3已经进入了另一个世界。

o3成为首个突破ARC-AGI基准测试的AI模型

ARC Prize Fundation是一个非营利组织,旨在通过基准测试来成为实现AGI之路的北极星。该组织的首个基准ARC-AGI已经提出了5年时间,但一直未被攻克。直到现在,Kamradt宣布o3已经在该基准上达到了优良水平,成为首个突破ARC-AGI基准的AI模型。

ARC-AGI于2019年首次提出,旨在通过一系列抽象和推理任务来测试AI系统的能力。主要是因为传统的技能测量方法并不能有效代表智能,因为它们往往依赖于先前知识和经验,而真正的智能应体现在广泛的适应能力和通用性上。所以,ARC-AGI诞生了,其中的任务要求AI识别模式并解决新问题,每个任务由输入输出示例组成。这些任务以网格形式呈现,每个方块可以是十种颜色中的一种,网格的大小可以从1x1到30x30不等。参与者需要根据给定的输入生成正确的输出,测试其推理和抽象能力。可以简单地理解为找规律。大概就是这样的: OpenAI正式发布o3,成为首个突破 ARC-AGI 基准的 AI 模型-1

在ARC-AGI基准中,AI需要根据配对的「输入-输出」示例寻找规律,然后再基于一个输入预测输出,下图中展示了一些例子。参加过毕业季招聘或公务员考试的人或许对此类图形推理问题并不陌生。
OpenAI正式发布o3,成为首个突破 ARC-AGI 基准的 AI 模型-1

这些任务非常难且抽象。过去几代模型的评分如下:
据悉,o3系列模型在ARC-AGI基准上的最低性能可达到75.7%,而如果让其使用更多计算资源思考更长时间,o3更可以达到87.5%的水平。
OpenAI正式发布o3,成为首个突破 ARC-AGI 基准的 AI 模型-1 从0%到5%,整整花了5年的时间,而如今,从5%到87.5%,仅仅只花了半年。而对应的,人类的阈值分数,是85%。我们通往AGI的路上,已经没有任何阻碍了。

o3模型工作原理

关于o3模型的具体工作原理,目前我们只能进行一些推测。o3模型的核心机制似乎是在token空间内进行自然语言程序搜索和执行。在测试时,模型会在可能的思维链空间中搜索,这些思维链描述了解决任务所需的步骤,这种方式可能与AlphaZero风格的蒙特卡洛树搜索(Monte-Carlo tree search)颇为相似。值得注意的是,DeepMind的Demis Hassabis在2023年6月的一次采访中暗示,DeepMind一直在研究这一概念——这项工作已经酝酿了很长时间。

相关推荐

暂无评论

发表评论