OpenAI发布o3系列AI模型：推理能力接近人类

2024-12-21

OpenAI在为期12天的发布会上推出了新一代推理模型——o3及其精简版o3-mini，这两款模型被视为o1系列的继承者，旨在通过更深入的思考来提升回答问题的准确率。

在ARC-AGI基准测试中，o3模型表现出色，成为首个突破该基准的AI模型，显示出接近人类水平的问题解决能力。o3系列模型在ARC-AGI基准测试中的最低性能可达到75.7%，在更多计算资源支持下，性能可提升至87.5%。

o3-mini模型专注于提升推理速度和降低成本，同时保持性能，特别适用于编程任务。OpenAI计划在一月底左右推出o3-mini，并随后推出完整的o3模型。虽然o3系列模型将首先进行安全测试而非直接公开发布，但OpenAI已经开始允许安全研究人员注册访问o3和o3-mini的预览。

OpenAI最强推理模型o3 发布：AGI能力暴涨接近人类水平

在编程和数学问题解决方面，o3模型表现出色。在SWE-bench Verified基准测试中，o3的准确率约为71.7%，比o1模型高出20%以上。在Competition Code测试中，o3取得了2727Elo分，而o1仅为1891。此外，o3在竞赛数学上的准确率达到96.7%，在GPQA Diamond测试中的准确率达到87.7%，比o1高出近10%。

OpenAI还推出了一种新的安全评估方法——deliberative alignment，即审议式对齐，这是一种直接教授模型安全规范的新方法，可训练模型在回答前明确回忆规范并准确执行推理。该方法已应用于对齐OpenAI的o系列模型，并确保了对OpenAI安全政策的高度精确遵守。

目前，OpenAI正在推进外部安全测试，并已在网站上开放早期访问申请。申请者需填写在线表格并提供相关信息。选定的研究人员将被授权访问o3和o3-mini，以探索其能力并为安全评估做出贡献。

标签：AI reasoning · o3 model · OpenAI

暂无评论

发表评论取消回复

要发表评论，您必须先登录。