Epoch AI发布FrontierMath:顶级AI模型数学解题准确率超过98%
FrontierMath是一个新推出的基准测试,旨在挑战人工智能的数学推理能力,号称"数学奥林匹克"。由Epoch AI与60多位数学界顶级专家共同开发,测试包括超高难度的数学问题,如数论和代数几何。令人震惊的是,主流AI模型在该测试中表现不佳,仅解决2%的题目。这一结果凸显了人类与人工智能在解决数学问题上的反直觉差异,同时反映出AI在复杂任务中的局限性。FrontierMath也为AI研究者提供了新的挑战与发展方向。