AI挑战

新闻热点 141 次浏览

Epoch AI发布FrontierMath：顶级AI模型数学解题准确率超过98%

FrontierMath是一个新推出的基准测试，旨在挑战人工智能的数学推理能力，号称"数学奥林匹克"。由Epoch AI与60多位数学界顶级专家共同开发，测试包括超高难度的数学问题，如数论和代数几何。令人震惊的是，主流AI模型在该测试中表现不佳，仅解决2%的题目。这一结果凸显了人类与人工智能在解决数学问题上的反直觉差异，同时反映出AI在复杂任务中的局限性。FrontierMath也为AI研究者提供了新的挑战与发展方向。

查看全文

搜索