MathCLUE「全国高中数学竞赛」介绍:本竞赛旨在全面评估大模型的竞赛级数学推理能力,涵盖了高中数学的几何、代数和概率统计等多个关键领域。
🔥测评模型:DeepSeek-R1(访问地址:chat.deepseek.com)
DeepSeek-R1测评分析
🔍DeepSeek-R1在MathCLUE全国高中数学竞赛中取得第一
DeepSeek-R1在MathCLUE全国高中数学竞赛中荣获第一名,得分高达87.31分,超过世界顶级模型o1近10分,比DeepSeek-R1-Lite-Preview提升26.12个点,显示出其在数学推理和问题解决能力上的显著进步。
(adsbygoogle = window.adsbygoogle || []).push({});
此外,Qwen2.5-Max「全国高中数学竞赛」成绩揭晓!未达预期,原因如下
🔥测评模型:Qwen2.5-Max
使用官方API版本:qwen-max-2025-01-25
Qwen2.5-Max测评分析
🔍Qwen2.5-Max在MathCLUE榜单上仍有提升空间
Qwen2.5-Max在全国高中数学竞赛中得分33.58分,排名第9。虽然领先Claude 3.5 Sonnet(20241022) 15.67分,但与国内外头部大模型相比,仍有30分以上的差距。分析其错题发现,模型在部分难题上省略了解题过程,直接给出错误答案,而本次测评仅根据最终答案评分,这可能是得分偏低的主要原因。
评测集
MathCLUE全国高中数学竞赛评测集,包含2024年全国高中数学竞赛的试题,对大模型进行严格评估。
测评方法
通过判断大模型回答中的最终答案与参考答案是否一致,来评估大模型在问题上的正确率(正确或错误),该方法确保了评估的客观性。
暂无评论