DeepSeekR1夺冠MathCLUE竞赛,数学推理能力显著提升

本文最后更新于2025-02-06 16:22,部分内容可能具有时效性,如发现内容失效,请留言反馈

DeepSeek R1挑战「全国高中数学竞赛」,成绩大幅超越o1-1DeepSeek R1挑战「全国高中数学竞赛」,成绩大幅超越o1-1

DeepSeek R1挑战「全国高中数学竞赛」,成绩大幅超越o1-1DeepSeek R1挑战「全国高中数学竞赛」,成绩大幅超越o1-1

DeepSeek R1挑战「全国高中数学竞赛」,成绩大幅超越o1-1DeepSeek R1挑战「全国高中数学竞赛」,成绩大幅超越o1-1

MathCLUE「全国高中数学竞赛」介绍:本竞赛旨在全面评估大模型的竞赛级数学推理能力,涵盖了高中数学的几何、代数和概率统计等多个关键领域。

🔥测评模型:DeepSeek-R1(访问地址:chat.deepseek.com)

DeepSeek-R1测评分析
🔍DeepSeek-R1在MathCLUE全国高中数学竞赛中取得第一
DeepSeek-R1在MathCLUE全国高中数学竞赛中荣获第一名,得分高达87.31分,超过世界顶级模型o1近10分,比DeepSeek-R1-Lite-Preview提升26.12个点,显示出其在数学推理和问题解决能力上的显著进步。

(adsbygoogle = window.adsbygoogle || []).push({});

 

此外,Qwen2.5-Max「全国高中数学竞赛」成绩揭晓!未达预期,原因如下

🔥测评模型:Qwen2.5-Max
使用官方API版本:qwen-max-2025-01-25

Qwen2.5-Max测评分析
🔍Qwen2.5-Max在MathCLUE榜单上仍有提升空间
Qwen2.5-Max在全国高中数学竞赛中得分33.58分,排名第9。虽然领先Claude 3.5 Sonnet(20241022) 15.67分,但与国内外头部大模型相比,仍有30分以上的差距。分析其错题发现,模型在部分难题上省略了解题过程,直接给出错误答案,而本次测评仅根据最终答案评分,这可能是得分偏低的主要原因。

 

评测集
MathCLUE全国高中数学竞赛评测集,包含2024年全国高中数学竞赛的试题,对大模型进行严格评估。

测评方法
通过判断大模型回答中的最终答案与参考答案是否一致,来评估大模型在问题上的正确率(正确或错误),该方法确保了评估的客观性。

相关推荐

暂无评论

发表评论