DeepSeekR1夺冠MathCLUE竞赛，数学推理能力显著提升

本文最后更新于2025-02-06 16:22，部分内容可能具有时效性，如发现内容失效，请留言反馈

DeepSeek R1挑战「全国高中数学竞赛」，成绩大幅超越o1-1

MathCLUE「全国高中数学竞赛」介绍：本竞赛旨在全面评估大模型的竞赛级数学推理能力，涵盖了高中数学的几何、代数和概率统计等多个关键领域。

🔥测评模型：DeepSeek-R1（访问地址：chat.deepseek.com）

DeepSeek-R1测评分析
🔍DeepSeek-R1在MathCLUE全国高中数学竞赛中取得第一
DeepSeek-R1在MathCLUE全国高中数学竞赛中荣获第一名，得分高达87.31分，超过世界顶级模型o1近10分，比DeepSeek-R1-Lite-Preview提升26.12个点，显示出其在数学推理和问题解决能力上的显著进步。

(adsbygoogle = window.adsbygoogle || []).push({});

此外，Qwen2.5-Max「全国高中数学竞赛」成绩揭晓！未达预期，原因如下

🔥测评模型：Qwen2.5-Max
使用官方API版本：qwen-max-2025-01-25

Qwen2.5-Max测评分析
🔍Qwen2.5-Max在MathCLUE榜单上仍有提升空间
Qwen2.5-Max在全国高中数学竞赛中得分33.58分，排名第9。虽然领先Claude 3.5 Sonnet(20241022) 15.67分，但与国内外头部大模型相比，仍有30分以上的差距。分析其错题发现，模型在部分难题上省略了解题过程，直接给出错误答案，而本次测评仅根据最终答案评分，这可能是得分偏低的主要原因。

评测集
MathCLUE全国高中数学竞赛评测集，包含2024年全国高中数学竞赛的试题，对大模型进行严格评估。

测评方法
通过判断大模型回答中的最终答案与参考答案是否一致，来评估大模型在问题上的正确率（正确或错误），该方法确保了评估的客观性。

中国AI新星 DeepSeek 遭多国政府机构联合围剿
Kimi与豆包深度对比评测——到底哪个好用？
Refly AI写作工具正式开源，在画布中归纳你的创作路径
告别DeepSeek卡顿：独家秘笈解锁R1流畅体验，联网离线全搞定！
国家超算互联网正式上线 DeepSeek R1，打造全民可及的智能基础设施

DeepSeekR1夺冠MathCLUE竞赛，数学推理能力显著提升

相关文章

中国AI新星 DeepSeek 遭多国政府机构联合围剿

Kimi与豆包深度对比评测——到底哪个好用？

Refly AI写作工具正式开源，在画布中归纳你的创作路径

告别DeepSeek卡顿：独家秘笈解锁R1流畅体验，联网离线全搞定！

国家超算互联网正式上线 DeepSeek R1，打造全民可及的智能基础设施

谷歌删除AI武器监控承诺，转向国家安全合作

Kimivs豆包：AI助手深度对比

暂无评论

发表评论取消回复

相关文章

中国AI新星 DeepSeek 遭多国政府机构联合围剿

Kimi与豆包深度对比评测——到底哪个好用？

Refly AI写作工具正式开源，在画布中归纳你的创作路径

告别DeepSeek卡顿：独家秘笈解锁R1流畅体验，联网离线全搞定！

国家超算互联网正式上线 DeepSeek R1，打造全民可及的智能基础设施

谷歌删除AI武器监控承诺，转向国家安全合作

Kimivs豆包：AI助手深度对比

相关推荐

暂无评论

发表评论 取消回复

搜索

DeepSeekR1夺冠MathCLUE竞赛，数学推理能力显著提升

发表评论取消回复