2024年度中文大模型测评报告发布

背景

自2023年起,AI大模型引发了全球范围内的人工智能浪潮,规模之大前所未有。2024年,随着Sora、GPT-4o、o1等大模型的推出,国内大模型领域展开了一场波澜壮阔的追逐赛。

《中文大模型基准测评2024年度报告》发布!-1


(adsbygoogle=window.adsbygoogle||[]).push({});

SuperCLUE基准测评持续跟踪国内外大模型的发展趋势和效果,正式发布了《中文大模型基准测评2024年度报告》。

报告共89页,本文仅展示关键内容,完整报告地址(可下载):

www.cluebenchmarks.com/superclue_2024

SuperCLUE排行榜地址:

www.superclueai.com

 

报告关键内容

关键内容1:2024年最值得关注的大模型全景图

《中文大模型基准测评2024年度报告》发布!-1

 

关键内容2:年度总榜及模型象限

测评介绍

本次年度报告聚焦通用能力测评,由理科、文科和Hard三大维度构成,题目均为原创新题,总量为1325道多轮简答题。

【理科任务】包括计算、逻辑推理、代码测评集;【文科任务】包括语言理解、生成创作、安全测评集;【Hard任务】包括指令遵循、深度推理、Agent测评集。

本次测评数据选取了SuperCLUE-12月测评结果,模型选取了国内外有代表性的42个大模型在12月份的版本。

《中文大模型基准测评2024年度报告》发布!-1

年度总榜和模型象限图表展示了各模型的综合表现。

《中文大模型基准测评2024年度报告》发布!-1

《中文大模型基准测评2024年度报告》发布!-1

 

关键内容3:性价比区间分布

《中文大模型基准测评2024年度报告》发布!-1

国产大模型在性价比(价格+效果)上表现出显著优势,如DeepSeek-V3、Qwen2.5-72B-Instruct和Qwen2.5-32B-Instruct等。

大部分模型价格较高,如GLM-4-Plus、Qwen-Max-latest、Claude 3.5 Sonnet、Grok-2-1212等。

o1等推理模型性价比有待提升。

 

关键内容4:推理效率区间分布

《中文大模型基准测评2024年度报告》发布!-1

部分国产模型在综合效能上具有竞争力,如DeepSeek-V3和Qwen2.5-32B-Instruct。

Gemini-2.0-Flash-Exp、Claude 3.5 Sonnet(20241022)、Grok-2-1212和GPT-4o-mini符合「高效能区」,其中Gemini-2.0-Flash-Exp表现最为出色。

推理模型在效能上需进一步提升。

 

关键内容5:2024年国内外大模型差距及趋势

《中文大模型基准测评2024年度报告》发布!-1

总体趋势上,国内外第一梯队大模型在中文领域的通用能力差距正在扩大。

以DeepSeek-V3为代表的国产模型正逐渐接近GPT-4o-latest。

o1基于强化学习新范式的推理模型,突破80分,拉大国内外顶尖模型差距。

 

关键内容6:其他子维度榜单

Hard榜单

《中文大模型基准测评2024年度报告》发布!-1

理科榜单

《中文大模型基准测评2024年度报告》发布!-1

文科榜单

《中文大模型基准测评2024年度报告》发布!-1

各维度测评国内TOP3

《中文大模型基准测评2024年度报告》发布!-1

开源模型榜单

《中文大模型基准测评2024年度报告》发布!-1

10B以内模型榜单

《中文大模型基准测评2024年度报告》发布!-1

5B以内端侧模型榜单

《中文大模型基准测评2024年度报告》发布!-1

二级细粒度分数清单

<img loading="lazy" decoding="async" class="aligncenter size-full wp-image-17664" title="《中文大模型基准测评2024年度报告》发布!-1" src="https://www.aisharenet.com/wp-content/uploads/2025/01/804e21cf9f9537f.png" alt="《中文大模型基准测评2024年度报告》发布!-1" width="8108" height="4200"

相关推荐

暂无评论

发表评论