2024年度中文大模型测评报告发布

2025-01-08

背景

自2023年起，AI大模型引发了全球范围内的人工智能浪潮，规模之大前所未有。2024年，随着Sora、GPT-4o、o1等大模型的推出，国内大模型领域展开了一场波澜壮阔的追逐赛。

《中文大模型基准测评2024年度报告》发布！-1

(adsbygoogle=window.adsbygoogle||[]).push({});

SuperCLUE基准测评持续跟踪国内外大模型的发展趋势和效果，正式发布了《中文大模型基准测评2024年度报告》。

报告共89页，本文仅展示关键内容，完整报告地址（可下载）：

www.cluebenchmarks.com/superclue_2024

SuperCLUE排行榜地址：

www.superclueai.com

报告关键内容

关键内容1：2024年最值得关注的大模型全景图

《中文大模型基准测评2024年度报告》发布！-1

关键内容2：年度总榜及模型象限

测评介绍

本次年度报告聚焦通用能力测评，由理科、文科和Hard三大维度构成，题目均为原创新题，总量为1325道多轮简答题。

【理科任务】包括计算、逻辑推理、代码测评集；【文科任务】包括语言理解、生成创作、安全测评集；【Hard任务】包括指令遵循、深度推理、Agent测评集。

本次测评数据选取了SuperCLUE-12月测评结果，模型选取了国内外有代表性的42个大模型在12月份的版本。

《中文大模型基准测评2024年度报告》发布！-1

年度总榜和模型象限图表展示了各模型的综合表现。

《中文大模型基准测评2024年度报告》发布！-1

《中文大模型基准测评2024年度报告》发布！-1

关键内容3：性价比区间分布

《中文大模型基准测评2024年度报告》发布！-1

国产大模型在性价比（价格+效果）上表现出显著优势，如DeepSeek-V3、Qwen2.5-72B-Instruct和Qwen2.5-32B-Instruct等。

大部分模型价格较高，如GLM-4-Plus、Qwen-Max-latest、Claude 3.5 Sonnet、Grok-2-1212等。

o1等推理模型性价比有待提升。

关键内容4：推理效率区间分布

《中文大模型基准测评2024年度报告》发布！-1

部分国产模型在综合效能上具有竞争力，如DeepSeek-V3和Qwen2.5-32B-Instruct。

Gemini-2.0-Flash-Exp、Claude 3.5 Sonnet(20241022)、Grok-2-1212和GPT-4o-mini符合「高效能区」，其中Gemini-2.0-Flash-Exp表现最为出色。

推理模型在效能上需进一步提升。

关键内容5：2024年国内外大模型差距及趋势

《中文大模型基准测评2024年度报告》发布！-1

总体趋势上，国内外第一梯队大模型在中文领域的通用能力差距正在扩大。

以DeepSeek-V3为代表的国产模型正逐渐接近GPT-4o-latest。

o1基于强化学习新范式的推理模型，突破80分，拉大国内外顶尖模型差距。

关键内容6：其他子维度榜单

Hard榜单

《中文大模型基准测评2024年度报告》发布！-1

理科榜单

《中文大模型基准测评2024年度报告》发布！-1

文科榜单

《中文大模型基准测评2024年度报告》发布！-1

各维度测评国内TOP3

《中文大模型基准测评2024年度报告》发布！-1

开源模型榜单

《中文大模型基准测评2024年度报告》发布！-1

10B以内模型榜单

《中文大模型基准测评2024年度报告》发布！-1

5B以内端侧模型榜单

《中文大模型基准测评2024年度报告》发布！-1

二级细粒度分数清单

<img loading="lazy" decoding="async" class="aligncenter size-full wp-image-17664" title="《中文大模型基准测评2024年度报告》发布！-1" src="https://www.aisharenet.com/wp-content/uploads/2025/01/804e21cf9f9537f.png" alt="《中文大模型基准测评2024年度报告》发布！-1" width="8108" height="4200"

标签：AI · Benchmark Report · Chinese Language Models

暂无评论

发表评论取消回复

要发表评论，您必须先登录。