AIIDEMarsCode发布,项目级代码生成测评基准首期榜单揭晓

🚀预约:3月3日中国首个 AI IDE 发布 MarsCode × Trae,不限量使用 Claude 3.7 Sonnet 和 DeepSeek-R1!

2025年2月26日,SuperCLUE发布项目级代码生成(SuperCLUE-Project)测评基准首期榜单。

(adsbygoogle = window.adsbygoogle || []).push({});

测评方案见:项目级代码生成测评基准发布。本次测评基于大模型“裁判团”的合作,全方位评价了国内外12个大模型在项目级代码生成任务上的能力,任务涵盖包括了游戏开发、工具和管理系统等5大类应用场景。以下为详细测评报告。

 

项目级代码测评摘要

摘要1:o3-mini-high与Claude-3.7-Sonnet-Reasoning处于领跑地位

本次测评中,OpenAI发布的o3-mini-high取得综合成绩82.08分,Anthropic公司最新发布的推理模型Claude-3.7-Sonnet-Reasoning的综合成绩达到81.63分,二者携手领跑榜单。

摘要2:DeepSeek-R1领跑国内模型,跻身业界第一梯队

从测评结果看,DeepSeek-R1与o3-mini-high、Claude-3.5-Sonnet/3.7-Sonnet-Reasoning、Gemini-2.0-pro等业界前沿模型得分差距极小,甚至在部分应用场景下取得了一定的领先地位。

摘要3:各有所长。R1擅长游戏开发,o3/阶跃Step R擅长多媒体编辑,多家擅长网络应用

本次参评的12个模型,均呈现出在不同应用场景下的能力差异,如DeepSeek-R1在“游戏开发”领域表现突出,Claude-3.5-Sonnet、豆包1.5pro和通义千问Max更加擅长“网络应用”设计,阶跃星辰Step R-mini在“多媒体编辑”工具开发中有独特优势等。

摘要4:不同模型在方法选择、界面风格上差异明显

对比模型答案发现,面对相同用户需求,不同模型选择的编程语言、调用的库/模块大相径庭,对界面美观度的重视程度也有显著差异,一定程度上反映了模型的能力、偏好、理念等差异。

 

榜单概览

 

SuperCLUE-Project测评体系

SuperCLUE-Project是中文原生项目级代码测评基准,旨在考察大模型将用户的项目级需求转变成代码实现的能力。

SuperCLUE-Project围绕非程序员用户群体的实际需求,涵盖5个一级维度、18个二级维度,以中文自然语言构建题目集。鉴于非程序员群体特点,我们在题目设计中仅强调功能层面的需求描述,而将效率、安全、可读性等指标作为大模型选手的独立能力,置于测评环节加以评估。

此外,基准还设置了简单--中等--复杂三级难度,针对同一题目集进行整体扩展,为模型的项目级代码实现能力提供更深的洞见。

 

测评方法

参考SuperCLUE细粒度评估方式,遵循以下流程进行测评:

1) 测评集构建

1.关注大模型辅助的低代码/零代码开发领域动态,收集整理非程序员群体代码项目需求

2.编写简单难度的项目级代码测评集

3.控制格式和字数范围,将测评集扩展至中等/复杂难度

4.测试和人工校验

2) 评分过程

1.编写评价规则prompt--->

2.小范围测试,人工检验裁判模型与人类专家的评价一致性--->

3.根据一致性反馈,反复调优评价规则--->

4.将待测模型回答和评价规则完整传入两个裁判模型,分别接收完整评价--->

5.计算两个裁判模型在各维度的评分均值作为最终结果

3) 人类一致性分析

对测评集进行分层抽样,通过计算组内相关系数检验裁判模型与人类专家的评价一致性,并报告该表现。

相较于以往的基准,SuperCLUE-Project在实施测评的过程中首次引入国内、国外两个模型(Gemini-2.0-flash和Qwen-Max)同时作为裁判员,通过“裁判团”的合作,进一步减少了大模型的偏差 (bias) 和偏好 (preference) 问题。

此外,为验证裁判模型的可靠性,SuperCLUE-Project首次引入组内相关系数 (Intra-class Correlation Coefficient, ICC),通过计算人类专家、Qwen-Max和Gemini-2.0-flash三者评分的双向混合效应 (ICC(3,k)) 指数,验证了裁判模型与人类评价具有强一致性。相比过去的百分比可靠性,该方法有效克服了随机误差带来的波动影响。

(*注:组内相关系数(ICC)是衡量和评价观察者间信度(inter-observer reliability)和复测信度(test-retest reliability)的信度系数指标之一,最早由Bartko于1966年用于测量和评价信度的大小。ICC等于个体的变异度除以总的变异度。在本实验中,由于我们仅需考虑选定的裁判模型和人类专家的评价一致性,无需扩展到其他评分者,故选择双向混合效应指数作为一致性指标。)

 

评估标准

  • 功能完整性 (60%):确保代码

相关推荐

暂无评论

发表评论