AIIDEMarsCode发布，项目级代码生成测评基准首期榜单揭晓

🚀预约：3月3日中国首个 AI IDE 发布 MarsCode × Trae，不限量使用 Claude 3.7 Sonnet 和 DeepSeek-R1!

2025年2月26日，SuperCLUE发布项目级代码生成（SuperCLUE-Project）测评基准首期榜单。

(adsbygoogle = window.adsbygoogle || []).push({});

测评方案见：项目级代码生成测评基准发布。本次测评基于大模型“裁判团”的合作，全方位评价了国内外12个大模型在项目级代码生成任务上的能力，任务涵盖包括了游戏开发、工具和管理系统等5大类应用场景。以下为详细测评报告。

项目级代码测评摘要

摘要1：o3-mini-high与Claude-3.7-Sonnet-Reasoning处于领跑地位

本次测评中，OpenAI发布的o3-mini-high取得综合成绩82.08分，Anthropic公司最新发布的推理模型Claude-3.7-Sonnet-Reasoning的综合成绩达到81.63分，二者携手领跑榜单。

摘要2：DeepSeek-R1领跑国内模型，跻身业界第一梯队

从测评结果看，DeepSeek-R1与o3-mini-high、Claude-3.5-Sonnet/3.7-Sonnet-Reasoning、Gemini-2.0-pro等业界前沿模型得分差距极小，甚至在部分应用场景下取得了一定的领先地位。

摘要3：各有所长。R1擅长游戏开发，o3/阶跃Step R擅长多媒体编辑，多家擅长网络应用

本次参评的12个模型，均呈现出在不同应用场景下的能力差异，如DeepSeek-R1在“游戏开发”领域表现突出，Claude-3.5-Sonnet、豆包1.5pro和通义千问Max更加擅长“网络应用”设计，阶跃星辰Step R-mini在“多媒体编辑”工具开发中有独特优势等。

摘要4：不同模型在方法选择、界面风格上差异明显

对比模型答案发现，面对相同用户需求，不同模型选择的编程语言、调用的库/模块大相径庭，对界面美观度的重视程度也有显著差异，一定程度上反映了模型的能力、偏好、理念等差异。

榜单概览

SuperCLUE-Project测评体系

SuperCLUE-Project是中文原生项目级代码测评基准，旨在考察大模型将用户的项目级需求转变成代码实现的能力。

SuperCLUE-Project围绕非程序员用户群体的实际需求，涵盖5个一级维度、18个二级维度，以中文自然语言构建题目集。鉴于非程序员群体特点，我们在题目设计中仅强调功能层面的需求描述，而将效率、安全、可读性等指标作为大模型选手的独立能力，置于测评环节加以评估。

此外，基准还设置了简单--中等--复杂三级难度，针对同一题目集进行整体扩展，为模型的项目级代码实现能力提供更深的洞见。

测评方法

参考SuperCLUE细粒度评估方式，遵循以下流程进行测评：

1) 测评集构建

1.关注大模型辅助的低代码/零代码开发领域动态，收集整理非程序员群体代码项目需求

2.编写简单难度的项目级代码测评集

3.控制格式和字数范围，将测评集扩展至中等/复杂难度

4.测试和人工校验

2) 评分过程

1.编写评价规则prompt--->

2.小范围测试，人工检验裁判模型与人类专家的评价一致性--->

3.根据一致性反馈，反复调优评价规则--->

4.将待测模型回答和评价规则完整传入两个裁判模型，分别接收完整评价--->

5.计算两个裁判模型在各维度的评分均值作为最终结果

3) 人类一致性分析

对测评集进行分层抽样，通过计算组内相关系数检验裁判模型与人类专家的评价一致性，并报告该表现。

相较于以往的基准，SuperCLUE-Project在实施测评的过程中首次引入国内、国外两个模型（Gemini-2.0-flash和Qwen-Max）同时作为裁判员，通过“裁判团”的合作，进一步减少了大模型的偏差 (bias) 和偏好 (preference) 问题。

此外，为验证裁判模型的可靠性，SuperCLUE-Project首次引入组内相关系数 (Intra-class Correlation Coefficient, ICC)，通过计算人类专家、Qwen-Max和Gemini-2.0-flash三者评分的双向混合效应 (ICC(3,k)) 指数，验证了裁判模型与人类评价具有强一致性。相比过去的百分比可靠性，该方法有效克服了随机误差带来的波动影响。

（*注：组内相关系数(ICC)是衡量和评价观察者间信度(inter-observer reliability)和复测信度(test-retest reliability)的信度系数指标之一，最早由Bartko于1966年用于测量和评价信度的大小。ICC等于个体的变异度除以总的变异度。在本实验中，由于我们仅需考虑选定的裁判模型和人类专家的评价一致性，无需扩展到其他评分者，故选择双向混合效应指数作为一致性指标。）

评估标准

功能完整性 (60%)：确保代码

AIIDEMarsCode发布，项目级代码生成测评基准首期榜单揭晓

项目级代码测评摘要

SuperCLUE-Project测评体系

测评方法

评估标准

天工机器人突破：全球首个人形机器人挑战多级阶梯

AIIDEMarsCode×Trae预约发布，高效PDF文本提取工具olmOCR

暂无评论

发表评论取消回复

项目级代码测评摘要

SuperCLUE-Project测评体系

测评方法

评估标准

天工机器人突破：全球首个人形机器人挑战多级阶梯

AIIDEMarsCode×Trae预约发布，高效PDF文本提取工具olmOCR

相关推荐

暂无评论

发表评论 取消回复

搜索

AIIDEMarsCode发布，项目级代码生成测评基准首期榜单揭晓

发表评论取消回复