12月5日,字节豆包大模型团队发布了一项创新的代码大模型评测标准——FullStack Bench,该标准包含超过11个真实应用场景,支持多达16种编程语言,并集成了3374个编程问题。该评测标准相较于过去的评估方法,在更广阔的编程领域内提供了更精确的大模型代码能力评估,促进了模型在现实编程挑战中的性能提升。

目前普遍使用的代码评估基准,例如HumanEval和MBPP,主要聚焦于基础和高级编程难题,而DS-1000则关注于数据分析和机器学习任务,并且只对Python语言提供支持。xCodeEval则主要针对高级编程和数学问题,应用场景和语言支持范围都较为有限。相较之下,FullStack Bench在数据的广度上实现了显著扩展,覆盖了超过11个行业领域,并包含了更多样化、复杂的编程情境。

QQ20241205-144253.png

FullStack Bench的数据集是从全球编程问答社区Stack Overflow的50万个问题中精选而出,覆盖了前88.1%的行业应用领域,确保了数据集的多样性和健壮性。每个问题都附带有详细的描述、参考答案和单元测试案例,以保障评估的准确性。研究团队还采用了AI与人工复核的方式对数据质量进行了双重检验,进一步增强了数据的可信度。

为了使开发者能够便捷地使用这一数据集,字节豆包团队还开源了代码沙盒工具——SandboxFusion,该工具支持高效执行多语言编程任务。SandboxFusion与超过10种常用的代码评估数据集兼容,支持23种编程语言,助力开发者在不同的环境下轻松地对大模型进行测试。

QQ20241205-144446.png

此外,字节豆包大模型团队还首次对外展示了自主开发的代码大模型——Doubao-Coder,并对全球20多款代码大模型进行了能力评测。字节跳动在AI编程领域的持续发展,特别是通过自主研发的代码基础模型MarsCode,每月为用户贡献数以百万计的代码量,凸显了其在行业中的领先地位。

数据集开源地址:https://huggingface.co/datasets/ByteDance/FullStackBench

沙盒开源地址:https://github.com/bytedance/SandboxFusion

论文地址:https://arxiv.org/pdf/2412.00535v2