当前标签

错误识别

新闻热点 124 次浏览

PROCESSBENCH：阿里巴巴Qwen团队推出数学推理错误识别新基准

阿里巴巴Qwen团队推出“PROCESSBENCH”新基准测试，专注评估语言模型在数学推理中的错误识别能力，包含3400个专家标注测试案例。研究发现现有模型在高难度问题上表现不佳，PROCESSBENCH为AI推理过程理解提供重要框架。