LongBenchv2评估LLMs深度理解与推理

评估大模型在真实世界、长文本、多任务中的「深度理解与推理」能力

随着长文本大语言模型研究的深入,其上下文窗口已从最初的8k扩展至128k甚至1M个tokens。但一个关键问题仍待解决:这些模型是否真正理解了它们处理的长文本?能否基于长文本中的信息进行深入理解、学习和推理?

为解答此问题并推动长文本模型在深度理解与推理上的进步,清华大学和智谱团队推出了LongBench v2,这是一个专为评估LLMs在真实世界长文本多任务中的深度理解和推理能力设计的基准测试。


(adsbygoogle=window.adsbygoogle||[]).push({});

 

我们相信LongBench v2将推动探索扩展推理时间计算(例如o1模型)如何帮助解决长文本场景中的深度理解和推理问题。

特点

LongBench v2相较于现有长文本理解基准测试,具有以下显著特点:

更长的文本长度:LongBench v2的文本长度范围从8k到2M个词,其中大多数文本长度小于128k。

 

更高的难度:LongBench v2包含了503个具有挑战性的四选一选择题——即使是使用文档内搜索工具的人类专家,也很难在短时间内正确回答这些问题。人类专家在15分钟的时间限制下,平均准确率仅为53.7%(随机的准确率为25%)。

 

更广泛的任务覆盖:LongBench v2涵盖了六个主要的任务类别,包括单文档问答、多文档问答、长文本语境学习、长对话历史理解、代码仓库理解和长结构化数据理解,共计20个子任务,覆盖了各种现实场景。

 

更高的可靠性:为保证评估的可靠性,LongBench v2的所有问题都采用多项选择题的形式,并经过严格的人工标注和审核流程,确保数据高质量。

 

数据收集流程

为确保数据质量和难度,LongBench v2采用了严格的数据收集流程,主要包括以下步骤:

 

文档收集:招募97名来自顶尖大学、具有不同学术背景和年级的标注员,收集他们个人阅读或使用过的长文档,如研究论文、教科书、小说等。

数据标注:标注员根据收集到的文档,提出一个多项选择题,并提供四个选项、一个正确答案和相应的证据。

自动审核:使用三个具有128k上下文窗口的LLMs(GPT-4o-mini、GLM-4-Air和GLM-4-Flash)对标注的数据进行自动审核,若三个模型都能正确回答问题,则认为该问题过于简单,需重新标注。

人工审核:通过自动审核的数据会被分配给24位专业的人类专家进行人工审核,他们会尝试回答问题,并判断问题是否合适、答案是否正确。若专家在3分钟内能够正确回答问题,则认为该问题过于简单,需重新标注。此外,若专家认为问题本身不符合要求或答案有误,也会退回重新标注。

数据修订:未通过审核的数据会被退回给标注员进行修订,直至通过所有审核步骤。

评估结果

研究团队使用LongBench v2评估了10个开源LLMs和6个闭源LLMs。评估中考虑两种场景:zero-shot与zero-shot+CoT(即先让模型输出chain-of-thought,再让模型输出所选答案)。

 

 

评估结果表明,LongBench v2对当前LLMs来说是一个巨大的挑战,即使是表现最好的模型,在直接输出答案的情况下,也仅取得了50.1%的准确率,而引入了更长推理链的o1-preview模型则取得了57.7%的准确率,超过了人类专家4%。

1、Scaling Inference-Time Compute的重要性

评估结果中一个非常重要的发现是,通过扩展推理时间计算(Scaling Inference-Time Compute),可以显著提升模型在LongBench v2上的表现。例如,o1-preview模型相比于GPT-4o,通过集成更多推理步骤,在多文档问答、长文本语境学习和代码仓库理解等任务上取得了显著的提升。

这表明,LongBench v2对当前模型的推理能力提出了更高的要求,而增加推理时间的思考和推理似乎是解决此类长文本推理挑战的一个自然且关键的步骤。

2、RAG + Long-context实验

 

 

实验发现,Qwen2.5和GLM-4-Plus两个模型在检索块数量超过一定阈值(32k tokens,约64个512长度的块)后,性能并没有显著提升,甚至出现下降的情况。

这表明简单地增加检索到的信息量并不总能带来性能的提升。相比之下,GPT-4o能够有效利用更长的检索上下文,其最佳RAG性能出现在128k检索长度时。

总结来说,在面对需要深度理解和推理的长文本问答任务时,RAG的作用有限,特别是当检索块数量超过一定阈值后。模型需要具备更强的推理能力,而不仅仅是依赖检索到的信息,才能有效处理LongBench v2中的挑战性问题。

 

这也暗示了未来的研究方向也需要更多地关注如何提升模型自身的长文本理解和推理能力,而不仅仅是依赖外部检索。

我们期待LongBench v2能够推动长文本理解和推理技术的发展。欢迎阅读我们的论文,使用我们的数据并了解更多!

主页:https://longbench2.github.io

论文:https://arxiv.org/abs/2412.15204

数据与代码:https://github.com/THUDM/LongBench

相关推荐

暂无评论

发表评论