北京大学张牧涵团队创新性地提出了Long Input Fine-Tuning(LIFT)框架,该框架通过将长输入文本融入模型参数,赋予短上下文窗口模型处理长文本的能力。这一突破性方法摒弃了传统长文本处理方法,不再局限于无限扩展上下文窗口,而是将长文本知识内化至模型参数,仿佛人类将工作记忆转化为长期记忆的过程。
当前大模型在处理长文本时面临两大挑战:
传统注意力机制的平方复杂度导致处理长文本时计算和内存消耗巨大,模型难以把握长文本中的长程依赖关系。
现有解决方案如RAG和长上下文适配存在局限性:
RAG依赖于准确的检索,易引入噪声导致幻觉;长上下文适配的推理复杂度高,上下文窗口仍有限。
LIFT框架的技术创新
LIFT框架包含三个核心组件:
动态高效的长输入训练:通过分段的语言建模将长文本切分为重叠片段,避免因过长上下文造成的推理复杂度提升和长程依赖丢失,训练复杂度与长文本长度呈线性增长。
平衡模型能力的门控记忆适配器:设计专门的Gated Memory Adapter架构,动态平衡原始模型的In-Context Learning能力和对长输入的记忆理解,允许模型根据查询自动调整使用LIFT记忆的内容。
辅助任务训练:通过预训练LLM基于长文本自动生成问答类辅助任务,补偿模型在切段训练中可能损失的能力,帮助模型学会应用长文本中的信息回答问题。
实验结果
LIFT在多个长上下文基准测试中表现出显著提升:
LooGLE长依赖问答:Llama38B的正确率从15.44%提升至29.97%;LooGLE短依赖问答:Gemma29B的正确率从37.37%提升至50.33%;LongBench多项子任务:Llama3通过LIFT在5个子任务中的4个有明显提升。
消融实验表明,与使用PiSSA微调的原模型相比,Gated Memory架构在LooGLE ShortQA数据集上的GPT-4score提升了5.48%。
局限与未来发展方向
尽管LIFT取得了显著成果,但仍存在一些局限性:
对需要精确信息提取的“大海捞针”任务效果仍不理想;模型对LIFT获得的参数化知识提取能力有待优化;辅助任务的设计严重依赖下游测试任务,通用性有限;如何更好地平衡记忆和原有能力仍是研究重点。
研究团队鼓励社区共同探索LIFT在更广泛的训练数据、更丰富的模型、更先进的辅助任务设计以及更强计算资源支持下的潜力。
结论
LIFT提供了一种全新的长文本处理范式,将上下文知识转化为参数化知识,这一思路与人类短期记忆转化为长期记忆的过程相似。虽然距离彻底解决长上下文挑战仍有距离,但LIFT开辟了一个极具潜力的研究方向。
论文地址:https://arxiv.org/abs/2502.14644
暂无评论