Q-Filters:高效KV缓存压缩技术,优化LLMs内存使用

近年来,Transformer架构的大型语言模型(LLMs)在性能上取得了显著突破,例如Gemini-Pro1.5、Claude-3、GPT-4和Llama-3.1等新模型能处理成百上千的token。然而,这些模型的扩展上下文长度也带来了实际应用中的挑战。随着序列长度的增加,解码延迟上升,内存限制成为瓶颈。KV缓存用于推理过程中的上下文信息存储,上下文长度增加导致缓存大小成比例增长,内存饱和问题严重影响了处理长输入序列的效率,因此迫切需要优化解决方案。

尽管市场上存在一些无训练的方法,但它们通常依赖于获取注意力权重来确定键值对的重要性,与高效的注意力算法(如FlashAttention)不兼容。这些方法往往需要对注意力矩阵进行部分重新计算,从而引入时间和内存开销。因此,现有的压缩算法主要用于在生成答案之前压缩提示,而非优化在内存受限的生成过程中。这一局限性强调了需要开发既能保持模型性能又不需要架构修改的压缩技术。

索邦大学、法国国家信息与自动化研究所、罗马萨平扎大学、爱丁堡大学和Miniml.AI的研究团队提出了Q-Filters,这是一种强大的无训练KV缓存压缩技术,通过基于查询的过滤方法优化内存使用,同时保持模型性能。Q-Filters通过评估与当前查询相关的键值对的重要性,而不是依赖于注意力权重,确保了与高效注意力算法的兼容性,且无需重新训练或修改架构。通过动态评估并保留最相关的上下文信息,Q-Filters实现了显著的内存减少,同时维持了推理质量。

Q-Filters在多个评估场景中表现出色,始终优于现有的KV缓存压缩方法。在对Pile数据集的语言建模测试中,该技术在所有压缩方案中实现了最低的困惑度。特别是在Llama-3.1-70B模型上,Q-Filters在上下文保留至关重要的序列后半部分显示出显著的困惑度降低。

在“针在干草堆”任务中,Q-Filters保持了91%的准确率,成功地保存了极端上下文长度(从1K到64K token)中的重要信息。综合评估还验证了该方法的优越性,尤其是在高压缩率下(32倍),Q-Filters在长上下文建模基准测试中取得了最高分。

论文链接:https://arxiv.org/abs/2503.02812

huggingface链接:https://huggingface.co/collections/nthngdy/q-filters-67a4994dcb302a3d37f3d119

划重点:
🔍 Q-Filters是一种无训练的KV缓存压缩技术,能够有效优化内存使用而不损失模型性能。
📊 该方法在多个评估中表现优越,特别是在语言建模和极端上下文任务上取得了最低的困惑度和最高的准确率。
🛠️ Q-Filters与高效注意力算法兼容,且只需在模型训练后进行一次准备步骤,便可用于实际应用。

相关推荐

暂无评论

发表评论