人工智能领域迎来了DeepSeek-R1的全新突破,该技术的推出标志着AI产业的重大进步。其核心的多头潜在注意力网络(MLA)架构,通过低秩压缩技术,大幅降低了训练和推理的成本,仅需同等性能大模型成本的十分之一。这一创新成果是由复旦大学NLP实验室的博士后纪焘及其团队共同努力的结晶,旨在使任何预训练的大语言模型能快速适配MLA架构,无需重新训练。
当前,主流的大模型多基于标准的多头注意力机制(MHA)及其变种,这些模型在推理成本上与MLA相比存在明显不足。为此,研究团队提出了MHA2MLA框架,通过部分RoPE保留和键值联合表示低秩近似两个关键步骤,成功实现了MHA/GQA架构向MLA的转换。
MHA2MLA框架的实施过程中,团队首先采用部分RoPE微调策略,将位置编码从大维度中分离,保留了与位置相关的少量维度,解决了MLA和RoPE之间的冲突。随后,通过奇异值分解(SVD)技术对键值向量进行低秩近似,最大化保留预训练知识,同时显著减少缓存空间。实验显示,仅需使用预训练数据的0.3%至0.6%进行微调,即可基本恢复迁移过程中的性能损失。
当MHA2MLA框架与其他高效推理技术,如4-bit KV缓存量化结合时,Llama2-7B模型的KV缓存减少了92.19%,性能损失仅为0.5%。这充分展示了MHA2MLA框架在压缩技术上的卓越兼容性,同时保持了模型的推理能力和长上下文处理能力,为部署资源高效的大语言模型提供了新的解决方案。
尽管如此,研究团队也指出,实验受限于硬件条件,尚未涵盖如Llama3等需进行128K长上下文微调的模型。未来的研究将致力于扩展至更多模型架构,并融合参数高效微调策略,进一步减少迁移过程中的参数更新规模。
暂无评论