月之暗面科技有限公司与清华大学MADSys实验室合作,推出了名为Mooncake的开源项目,旨在打造以KVCache为核心的大模型推理架构。2024年6月,双方联合发布了Kimi的Mooncake推理系统设计方案,该方案基于PD分离与存换算架构,在推理吞吐量上实现了显著提升,赢得了业界的广泛关注。
Mooncake项目起源于相关论文,围绕超大规模KVCache缓存池展开,采用以存换算的创新概念,以降低算力消耗并提高推理吞吐量。该项目将逐步以分阶段开源的方式推出高性能KVCache多级缓存实现——Mooncake Store,同时确保与各种推理引擎及底层存储/传输资源的兼容性。目前,传输引擎Transfer Engine的部分功能已在GitHub上全球开源。
月之暗面Kimi工程副总裁许欣然表示,通过与清华大学MADSys实验室的深入合作,成功构建了分离式大模型推理架构Mooncake,实现了推理资源的优化。Mooncake不仅提升了Kimi的用户体验,还降低了相关成本,为长文本处理和高并发场景提供了有效解决方案。公司坚信,通过与产学研机构的开放合作,将推动整个行业向更加高效的推理平台发展,并邀请更多企业及研究机构参与Mooncake项目的共建,以共同探寻更高效、先进的模型推理系统架构的创新,确保基于大模型技术的AI助手等产品能惠及更广泛的用户群体。
项目地址:https://github.com/kvcache-ai/Mooncake
暂无评论