DeepSeek发布DeepGEMM：开源FP8矩阵乘法库，高效AI训练利器

2025-02-26

在“开源周”活动的第三天，中国领先的人工智能企业DeepSeek正式发布了DeepGEMM——一款支持FP8通用矩阵乘法（GEMM）的开源库。该工具针对密集型和混合专家（MoE）矩阵运算进行优化，为DeepSeek V3和R1模型的训练和推理提供了强大的支持。这一消息通过X平台迅速发布，在技术界引起了广泛的关注。

DeepSeek官方账号透露，DeepGEMM在NVIDIA Hopper GPU上能够实现超过1350+ TFLOPS的FP8计算性能。尽管其核心代码仅约300行，但它在多数矩阵尺寸上超越了经过专家调优的内核，展现了卓越的效率和简洁性。该库无需复杂的依赖，采用即时编译（Just-In-Time）技术，支持密集布局和两种MoE布局，设计简洁，便于开发者学习和应用。

在X平台上，用户@TechBitDaily评价说：“DeepGEMM的发布是DeepSeek开源周的亮点之一，其FP8性能和简洁设计给人留下了深刻印象。”另一位用户@AIObserverCN也指出，该库在MoE模型的高效训练方面具有显著优势，有望推动AI社区在Hopper架构上的创新。

DeepGEMM的发布作为开源周的一部分，体现了DeepSeek致力于AI技术透明化和社区协作的承诺。在前两天，DeepSeek已经推出了FlashMLA和DeepEP工具，分别专注于快速语言模型架构和专家并行通信。DeepGEMM的推出，进一步彰显了DeepSeek在AI基础设施构建方面的技术实力。业界人士认为，这款库不仅将提升DeepSeek自家模型的性能，还为全球开发者提供了一个高效、易用的矩阵运算工具，其未来应用前景广阔。用户现在可以通过GitHub获取DeepGEMM，探索其在AI训练与推理中的潜力。

项目地址：https://github.com/deepseek-ai/DeepGEMM

标签：DeepGEMM · FP8计算性能 · MoE模型

暂无评论

发表评论取消回复

要发表评论，您必须先登录。