2月26日,在开源周第三天,DeepSeek宣布开放高效的FP8 GEMM库DeepGEMM。这三天的发布内容都与算法相关,偏向技术层面。大模型生态社区OpenCSG创始人陈冉举例说,以前DeepSeek直接提供一个产品并说明其性能,现在则深入探讨实现高性能的具体方法和框架。这些“脚手架”的开源有助于后续生态建设。
此次发布的关键词是GEMM(通用矩阵乘法),这是一种线性代数中的基本运算。FP8 GEMM是一种使用8位浮点数进行矩阵乘法的操作,适用于深度学习和高性能计算,能在保持高效率的同时减少内存占用和带宽需求。据DeepSeek介绍,DeepGEMM支持传统稠密模型和MoE(混合专家)模型的GEMM运算,为基于英伟达Hopper架构(如H100 GPU)的V3/R1系列硬件提供高效训练和推理支持。
在英伟达Hopper架构的GPU上,DeepGEMM可实现超过1350 FP8 TFLOPS的性能,充分利用了算力。该代码库设计简洁,只有一个核心内核函数,约300行代码,但在大多数矩阵规模上优于专家调优的内核。DeepGEMM通过FP8和硬件级优化解决了大模型计算效率和资源消耗问题,尤其是对MoE模型的支持。开源行为加速了技术民主化,可能成为AI计算生态的基础设施,推动行业向更高效、低成本的方向发展。
FP8作为AI计算的新兴标准,可以加速千亿参数模型的训练,降低显存需求。在边缘设备或云端部署时,FP8的低精度计算能显著提升吞吐量,降低成本。因此,开源DeepGEMM有助于推动FP8生态普及,降低开发者使用门槛,促进更多框架和模型适配FP8,加速行业向低精度计算迁移。此外,DeepGEMM的开源还提供了高效实现MoE模型的参考,可能催生更多应用,如多模态模型和边缘端高效模型。