DeepSeek 开源周的第三天,带来了专为 Hopper 架构 GPU 优化的矩阵乘法库——DeepGEMM。这一库支持标准矩阵计算和混合专家模型(MoE)计算,为 DeepSeek-V3/R1 的训练和推理提供强大支持,在 Hopper GPU 上达到 1350+FP8 TFLOPS 的高性能。 DeepGEMM 的设计理念是简洁高效 ...
根据快科技的消息称,今天(2月24日)DeepSeek正式启动开源周,首个开源的代码库为Flash MLA。 据悉这是一个针对Hopper GPU优化的高效MLA解码内核,专为处理可变长度序列而设计,目前已投入实际生产应用。与传统解码器相比,Flash MLA具有在处理可变长度序列时 ...
这是一个针对Hopper GPU优化的高效MLA解码内核,专为处理可变长度序列而设计,目前已投入实际生产应用。 与传统解码器相比,Flash MLA在处理可变 ...