国产算力，重大进展（微信文章未删减版）

正文

3月11日，科大讯飞研究院公众号披露，科大讯飞携手华为在国产算力领域取得重大进展，双方联合团队率先突破国产算力集群上MoE模型（混合专家模型）的大规模跨节点专家并行集群推理。

这是继DeepSeek公布其MoE模型训练推理方案后，业界首个基于国产算力的全新解决方案。

业内分析人士称，之前DeepSeek是基于英伟达实现大规模跨节点专家并行集群推理，现在科大讯飞基于昇腾实现了这个方案。

科大讯飞研究院表示，这一突破性的解决方案将应用于讯飞星火深度推理模型的训练加速，预期训练时推理效率将提升200%。同时，基于该方案的推理引擎也实现了国产算力上DeepSeek-V3和R1的高效推理。

DeepSeek激发了新一波AI创新浪潮，强大的算力底座成为创新的关键。据了解，国内很多企业与机构选择基于昇腾部署DeepSeek，昇腾相关产品和解决方案已覆盖互联网、金融、运营商、政务、教育等30多个行业。其中，已有70多家软硬件企业或机构基于昇腾推出DeepSeek一体机方案。

12日盘中，算力概念板块大涨，临近尾盘，涨幅略有收窄。

首个基于国产算力的MoE模型推理方案

据介绍，科大讯飞与华为的联合团队通过软硬件的深度协同创新，在多个关键技术层面深挖硬件潜力，完成昇腾集群上的验证和部署。

在算子融合方面，团队在MLA预处理阶段通过Vector与Cube异构计算单元并行流水，并将多个小算子融合重构为原子级计算单元，消除小算子下发开销，MLA前处理时延降低超过50%，实现性能的显著提升。

科大讯飞研究院介绍称，在混合并行策略和通信计算并行优化方面，团队构建了TP（张量并行）+EP（专家并行）混合范式：对MLA计算层采用机内TP并行，发挥机内高速互联优势，降低跨机通信损耗；创新MoE专家分层调度，64卡均衡分配专家计算节点，定制All To All通信协议，专家数据交换效率提升40%，构建跨机/机内双层通信架构，通过分层优化降低跨机流量60%；同时研发路由专家负载均衡算法，实现卡间负载差异小于10%，集群吞吐提升30%。

通过分布式架构创新与算法协同优化，联合团队在国产算力上实现了显著的性能提升。单卡静态内存占用缩减至双机部署的1/4，效率提升75%，专家计算密度增加4倍，推理吞吐提升3.2倍，端到端时延降低50%。

此外，近期科大讯飞深度推理大模型星火X1也完成升级，在完全采用国产算力训练的前提下，在模型参数量比业界同行少一个数量级的情况下，星火X1的数学能力全面对标DeepSeek-R1和OpenAI o1，在中文数学各项任务中“均实现领先”。

70%企业与机构选择昇腾构建算力底座

DeepSeek激发了新一波AI创新浪潮，据上证报了解，春节后大量企业、政府部门集中部署DeepSeek大模型，导致AI芯片、服务器等订单爆满，一些服务器供应商称“接到非常多急单”“订单多到做不过来”。

“从模型发布到昇腾平台上线，昇腾与DeepSeek实现了‘全流程适配’。截至2025年2月12日，国内70%的企业与机构选择基于昇腾部署DeepSeek，覆盖金融、政务、教育等30余个行业。目前，这一数据还在呈指数级增加。”华为中国政企昇腾计算业务总监马栋方近日表示。

华为方面透露，目前已有逾100家企业或机构基于昇腾快速适配或上线了DeepSeek系列模型并对外提供服务。另外，昇腾已助力20多个省份、25城市人工智能计算中心启动部署DeepSeek系列模型，全国超70%区域可获取服务。

据介绍，昇腾通过形态丰富的产品和解决方案，如一体机、云服务、硬件+开源社区等，帮助企业或政府机构快速部署DeepSeek，目前相关产品和解决方案已覆盖互联网、金融、运营商、政务、教育等多个行业。

作者：时娜