华为云上线“核弹级产品” 高功耗或对散热提出考验（微信文章未删减版）

主要观点总结

华为公布了AI基础设施架构的新进展，推出了CloudMatrix 384超节点，并在芜湖数据中心规模上线。华为内部人士将其称为核弹级产品，旨在解决算力焦虑。该超节点可以构建超过万片的大集群提供算力，性能与可靠性对标英伟达NVL72超节点。此外，硅基流动联合华为云基于CloudMatrix 384超节点推出了DeepSeek-R1，取得了良好的模型精度和性能表现。然而，国产芯片在单位算力功耗方面仍高于英伟达芯片，需要关注散热和整体成本问题。

关键观点总结

关键观点1: 华为推出CloudMatrix 384超节点

华为近日公布了AI基础设施架构的新进展，并推出了CloudMatrix 384超节点，在芜湖数据中心规模上线。该超节点使用昇腾算力卡组成，是目前已商用的超节点中规模最大的。

关键观点2: CloudMatrix 384超节点的性能与可靠性

华为CloudMatrix 384超节点在性能与可靠性方面对标英伟达的NVL72超节点。基于CloudMatrix的昇腾AI云服务，大模型训练作业可稳定运行40天，互联带宽断点恢复在10秒级别。

关键观点3: 硅基流动与华为的合作

硅基流动联合华为云基于CloudMatrix 384超节点昇腾云服务上线了DeepSeek-R1，其性能表现良好，模型精度与DeepSeek官方保持一致。此外，国产芯片与英伟达芯片在单卡性能方面仍存在一定差距，但通过多卡集群后差距会缩小。

关键观点4: 单位算力功耗问题

国产芯片在单位算力功耗方面仍高于英伟达芯片。这涉及到服务器散热和整体成本问题，需要关注并采取相应的解决方案。

关键观点5: 行业巨头的竞争与挑战

随着大模型浪潮的到来，行业巨头需要连接起成千上万的GPU算力卡，这对互联和通信提出了更高的要求。华为推出CloudMatrix 384超节点体现了其强大的研发能力，但也需要面对功耗和成本等挑战。

正文

文|黄心怡

近日，华为公布了AI基础设施架构的新进展，推出CloudMatrix 384超节点，并已在芜湖数据中心规模上线。《科创板日报》独家了解到，华为云CloudMatrix384超节点今年上半年将有数万规模的上线。华为内部人士称其为核弹级的产品，或将彻底终结算力焦虑。未来，CloudMatrix超节点可以构建超过万片的大集群来提供算力。

传统的AI服务器通常包括8张算力卡，一台服务器就称为一个节点。在服务器内部，这8张算力卡之间传输速度很快，但服务器与服务器之间的传输速度则慢得多。伴随大模型浪潮的到来，行业巨头需要连接起成千上万、乃至10万计的GPU算力卡，这使得互联和通信成了一个大麻烦。

如果能够采用高速通信技术把更多的算力卡融合在一起，成为一个超节点，那么超节点内的算力卡都可以实现高速互联和通信，就能大大提升算力集群的性能。

2024年3月，英伟达率先发布了NVL72超节点，可以把72张训练卡组成一个超节点，为万亿参数的大型语言模型推理提供了30倍实时速度提升。而这次发布的华为CloudMatrix 384更进一步，以384张昇腾算力卡组成一个超节点，在目前已商用的超节点中单体规模最大。

据悉，华为CloudMatrix 384在规模、性能和可靠性上对标英伟达NVL72，基于CloudMatrix的昇腾AI云服务，大模型训练作业可稳定运行40天，互联带宽断点恢复在10秒级别。在互联带宽上，超节点网络交换机采用6812个400G光模块，实现2.8Tbps卡间互联带宽。

《科创板日报》从硅基流动方面了解到，硅基流动已经联合华为云基于CloudMatrix384超节点昇腾云服务正式上线DeepSeek-R1，在保证单用户20TPS水平前提下，单卡Decode吞吐突破1920Tokens/s，可比肩H100部署性能。同时，经过主流测试集验证及大规模线上盲测，在昇腾算力部署DeepSeek-R1的模型精度与DeepSeek官方保持一致。

目前，国产芯片与英伟达芯片在单卡性能方面仍存在一定的差距，但通过多卡集群后差距就会缩小。华为公布的数据显示，CloudMatrix 384实现算力规模达300PFlops，相比英伟达NVL72的180PFlops提升67%。

不过，在单位算力功耗方面，国产芯片仍比英伟达高得多。

一位芯片业内人士对《科创板日报》表示，华为公开的数据没有提到CloudMatrix 384的算力功耗比。更高的功耗对于服务器散热要求也更高，机房规模会更大，导致整体成本上升。此外，算力卡数量较多的话，数据需要在多卡之间来回传输，会有更大的时间开销。

“当然即使在功耗更大的情况下，能做NVL72的水平也相当不容易了，体现了华为研发能力很强。”上述人士称。

国泰海通证券表示，华为云推出CloudMatrix 384超节点，单用户20TPS前提下，单卡Decode吞吐突破1920Tokens/s，比肩全球主流GPU部署性能，超节点机柜在集群推理方面具备优势。随着国内外硬件供应瓶颈逐步缓解，看好国内AI进展加速。