华为云黄瑾：传统计算架构难支持AI代际跃迁，超节点架构是创新

欙鳇茽餐新闻网

华为云黄瑾：传统计算架构难支持AI代际跃迁，超节点架构是创新

2025-05-16 20:54:10

阅读（6440）

新京报贝壳财经讯（记者韦博雅）5月16日，在华为云AI峰会上，华为云副总裁黄瑾表示，随着大模型锻炼和推理对算力需求的爆炸式增进，传统较量争论架构已难以支持AI技能的代际跃迁，超节点架构的诞生不仅是技能的冲破，更是以工程化立异拓荒AI产业的新途径。

黄瑾表示，AI算力的瓶颈，从单卡算力的瓶颈到单机内总线带宽的瓶颈，再到现在集群间通信带宽的瓶颈，需求增进了1万倍。然而过去的8年里，单卡硬件的算力增进了40倍，但是节点内的总线带宽只增进了9倍，跨节点的网络带宽只增进了4倍，这使得集群网络通信成为当前大模型锻炼和推理的最大挑战。

黄瑾介绍，华为云推出的CloudMatrix 384超节点，直面通信效率瓶颈、内存墙限制、可靠性短板三大技能挑战，通过新型高速互联总线完成384张卡互联成为一个超级云服务器，最高提供300Pflops的算力规模，比英伟达NVL72 180Pflops的算力规模提升了67%。

同时，华为云CloudMatrix 384超节点具备MoE亲和、以网强算、以存强算、长稳可靠、朝推夜训、即开即用六大技能劣势。

在CloudMatrix 384超节点的分布式推理平台的加持下，通太高速互联总线，能够完成一卡一专家高效分布式推理，单卡的MoE较量争论和通信效率大幅提升。而MatrixLink服务具有两层网络：超节点内部的ScaleUp总线网络和跨超节点间的ScaleOut网络，能够让超节点内384张卡高速互联，时延低至微秒。

除此之外，华为云首创的EMS弹性内存存储，通过内存池化技能，完成显存和算力解绑，可大幅提升资本利用率、性能和吞吐量，好比用EMS替代NPU中的显存，能够使得首Token时延低落，最高降幅可达80%；昇腾云脑运维“1-3-10”标准还将硬件妨碍感知率从40%提升至90%。

编纂岳彩周

校对穆祥桐

发布于：北京市

赞 2 收藏