国产算力迈入“万卡”期间：摩尔线程发布新一代GPU架构，中科朝阳发布万卡超集群

经济不雅察报记者郑晨烨

12月20日，北京中关村海外更动中心，（688795.SH）举办了首届MUSA诞生者大会，在现场，这家刚登陆A股市集的国产GPU公司，发布了其最新的全功能GPU架构“花港”，以及基于该架构的芯片门路图。

就在这场诞生者大会举办的两天前，12月18日，另一家老牌国产算力系统厂商中科朝阳（603019.SH），对外发布了名为“scaleX”的万卡超集群系统。

在2025年行将终结时，国产算力产业链拿出了两份有本体性冲破的新后果，同期也不出丑出，国产算力的竞争焦点，依然从单纯比拼单张显卡的参数，转变到了若何构建一个能相识运转的万卡级系统上。

关于正在老师万亿参数大模子的下搭客户来说，单张芯片的性能早已不是独一的考量圭表。

当模子参数目冲破万亿，单一芯片的物感性能涉及瓶颈，算力的耕作只可依靠规模堆叠。行业靠近的中枢问题，酿成了若何让一万张盘算推算卡像一张卡同样协同责任。

在12月20日的发布会上，摩尔线程试图从底层的芯片架构层面惩处这个问题。

凭据现场信息，其最新的“花港”架构，最中枢的变化在于盘算推算密度的耕作与对低精度的支捏，摩尔线程官方数据表现，相较于上一代家具，新架构的算力密度耕作了50%，效用耕作了10倍。

此外，“花港”架构还支捏从FP4到FP64的全精度盘算推算，并新增了对MTFP6、MTFP4及搀和低精度的支捏。

基于这一新架构，摩尔线程公布了两款将来芯片的标的，“华山”与“庐山”。

“华山”定位为AI训推一体芯片，专攻大规模智算，旨在为万卡级智算集群提供算力接济。“庐山”则专注于高性能图形渲染，官方数据表现，“庐山”的AI盘算推算性能较前代耕作64倍，色泽跟踪性能耕作50%。

从对下一代家具的标的上看，摩尔线程依然持续坚捏走“全功能GPU”的技巧门路，即同期掩盖图形渲染与东谈主工智能盘算推算两个市集。

就在摩尔线程发布新架构的前两天，中科朝阳也发布了scaleX万卡超集群系统，这是国产万卡级算力集群初次以真机神情公开亮相。

与芯片厂商侧重于微不雅架构的视角不同，中科朝阳惩处的是算力堆叠后的物理与工程繁重。

构建一个万卡集群，最大的挑战不仅在于软件，还需要惩处散热、供电与物理空间终结等多重挑战。

当上万张高功率的算力芯片蚁集在一个数据中心时，产生的热量和破费的电力是惊东谈主的。

中科朝阳12月18日发布的scaleX万卡集群系统，由16个scaleX640超节点通过scaleFabric高速鸠合互连而成，推测可部署10240块AI加快卡。

为了惩处高密度带来的散热问题，该系统吸收了浸没相变液冷技巧。

官方数据表现，scaleX万卡集群系统单机柜算力密度比拟业界耕作了20倍，PUE（动力使用效率）值降至1.04。

这意味着，在同等的物理空间和电力供给下，液冷技巧粗略容纳更多的算力密度。关于寸土寸金的数据中心而言，这告成关系到运营资本和算力部署的上限。

在惩处了“热”和“电”的问题后，横亘在万卡集群眼前的另一王人墙，是“网”。

在漫步式盘算推算中，当GPU数目加多到一定例模时，节点间的通讯蔓延会成为连累全体性能的短板，若是鸠合带宽不够，盘算推算卡盘算推算得再快，也得停驻来恭候数据传输，这即是业内常说的“通讯墙”。

两家公司也都拿出了针对这一问题的惩处有研讨。

摩尔线程在“花港”架构中集成了新一代异步编程模子，并通过自研的MTLink互联技巧，声称支捏十万卡以上规模的智算集群推广；而中科朝阳则发布了scaleFabric鸠合，基于国内首款400G类InfiniBand的原生RDMA网卡与交换芯片，终结了400Gb/s的带宽与低于1微秒的端侧通讯蔓延。

除了老师端的竞赛，大模子期骗落地带来的推理需求，也成为两大厂商关爱的另一个重点。

跟着DeepSeek等国产大模子的参数目达到671B（6710亿）级别，如安在国产硬件上跑通这些“短小精悍”，成为熟谙硬件厂商成色的试金石。

摩尔线程在现场展示了其与硅基流动相助的测试数据：在DeepSeek R1 671B全量模子上，其MTT S5000单卡Prefill（预填充）隐约量冲破4000 tokens/s，Decode（解码）隐约量冲破1000 tokens/s。

浅薄来说，国产GPU在支吾千亿参数大模子的复杂推理任务时，依然具备了跑通全历程的隐约才气。

硬件的堆叠终究仅仅基础，算力的开释最终依赖于软件生态的老练度。

摩尔线程在大会上晓示其MUSA和解架构升级至5.0版块，并线路了中枢思算库muDNN在GEMM（通用矩阵乘法）与FlashAttention（闪电阻止力机制）上的效率跳动98%。

在硬件规格靠近海外主活水平后，国产厂商的研发重点正在向软件栈的优化转变，试图修补永恒以来在CUDA生态眼前的短板。

与此同期，中科朝阳方面也强调了其系统的兼容性。

scaleX万卡超集群支捏多品牌加快卡，并已完成400余个主流大模子的适配优化，这种盛开架构的战略，亦响应了系统厂商在多芯片共存期间的生涯逻辑，不绑定单一芯片，而是提供一个粗略兼容不同国产算力的底座。

（作家郑晨烨）

免责声明：本文不雅点仅代表作家本东谈主，供参考、疏通，不组成任何忽视。

郑晨烨

深圳采访部记者关爱新动力、半导体、智能汽车等新产业规模，有陈迹接待干系：zhengchenye@eeo.com.cn，微信：zcy096x。