炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!
(来源:量子位)
上市后的仅15天,摩尔线程
在这次首届、也是国内首个聚焦全功能GPU的开发者大会中,围绕着MUSA这个关键词,新品可谓是目接不暇:
这并非零散的产品更新,而是摩尔线程用一套从云到端、从算力到生态的组合拳。
在长达2个多小时的发布中,最直观的感受就是,摩尔线程,已经把国产GPU推向了下一个level。
接下来,我们就从最最最核心的全新GPU架构花港为起点,对此次开发者大会一探究竟。
什么是MUSA?
它的全名叫做Meta-computing Unified System Architecture,是摩尔线程自主研发的元计算统一计算架构。
该怎么理解?可以说,从芯片架构、指令集、编程模型,到软件运行库及驱动程序框架,都属于MUSA的范畴。
历经五年的发展,MUSA已经完整定义了全功能GPU从芯片设计到软件生态的统一技术标准,并且支持AI计算、图形渲染、物理仿真和科学计算、超高清视频编解码等全场景高性能计算。
若是纵观MUSA硬件架构这几年的迭代,从苏堤、春晓、曲院,再到平湖,每一次的升级都是在探索着GPU算力的边界。
最新发布的第五代全功能GPU架构花港,亦是如此:
尤为值得关注的是,花港在低精度计算上的深度优化。架构新增了MTFP6/MTFP4及混合低精度端到端加速技术,专为未来AI主流场景——低比特训练与推理而生。
在Attention机制的关键路径上,花港原生支持矩阵rowmax计算,大幅提升混合精度SIMT吞吐量,并内置在线量化/反量化、随机舍入等硬件加速能力,为下一代Transformer引擎(如MT Transformer Engine)提供底层支撑。
如果说硬件架构是能力的基石,那么软件栈,就是将这些能力交到开发者手中的具体路径。
除了架构本身之外,摩尔线程这次还同步推出了MUSA软件栈5.0,构建从编译器、算子库到AI框架的全栈工具链:
更关键的是,摩尔线程宣布将逐步开源MATE算子库、MUTLASS、MT DeepEP通信库、KUAE云原生工具包等核心组件,向开发者社区开放底层能力,加速生态构建。
不难看出,MUSA并未将自身定位为单纯的AI加速器,而是以“全功能 GPU”为锚点,将 AI 能力深度嵌入图形渲染、物理仿真、量子计算等高价值垂直场景。
这种从通用底座向产业纵深延伸的架构哲学,使其区别于纯粹的大模型训练卡,而更接近英伟达 CUDA 生态早期“以通用可编程性撬动多元应用”的战略路径。
可以说,MUSA 不仅是中国首个全功能GPU架构,更是对“下一代 AI 基础设施应长什么样”的一次系统性回答——
它不再只是算力的提供者,而是多模态智能、具身智能乃至物理AI时代的关键使能平台。在这一意义上,摩尔线程的架构创新,已不仅是技术突破,更是对未来 AI 产业格局的一次主动定义。
而围绕着新升级的MUSA,摩尔线程这次还祭出了更多重磅产品。
首先基于花港架构,摩尔线程发布了两款芯片路线。
第一个便是聚焦在AI训推一体及高性能计算的GPU——华山
它的核心亮点可以总结为:
并且从浮点算力、访存宽带、访存容量和高速互联宽带等维度来看,华山正在追赶英伟达的系列产品。
华山的推出,标志着摩尔线程正式具备支撑万亿参数大模型训练的能力,为国产AI基础设施补上关键一环。
如果说华山主攻A 算力,那么接下来的GPU——庐山,则专为图形计算而生。
相比上一代产品,其AI计算性能提升了惊人的64倍,3A游戏渲染性能提升15倍。
庐山引入了AI生成式渲染架构(AGR)和硬件光追引擎,支持DirectX 12 Ultimate。这意味着,国产显卡正式迈入“光追+AI渲染”的新范式,不仅仅是“算”画面,更是“生成”画面。
除此之外,在端侧,摩尔线程还首次推出了智能SoC芯片——长江
据了解,长江芯片不局限于传统PC或服务器,而是面向具身智能、车载、AI计算终端等端侧场景,提供50 TOPS的异构AI算力。
有了芯片,自然要有承载的载体。
基于长江芯片,摩尔线程这次还发布了两个非常亮眼的硬件产品。
首先就是MTT AIBOOK
这个算力本是专门为AI学习与开发者打造的个人智算平台,运行基于Linux内核的MT AIOS操作系统,具备多系统兼容能力,并预置完整AI开发环境与工具链,通过虚拟化和安卓容器,可无缝运行Windows与安卓应用。
如此一来,你就可以直接在上面跑大模型、搞Agent开发。
MTT AIBOOK内置的智能体小麦,还支持2K高清渲染、本地大模型(如 MUSAChat-72B)、端侧 ASR/TTS,这就让它从工具变成了超级个体助手。
并且MTT AIBOOK还预装了智源悟界Emu3.5多模态模型,开箱即可文本生图、编辑图像。
除此之外,针对端侧场景,摩尔线程还推出了桌面上的AI小钢炮——AICube
它更像是一个高性能的AI计算魔方,让开发者在桌面上就能轻松获取算力支持,处理复杂的推理任务。
最后,也是最重磅的——夸娥(KUAE 2.0)万卡智算集群;毕竟在大模型领域,万卡集群是公认的入场券。
摩尔线程此次宣布,其万卡集群在Dense大模型上的算力利用率(MFU)达60%,在MOE大模型上达40%,有效训练时间占比超过90%。
最硬核的消息是:摩尔线程已完整复现了DeepSeek V3的FP8训练。 依靠S5000对低精度算子的优化,其自研FP8 GEMM算力利用率高达90%。
在这次大会上,摩尔线程还前瞻性地披露了下一代高密硬件基石——MTT C256超节点。
这款产品采用了计算与交换一体化的高密设计。它的出现,是为了系统性地提升万卡集群在超大规模智算中心里的能效比和训练效能。
这个量级的表现,意味着它已经具备了正面硬刚国际主流Hopper架构AI GPU的底气,是未来超大规模大模型训练和实时推理的国产标准答案
并且就在最近,摩尔线程还和硅基流动(SiliconFlow)联合宣布:
基于硅基流动高性能推理引擎,双方已在摩尔线程MTT S5000 GPU上成功完成对DeepSeek V3 671B满血版大模型的深度适配与性能验证。
在FP8低精度推理技术加持下,MTT S5000单卡实测Prefill吞吐突破4000 tokens/s,Decode吞吐超1000 tokens/s,创下当前国产GPU在大模型推理场景下的新高。
这一成果不仅刷新了国产GPU的推理性能基准,更传递出一个关键信号:
在成熟软件工程体系(如MUSA架构与硅基流动推理引擎)的协同优化下,国产算力硬件正从“能跑”迈向“跑得快、跑得稳、跑得值”。
换句话说:单位算力的有效利用率,正在成为国产AI芯片真正落地的关键指标——而摩尔线程,这次交出了一份高分答卷。
在全球算力竞争日益白热化的今天,单一芯片的性能优势已不足以构建护城河。
真正的壁垒,在于软件生态、硬件协同、场景落地与开发者信任的综合能力。
摩尔线程深谙此道,它的选择也非常清晰:不走局部替代路线,而是以“MUSA架构+国产GPU+全场景产品”三位一体,打造一个从底层指令集到上层应用的完整生态闭环。
这不仅包括人才生态,更涵盖繁荣的软件开发生态——从自研编译器、高性能算子库,到对主流AI框架的广泛适配,摩尔线程提供了释放算力所需的全套软件工具链;同时,通过AIBOOK等面向开发者的硬件入口产品,让开发者能够随时随地接入并高效使用MUSA算力,真正实现软硬协同、端云一体的全场景覆盖。
但除此之外,开发者和开发生态,亦是其中非常关键的一环。
这便是摩尔线程打造摩尔学院(MUSA开发者的成长平台)的原因了。
截止2025年12月,摩尔学院已经汇聚了20万名开发者。摩尔线程的目标更宏大:培育百万规模的MUSA开发者社群。
为此,他们不仅提供了从入门到大师的专业课程,还把根扎到了人才源头——走进全国200所高校。通过产教融合、联合实验室以及“繁星计划”等竞赛,摩尔线程正在从象牙塔开始,培养属于自己的、懂国产架构的原生代开发者。
这也印证了中国工程院院士、清华大学计算机系教授郑伟民的观点:“国产GPU的关键,在于要从能跑到愿意用。”
整体来看,当别人还在争论“国产 GPU 能不能用”时,摩尔线程已经通过从软件栈工具、硬件入口到人才培育的全链路布局,让开发者问出另一个问题:“我的下一个项目,能不能全在 MUSA 生态里完成?”
这,或许才是真正的突破。