(来源:劳动报)
转自:劳动报
在上海智能算力科技有限公司松江数据中心,承载着万张GPU芯片的机房昼夜不歇,风扇持续轰鸣。在这里,每张芯片每秒执行万亿次运算,为人工智能企业和科研机构提供坚实可靠的算力底座。建设并守护这片“算力沃土”的智算科技万卡集群攻坚团队,是一群平均年龄不到33岁的年轻人。
破解万卡集群稳定运行难题
如果说算力是AI时代与水电煤一样重要的生产要素,那么智算中心就是支撑大模型和AI应用落地的“数字世界发电站”,万卡集群则是当前其中效率最高的“发电设备”。
智算科技系统工程中心总监、万卡集群攻坚团队负责人胡宝群介绍,万卡集群并不是简单将GPU堆叠在一起就能发挥最大的价值,而是要将一万张左右高性能GPU通过高速网络和配套软硬件连成一个“超级AI计算大脑”,需要几十万个零部件和光纤相互配合。
智算科技选择的多元异构模式,需要让万张来自不同厂商、不同架构、不同性能的GPU能像一个整体一样工作。“很多国产算力芯片在细分领域具有一定优势。”胡宝群介绍,异构在一定程度上可以降低成本,带动国产厂商发展,但也加大了算力集群的建设和运维难度。无论是芯片本身,还是光模块上肉眼不可见的灰尘,都可能导致算力中断,让几十个小时的训练成果付之东流。
面对万卡集群稳定运行难的痛点,团队曾连续79天在机房驻守开展算法攻坚。最终团队给出了“上海方案”:他们首创的“动态感知调度方案”使训练效率快速提升;发生故障技术人员可以“秒级定位”,平均在5分钟以内解决问题,成功实现了集群 99.99%的超高可用性,相当于全年故障时间缩短了378个小时,实现资源调度智能化、运行服务高效化。
目前,智算科技已完成近20款国产AI芯片以及多台套国产并行计算系统的软硬件适配测试,实现了混合架构万卡集群调度技术的自主可控,集群算力规模、性能密度和综合能效比全国领先,为后续超大规模算力集群的标准化建设提供可复制、可推广的实践经验。
以实干淬炼智算人才队伍
大模型和智能体的爆发式增长带来算力需求井喷。智算科技作为上海市智能算力公共服务平台的运营方,承担着保障企业和国家重点科研任务的使命。以松江数据中心为起点,智算科技已建成数个万卡级智算集群,保障了上海本地算力供应的“半壁江山”。
虽然团队已从2023年成立时的不到10人扩充到了现在的100多人,但面对快速增长的需求,人手依然紧张。智算科技董事长、总经理孙跃用“三个赶不上”概括了目前的情况:工位拓展的速度赶不上公司招聘速度、招聘速度赶不上万卡集群建设速度、集群建设赶不上算力需求增长的速度。
“人才并非仅依靠引进,而是必须在一线的干事创业过程中培养和涌现。”胡宝群介绍,团队刚成立时,智算集群在全球范围内尚属新生事物,团队成员大多是来自互联网大厂的工程师,经过一个个项目的淬炼,他们早已能独当一面,并开始培养第二波和第三波智算人才。
胡宝群表示,目前团队在招聘时更看重人才“自我革新”的能力:“如今AI行业的更新迭代以月甚至天为单位可能下周就会出现新的模型和应用,改变当前的产业竞争格局。”他希望能有更多能用AI创造更大价值的“下一代工程师”加入团队。
让国产算力更普惠
2026年《政府工作报告》首次提出“打造智能经济新形态”,明确“实施超大规模智算集群、算电协同等新基建工程”。站在潮头,智算科技万卡集群攻坚团队脚步不停。
“一个万卡集群每天的用电量相当于一座百万人口的县城。”孙跃表示,在算电协同方面,一方面智算科技将进一步扩大绿电使用比例,并通过液冷集群等措施提高能源使用效率。另一方面,企业也在与上下游伙伴共同探索海底数据中心项目,将深远海海上风电资源与旺盛的算力需求结合在一起,降低算力成本。
同时,智算科技还将着力提高算力基础设施的建设效率和使用效率,打造开放、灵活的智算云服务平台,整合语料、模型、智能体等要素,为不同垂类领域的用户提供更加普惠、便捷的算力服务。
“在生态方面我们将进一步发挥链主企业的作用,牵引国产软硬件上下游厂商实现协同发展,构建自主可控的国产算力生态体系。”孙跃表示。
头图为智算科技万卡集群攻坚团队。受访者供图