Hehson科技讯 12月4日晚间消息,在亚马逊云科技2025re:Invent全球大会上,亚马逊云科技首席执行官Matt Garman宣布推出全新的P6E GB300系列,并正式发布基于研芯片Trainium3和基于该芯片的Trn3 UltraServers服务器。
他介绍,“这些产品(P6E GB300)采用英伟达最新的GB300 NVL72系统,我们持续为最苛刻的AI工作负载提供顶级算力。我们在硬件、软件与运营层面的全栈严谨性,为全球最大的企业提供最佳的可靠性和性能。其中包括英伟达自己——他们的大规模GenAI集群Project Ceiba就运行在亚马逊云科技上;以及像OpenAI这样的大型机构也在积极使用亚马逊云科技。这些大型企业如今都在使用拥有数十万颗芯片的EC2 UltraServers集群,目前使用的是GB200系列,很快就会用到GB300系列。”
此外,Matt Garman还宣布推出Amazon AI Factories。“通过这一发布,我们让客户能够在自己的数据中心内部署专属的亚马逊云科技AI基础设施,供其独享。实际上,AI Factory就像一个‘亚马逊云科技私有区域’,让客户利用已有的数据中心空间与电力能力,同时仍然能够访问亚马逊云科技领先的AI基础设施与服务,包括最新的训练集群、Nvidia GPU,以及Amazon SageMaker和Amazon Bedrock等服务。”
他介绍,AI Factories是为每个客户独立运行的,帮助他们保持物理与逻辑隔离,同时继续享有来自亚马逊云科技的安全性与可靠性,也能满足严格的合规与数据主权要求。
亚马逊云科技还宣布推出自研AI芯片Amazon Trainium。Matt Garman介绍,Trainium 2目前实际上是全世界最佳的推理系统之一。他表示,“事实上,我们在数据中心部署Trainium2的速度,比我们过去部署任何芯片的速度都快好几倍。是的,这是我们迄今部署速度最快的AI芯片,我们现在的销售速度几乎和产能齐平。仅训练芯片这一部分,今天已是一个数十亿美元规模的业务,并且仍在快速增长。”
此外,亚马逊云科技在去年官宣布的新一代芯片 Trainium 3,也有了新进展,目前Trainium 3 UltraServers 正式可用。“我很高兴地宣布,我们已经在全力研发Trainium4,并且已经进入深度设计阶段,对目前看到的结果十分期待。与Trainium3相比,Trainium4将在所有维度实现巨大跃升:FP4计算性能提升6倍、内存带宽提升4倍、高带宽内存容量提升2倍,以支持全球最大规模模型的训练需求。”