AWS推出Trainium2定制AI芯片和数据中心升级

AWS推出Trainium2定制AI芯片和数据中心升级

亚马逊云服务(AWS)宣布,其最新的定制AI芯片Trainium2现已通过两项新云服务提供,用于训练和部署大型AI模型。

在拉斯维加斯举行的AWS re:Invent大会上,AWS表示,新的Amazon Elastic Compute Cloud(EC2)Trn2实例配备了16个Trainium2芯片,提供20.8峰值拍打浮点运算(petaflops)的计算能力,使其非常适合用于训练和部署具有数十亿参数的大型语言模型(LLMs)。

AWS还推出了新的EC2服务,EC2 Trn2 UltraServers,配备了64个互联的Trainium2芯片,计算能力可扩展到83.2峰值拍打浮点运算,能够训练和部署全球最大的AI模型。

这家超大规模云提供商还与Anthropic(Claude LLM的创造者)合作,建立一个Trn2 UltraServers的EC2集群,其中包含数十万个Trainium2芯片,帮助Anthropic构建和部署未来的AI模型。AWS表示,这项名为“Project Rainier”的合作将为Anthropic提供比当前AI模型训练时多五倍的计算能力。

AWS今天还宣布了其下一代AI芯片Trainium3的计划,预计其性能将是Trainium2的两倍,且能效提高40%。Trainium3预计将在2025年底推出。

分析师对Trainium2的看法

通过今天的定制AI芯片发布,AWS增强了其AI产品的竞争力,并提供了一个相较于Nvidia GPU的低成本替代方案。分析师表示,随着企业越来越多地采用AI,AWS有潜力吸引客户使用其新的Trainium2服务。

Gartner的分析师表示,我认为这将成为促使客户将Trainium2视为替代方案的催化剂,尤其是在他们对价格敏感时。

一些AI工作负载可以在CPU上运行,许多AI工作负载需要像Nvidia这样的GPU,而AWS也支持这些GPU。但是Trainium2——它提供了比AWS第一代Trainium芯片更好的性能和更高的能效——为AWS客户提供了另一个选择,特别是因其价格性能的优势。

AWS在一年前宣布开发Trainium2,并表示其新的Trainium2驱动的EC2 Trn2实例比当前的GPU驱动的EC2实例提供了30%至40%的更优性价比。

客户通常认为所有AI都应该使用GPU,但随着客户从‘我可以用AI做这些很棒的事情’转向‘如何将它规模化,并以更具成本效益的方式进行部署’,越来越多的客户将愿意考虑替代方案。

Trainium2将提供更好的价格性能,这将成为促使客户将Trainium2视为替代方案的催化剂,尤其是在他们对价格敏感时。

Trn2实例提供的20.8峰值拍打浮点运算性能使其在竞争中与Nvidia和AMD的GPU相匹配。而Trn2 UltraServers能够提供超过80峰值拍打浮点运算的能力,使其成为大型模型训练的良好选择。

对于一些企业来说,AWS与Anthropic的合作项目将验证Trainium2作为AI训练的可行替代方案,Kimball表示。一些以前忽视AWS自研AI芯片的企业,可能会重新审视这个选择。

虽然这听起来有些荒谬,但许多企业公司在采用新技术时相对保守,所以像Trainium这样的优秀芯片往往被忽视,因为它不是来自过去一年被称为‘AI教父’级别的公司。这个合作告诉这些IT公司,Trainium——作为品牌,Trainium2——作为芯片,不仅是合法的,而且它正在支持行业中最苛刻的AI需求,Anthropic正在追赶OpenAI。

云计算竞争格局与AWS的芯片战略

AWS及其云竞争对手Google Cloud和Microsoft Azure都与大型芯片制造商如Nvidia、AMD和Intel合作,提供由其处理器驱动的服务。但三大云巨头也发现,构建自己的定制芯片是有利且具成本效益的。

例如,所有三家云提供商都为常规工作负载构建了自有的CPU,并为AI训练和推理服务构建了自有的AI加速器。

AWS的芯片战略是为客户提供多种选择,AWS于2022年推出了第一代Trainium芯片用于AI训练,并在2023年推出了第二代AI推理芯片Inferentia2。

除了提供新的Trainium2驱动的EC2服务外,AWS还提供多种支持Nvidia GPU的EC2实例,并提供一款支持Intel Gaudi加速器的EC2实例。

Trainium2客户将享有高性能和最低的工作负载成本。Trainium2旨在支持前沿LLM、多模态和计算机视觉模型的训练和部署。

我们致力于为客户提供选择,那些需要GPU的工作负载的客户可能会选择GPU,而那些希望从芯片中获得最佳价格性能的客户则会选择Trainium/Inferentia。

例如,使用Trainium2,Anthropic的Claude Haiku 3.5 LLM的速度比其他芯片替代方案提高了60%。

AWS宣布新的数据中心基础设施创新

在周一的大会上,AWS还宣布了其在电力、冷却和硬件设计方面的新的数据中心基础设施改进,这些改进将更好地支持AI工作负载,并提高韧性和能源效率。

AWS表示,新的数据中心改进包括更高效的冷却系统,包括安装液冷系统并减少风扇使用,从而减少46%的机械能消耗。AWS还表示,备用发电机将能够使用可再生柴油运行,从而减少温室气体排放。

为了支持高密度AI工作负载,AWS表示,它已开发出工程创新,使其能够在未来两年内支持六倍的机架电力密度增长。部分创新来自一个新型的电力架,能够高效地为整个机架提供数据中心电力。

新的AI服务器还将受益于液冷技术,更高效地冷却如Trainium2和Nvidia GB200 NVL72等高密度芯片和AI超级计算解决方案。

AWS全球数据中心副总裁表示,过去我们使用的液冷量非常小,但现在我们正在迅速增加液冷能力。

AWS还改进了控制系统的自动化,以提高韧性。他表示,控制系统(即监控每个数据中心组件的软件)现在可以更快速地排除故障,防止停机或其他问题。

在某些情况下,过去需要几个小时的人工排除故障,现在在两秒内就能完成,因为我们的软件自动查看所有传感器,做出决策并采取纠正措施。

AWS已经在一些数据中心安装了这些新的创新,AWS将继续在未来的新建和现有数据中心中安装这些新的数据中心组件。

IDC分析师Vladimir Kroa表示,AWS的数据中心改进具有重要意义,因为它们提高了韧性,提升了操作效率和能源效率。

真正有影响力的不是任何单一的组件,而是它们的组合。

未经允许不得转载:A5数据 » AWS推出Trainium2定制AI芯片和数据中心升级

相关文章

contact