人工智能时代的数据中心:为下一个十年进行规划

人工智能时代的数据中心:为下一个十年进行规划

在2025年及以后的数据中心建设项目规划,与十年前相比有了显著变化。然而,在经历了剧烈增长的时期后,成功支持这一行业的规划和建设策略依然可以为未来的发展提供指导。

2022年底,ChatGPT的出现引发了科技公司之间前所未有的竞赛,旨在开发AI解决方案,从根本上重塑了数据中心基础设施和能源市场。推动这一转型的核心是AI工作负载,主要包括两个操作:训练和推理。这些操作高度依赖图形处理单元(GPU),GPU在处理AI计算所需的大规模并行计算时,远比传统的中央处理单元(CPU)更为有效。

AI训练操作需要巨大的计算能力,利用同步的GPU阵列来处理庞大的数据集。这些训练系统对基础设施提出了巨大的需求,特别是在功率消耗方面,通常每个机架的功率需求在90到130千瓦之间。这种高强度的能量使用需要强大的冷却系统来维持最佳的运行条件。相比之下,推理操作,即训练好的模型执行特定任务,所消耗的电力明显较少,通常每个机架的功率在15到40千瓦之间。为了更好地理解,标准的Google搜索大约使用0.28瓦时的能量,而一次ChatGPT查询大约消耗四倍于此的能量。

为了满足这些需求,数据中心基础设施的规模发生了剧烈变化。现代设施现在需要单个建筑物消耗100兆瓦的电力,整个园区的总功率消耗接近1千兆瓦,这与以前将100兆瓦电力分布在多个建筑物中的方式截然不同。GPU的功率密度日益增加,也促使从传统的空气冷却系统转向液冷解决方案,以更高效地直接从GPU单元散热。

考虑到当前的局势,未来的数据中心开发必须考虑几个关键因素。了解一个设施是否主要处理训练或推理操作对于正确的设计至关重要。电力基础设施必须满足极高的初始需求,每个建筑超过100兆瓦,并具有扩展到每个园区1千兆瓦的能力。随着电力需求的增加,更高电压的系统变得必要,以管理电力需求并解决电力电缆中的热限制问题。冷却系统必须发展,以应对跨建筑和数据大厅的更大需求,同时IT环境也变得更加复杂,包含了GPU、CPU、存储和网络组件的混合。这种复杂性要求采用混合冷却方式,将传统的空气冷却系统与液冷系统结合,针对GPU硬件使用液冷。此外,光纤需求大幅增加,影响到设施的空间和重量考虑。

数据大厅本身也在发展,需要更多的垂直空间来容纳机架上方的额外基础设施层。这些层包括母线槽、线缆托盘、光纤管道、防火系统以及包括水管和技术水基础设施的主要冷却系统。

速度是当前竞赛的一个特点,因此,设计和建设周期需要进一步缩短,利用预制化来构建不仅是电气和机械层次,而且是整个建筑。这是减少建设规划、活动和工人安全的进一步障碍的关键。

现有的数据中心面临着适应新AI需求的挑战,特别是在推理工作负载方面。这种适应通常涉及电气系统的修改和为液冷能力进行改造,类似于2000年代初期和中期数据中心的演变。然而,训练设施通常需要新的场地来处理巨大的电力需求和严格的网络规格。

尽管最近的Nvidia GPU迭代在训练和推理操作的成本和性能方面取得了显著进展,但整体电力消耗仍随着使用的增加而成比例上升,符合杰文斯悖论。这一趋势要求电力和冷却技术以及设计方法的持续发展。

AI行业的演变与摩尔定律相似,强调紧密网络化的机架,以最小化能源浪费并优化数据处理速度。这一转型有效地将AI数据中心本身转变为大规模的GPU单元。

AI的快速增长已在能源市场动态中产生了剧烈的变化,从稳定的年度增长转向急剧的指数级上升。这一激增促使行业进行了一些适应性调整,包括:

  1. 在能源资源丰富的偏远地区建立AI数据中心
  2. 重新利用退役的发电厂
  3. 为数据中心开发专用电厂
  4. 增加公用事业公司与科技公司之间的合作,以投资现有和未来的发电技术,包括核能

数据中心基础设施的扩展面临建筑行业的额外挑战。这些挑战包括制造能力的限制、建筑工人和专业分包商的短缺,以及缺乏能够满足现代数据中心技术要求的熟练工人。

尽管面临这些重大挑战,行业仍然保持乐观的态度,认识到AI的变革潜力,并拥抱创新和适应这些新需求的机会。

数据中心基础设施的演变是AI更广泛发展的关键因素,需要科技公司、公用事业提供商和建筑专家之间的持续合作,以应对这一快速扩展领域的不断增长的需求。

未经允许不得转载:A5数据 » 人工智能时代的数据中心:为下一个十年进行规划

相关文章

contact