
配备高性能GPU的高密度数据中心正在通过释放人工智能的强大能力,改变全球工作方式。同时,它们也释放了另一件事——大量的热量。唯一能够冷却这些数据中心中功耗高的GPU机架的方式就是液冷。然而,部署液冷系统可能需要先解决财务总监(CFO)和董事会成员对该技术的顾虑。
用于高密度数据中心的液冷系统比传统数据中心中使用的风冷系统具有更高的前期成本。人们也担心水的使用问题,因为最大的数据显示中心每天可能消耗数百万加仑的水。而且,对于一些人来说,几十年来一直努力防止水进入数据中心的白区,现在突然引入液体,这种想法可能让人觉得反直觉并且具有风险。
设施运营团队可以通过制定液冷的商业案例来解决这些顾虑,阐明液冷技术的必要性,并融入设计最佳实践的价值。
建立液冷的必要性
一些领导者认为,用于人工智能工作负载的高性能GPU机架可以简单地放入传统数据中心基础设施中。然而,当机架功率密度超过15-20千瓦时,传统数据中心中使用的风冷系统就难以应对。相比之下,液体的热导率是空气的15-25倍。
简单来说,为了确保高密度数据中心能够可靠运行,它需要一个同样强大的液冷解决方案。该方案可以采用闭环设计,利用以下三种设计方法之一来最小化水的损失:
1. 直冷芯片:通过将水直接喷洒在IT设备中的散热器或冷却板上,来去除热量。
2. 后门热交换器:在热空气进入白区之前,从IT设备中捕捉热空气,经过线圈冷却后将热量传递给水。
3. 浸没冷却:将IT系统浸没在不导电的液体冷却剂中,以吸收其热量,并通过热交换器将热量转移出去。
无论采用哪种设计方法,都应该与GPU基础设施共同设计,以确保它能够提供所需的冷却性能。例如,了解GPU将消耗多少功率同样重要,了解它将消耗多少冷却也是至关重要的。提前规划还可以帮助早期发现关键问题,例如建筑物是否具备足够的冷却水能力来支持液冷系统。
数据中心液冷的真实成本
如果领导者仅考虑液冷系统的资本支出(CapEx),他们就忽略了更大的图景。液冷可以带来运营支出(OpEx)的节省,这可能在不到两年的时间里就能够收回资本支出投资。
例如,冷却分配单元使用的电力只是风扇墙用于冷却空间的能量的一个小部分。液冷系统还在更精确的范围内运行,仅冷却产生热量的IT基础设施区域,而不是整个房间。而且,每增加1度的室内温度,数据中心可以节省1-2%的能源。
如果液冷系统需要在多个数据中心部署,那么采用供应商中立的设计方法也可以带来节省。这种方法涉及创建一个标准化的设计,在多个地点提供相似的性能特征,同时最大限度地减少每次部署的返工。这种方法还将适合的数据中心技术与环境和运营需求相匹配,而不是将特定的供应商技术强加给数据中心。
挖掘简化的机会
液冷系统不需要成为组织的负担。在这些系统的生命周期内,有许多机会可以简化它们的部署、使用和维护,从而减少对员工的需求。
首先,一家经验丰富的液冷技术合作伙伴可以帮助公司完成从评估设施基础设施到规划和设计定制液冷系统、采购和供应技术等各个环节。该合作伙伴还可以承担一些关键任务,以简化部署工作,例如存放预先购买的组件,避免它们在公司数据中心闲置,导致损坏或被盗。
液冷系统的数据还可以以最有利于监控和维护人员的方式进行集成。例如,如果是设施运营团队,那么数据可以集成到他们的建筑管理或自动化系统中。这样,团队可以像监控任何其他建筑系统一样,轻松地跟踪液冷系统的状态。
接纳液冷
通过建立液冷的必要性,并展示它可以带来的节省和效率,数据中心团队可以为液冷技术提供一个有力的理由,从而为高价值、高能耗的GPU机架提供保护,并为未来多年确保使用最佳的可用技术。











