
“GPU 风扇转速已经拉到 80%,NVLink 带宽还能再挤一点吗?” 这是 6 月初香港柴湾 A5 数据的一个闷热夜晚。我正替一家视频 AIGC 创企做模型...






2025年3月初,我们在香港的数据中心上线了一套AI推理服务系统,主要服务于海外客户的图像识别需求。系统基于NVIDIA A100 GPU部署,采用NVIDIA...

我们在深度学习业务落地的过程中,GPU服务器的稳定性和可用性是保障模型高效运行的关键。近期我们在香港节点部署的一批深度学习业务服务器中,遇到了“GPU卡识别失败...


