
虚拟化的初衷是帮助促进硬件资源的更好利用。但当涉及到许多企业部署Kubernetes容器编排平台时,这一说法可能并不完全准确。
一份2025年Kubernetes成本基准报告揭示了云资源利用率中的持续低效,并提供了关于主要云服务提供商GPU可用性的见解。
这份研究基于来自AWS、GoogleCloud和MicrosoftAzure的2100多个企业的数据,提供了寻求优化Kubernetes部署的IT运维团队的重要见解。研究方法包括分析至少50个CPU的生产集群,关注资源利用模式、成本优化机会以及跨区域和可用区的GPU可用性。报告排除了使用CastAI自动化工具的企业数据,以提供一个公正的Kubernetes环境视角。
主要发现:
- Kubernetes集群的平均CPU利用率已降至10%,低于去年报告中的13%。
- 内存利用率仍然不理想,为23%,相比去年增加了仅3%。
- 5.7%的容器在24小时内出现内存资源不足,导致应用程序不稳定。
- 部分实现的现货实例可将计算成本降低59%,而完全实现的情况下可节省77%。
最令人吃惊的是偶尔内存资源不足。尽管CPU和内存大多数时候都被过度配置,但偶尔出现内存资源不足的问题确实存在,而且比最初想象的更为常见。
在24小时内,5.7%的容器在某些时刻超出了其请求的内存,这导致不稳定、内存溢出错误和频繁重启,这比预期的中断要多得多,因为这些工作负载根本没有它们运行所需的资源。
Kubernetes资源利用问题依然存在
虽说云原生生态系统日益成熟,报告揭示了企业在管理Kubernetes环境方面的持续低效。平均CPU利用率从13%降至10%,表明过度配置的问题实际上在加剧,导致了显著的云资源浪费。
许多企业企业正在转向Kubernetes框架。但经验丰富的DevOps工程师招聘速度跟不上,缺乏优秀的DevOps工程师导致了效率的下降。
这些结果还加强了CastAI的自身价值主张,即使用代理框架帮助自主管理Kubernetes工作负载。
这些AI引擎能够在影响性能和成本之前预测并防止过度配置和不足配置。
现货实例提供显著的成本节省
这份报告提供了使用现货实例在Kubernetes环境中带来财务效益的有力证据。
部分利用现货实例的企业实现了59%的平均计算成本降低,而完全使用现货实例的企业则看到了更大的成本削减,达到了77%。
这些发现表明,IT团队可以通过在Kubernetes部署中采用现货实例策略,在不牺牲性能的情况下显著降低云支出。
实例的管理应该是自主进行的。任何手动管理现货实例都会导致频繁的故障和停机,”他说。“平衡成本和可靠性的唯一方法是使用智能自主自动化。
GPU可用性和成本优化
今年的基准报告新增了对不同云服务提供商GPU可用性和定价的分析。报告考察了多个区域和可用区,旨在识别哪些特定GPU芯片最易获得,并比较了高需求GPU上运行工作负载的成本。
研究显示,不同地区之间的成本差异显著。能够将工作负载战略性地放置在更具成本效益的位置的企业,可以实现:
- 相比全球现货实例价格节省2倍至7倍
- 相比全球按需实例价格节省3倍至10倍
优化Kubernetes成本的最佳自动化技术
在每个工作负载级别进行合理配置,并结合Kubernetes自动扩展器,是Kubernetes优化的关键。
研究发现,这两个自动扩展器需要同步工作,以便当工作负载自动扩展时,立即触发节点自动扩展事件,当这两个自动扩展器在一个平台中协同工作时,我们看到企业获得了极大的收益,例如某大型汽车制造商的成本降低了5倍。











