在香港机房怎么选服务器 CPU:Intel Xeon 还是 AMD EPYC?——按业务类型给出可落地的完整决策表(含评测方法、参数对比、踩坑与解决方案)
技术教程 2025-09-29 09:42 198
去年双十一前夜,我们要把一批边缘节点和几台数据库主机从老平台迁到香港新机房,最棘手的问题不是网络——而是CPU 怎么选:一边是Intel Xeon(4/5 代可选,带 AMX / QAT 等加速器),另一边是AMD EPYC(Genoa / Genoa-X / Bergamo,12 通道 DDR5、PCIe 5.0 128 条)。预算、电力、交付周期都卡在脖子上。
我决定不用拍脑袋:做一套能在香港机房复现的评测脚本,跑通关键业务,最后给团队一张“按业务类型直接选”的表格。下面就是我当时的过程和结论。

一、候选 CPU 型号与关键规格(我们实际对比的“桶”)

我没有把所有 SKU 都拉进来,而是选了在香港机房能买到、供货稳定、在同一代里代表性强的几款来作为“桶”。

阵营 代表型号 核/线程 基础/加速 L3 缓存 内存通道 PCIe5.0 TDP 亮点/备注
AMD EPYC (Genoa) 9654 96/192 2.4 / 3.7 GHz 384 MB 12×DDR5(最高 4800 MT/s) 最多 128(1P)/ 160(2P) 360 W 高核心数+高带宽的“通用王者”。
AMD EPYC (Genoa-X) 9684X 96/192 2.55 / 3.7 GHz 1,152 MB(1.1 GB) 12×DDR5 同上 320–400 W 3D V-Cache,超大 L3,对缓存敏感工作负载(CDN/Redis/部分 OLAP)特别香。
AMD EPYC (Bergamo) 9754 128/256 2.25 / 3.1 GHz 256 MB 12×DDR5 同上 360 W “核密度怪兽”,虚拟化/容器密度优先。
Intel Xeon 4th Gen (Sapphire Rapids) 8490H 60/120 1.9 / 3.5 GHz 112.5 MB 8×DDR5(4800 MT/s) 80 350 W AMX/AVX-512/QAT/IAA/DSA 等加速器生态成熟。
Intel Xeon 5th Gen (Emerald Rapids) 8592+ 64/128 1.9 / 3.9 GHz 320 MB 8×DDR5(最高 5600 MT/s) 80 350 W 同平台升级,L3 三倍、频率更高、依旧有加速器。官方 RCP 约 $11,600
  • PCIe / 内存通道差异是两家最大的“硬件地貌”:单路 EPYC 128 条 PCIe5.012 通道 DDR5;Xeon 为 80 条 / 8 通道。这对多 NVMe / 多 100G 网卡 / HBA 的扩展很关键。
  • 加速器生态是 Xeon 的杀手锏:AMX(矩阵)、QAT(TLS/压缩)、IAA/DSA(分析/搬运)一套齐;5 代改进了 AVX-512/AMX 的降频影响。

二、评测方法(你在香港机房也能一把梭)

系统:Rocky 9.3 / Ubuntu 24.04 LTS(内核 ≥ 6.1,便于 AMX/新平台)
BIOS:

EPYC:NPS=1/2/4 三档各测一次(数据库/网关我常用 NPS=2 或 NPS=4)。

Xeon:确认 AMX 打开(Linux 5.16+ 支持,用户态需申请 xstate 权限),QAT 打开(核内驱动+OpenSSL QAT Engine)。

基线调优脚本要点(节选):

# 通用 dnf install -y tuned tuned-profiles-* tuned-adm profile throughput-performance sysctl -w vm.nr_hugepages=4096 echo never > /sys/kernel/mm/transparent_hugepage/enabled irqbalance --oneshot # 先看中断分布,后续再绑核 # 确认指令/加速器 lscpu | egrep 'avx|amx' cat /proc/crypto | egrep -i 'qat|zlib|aes'

数据库/缓存压测:

# PostgreSQL: pgbench TPC-B 风格 pgbench -i -s 100 pgbench -c 128 -j 64 -T 300 # Redis: pipeline=32 redis-benchmark -n 10000000 -c 256 -P 32 -t get,set

Nginx + TLS(Intel QAT 验证):

# 以 Ubuntu 为例 apt install -y qatengine libqat0 intel-qat-driver # openssl engine 确认 openssl engine -t -c | grep -i qat # wrk 对 443 做 CPS/吞吐测试 wrk -t16 -c1024 -d120s https://test.domain --latency

注:QAT Engine 的包名/构建方式在不同发行版会有差异,但思路就是内核驱动 + OpenSSL 引擎 + Nginx/Envoy 链接,用于 TLS 握手/压缩卸载。参考 STH 的实测文章去对照。


三、公开可复现的性能对照(结合我机房压测 & 第三方结果)

我机房跑出来的曲线与下述公开评测的量级与趋势一致,为避免“自说自话”,这里优先引用第三方测得的相对数值,你拿来对照自己更稳。

  • 通用计算(双路):在 Ubuntu 23.10,EPYC 9684X(2P)≈ Xeon 8490H(2P)的 1.34×EPYC 9754(2P)≈ 1.38× 几何均值;开启 EPYC 的“Power Determinism”模式还能再抬 ~10%。
  • 缓存敏感(CDN/代理/边缘):Cloudflare 的一线结果显示,三者里 Genoa-X 9684X(超大 L3)最快,其次是 9654,Bergamo 9754 受限于每核 L3 最小,在它们的栈里垫底。与我们在香港的边缘节点压测结论一致。
  • AMX/AI 推理(CPU 上):Emerald Rapids(8592+)在AMX 下的 AI/矩阵类任务有明显提升(5 代相比 4 代降低了 AVX/AMX 负载对睿频的影响)。在 OpenVINO/oneDNN 的部分模型上,Xeon 和 EPYC 会互有胜负,但AMX 强项是 int8/bf16 矩阵
  • Nginx + TLS/QAT 卸载:在相同核数下,启用 QAT 的 Xeon 可将 TLS 握手/吞吐显著提升、并降低 CPU 利用率(业务越偏 TLS/压缩,收益越大),可参考 STH 的多篇对比。我们把 TLS 终端那批机器定向选了 Xeon。
  • 价格/能耗感知:RCP 价位(供参考)EPYC 9654 ≈ $11,805Xeon 8592+ ≈ $11,600;功耗都在 350–360W 档,但 EPYC 的核/带宽密度更高,在多线程/内存带宽型任务的每瓦吞吐更占优。

四、按业务类型的落地决策表(可直接拿去开采购单)

说明:优先推荐写在前;若有条件推荐会注明触发条件。涉及某些平台/指令依赖(如 AMX/QAT)时也会特别标注。

业务类型(香港机房常见) 推荐 CPU 桶 选择理由 / 触发条件 备注/实现要点
CDN/边缘代理、Nginx/Envoy、WAF EPYC 9684X(Genoa-X) → 9654 超大 L3 显著提升命中率与时延抖动;缓存/小对象混合场景尤甚。 NPS=2 或 NPS=4,RSS/IRQ 绑核,禁 THP,观察 99p 延迟
TLS 终端/加解密网关、压缩卸载 Xeon 8592+(Emerald Rapids) 启用 QAT(OpenSSL/Nginx)可把 TLS CPS/吞吐拉满,同时省 CPU。 栈需支持 QAT 引擎;观察握手 CPS 与 CPU 使用率
Redis/Memcached(高 QPS) EPYC 9684X → 9654 L3 大、内存带宽高,单机 QPS 稳定性更好;Perf/W 优势明显。 绑核+大页,关闭透明大页;内核计时器设为 NO_HZ_FULL(可选)
OLTP 数据库(MySQL/PostgreSQL) EPYC 9684X(读多写少/复杂查询多) / EPYC 9654(混合) pgbench/TPCC 型负载对 L3/带宽敏感;X 系列在复杂查询更稳。 NPS=2;NUMA 亲和;IO 队列与核映射;禁 THP、配 HugePages
OLAP/ClickHouse/列存扫描 EPYC 9654 → 9754(分区并行多) 带宽/并发核数取胜;扫描/聚合场景 9654 更均衡,极端并行可上 9754。 CPU 亲和+分区副本;注意冷热分层和 PageCache
虚拟化/容器云(vCPU 密度) EPYC 9754(Bergamo) 128C 密度拉满,适合高密度 K8s/虚拟化,Perf/$ 和 Perf/W 友好。 合理超配比;观测 NUMA 跨片迁移成本
大数据/流处理(Flink/Spark/Kafka) EPYC 9654 12 通道 DDR5 给到更高带宽;IO/PCIe 资源更宽。 JVM 参数 + GC 策略配套;网卡/磁盘多队列
AI 推理(CPU Only / 混合小模型) Xeon 8592+(AMX) ↔ EPYC 9654 oneDNN/OpenVINO 下 AMX 有优势(int8/bf16);部分模型 EPYC 也能赢,需实测。 确保内核/用户态启用 AMX;NUMA 绑核,封顶温度
HPC/EDA/CFD EPYC 9684X 3D V-Cache 在 EDA/CFD 类缓存敏感任务里经常“白捡一档”。 MPI/IB 拓扑与 NPS 对齐;页表大页
视频转码(CPU) 视编解码器而定:x264/x265 常见场景 EPYC 9654 稳,QSV 不在此列 高并发转码更吃并行与带宽;若走 GPU/专用卡则看 PCIe 资源。  
备份/归档压缩 Xeon(QAT/IAA) ↔ EPYC 9654 QAT/IAA 能为压缩/低延时分析带来收益;通用场景 9654 也强。  

一句话总览

有加速需求(TLS/压缩/AMX 推理) → 选 Xeon 8592+

追求核数/带宽/扩展性 → 选 EPYC 9654/9754

强缓存敏感(CDN/Redis/部分 OLTP/EDA) → 选 EPYC 9684X


五、把“纸面优势”落成“实测优势”的关键操作

1) EPYC 的 NPS(Nodes-Per-Socket)很要命

  • NPS=1:单 NUMA,最省心;
  • NPS=2/4:把内存控制器切分成多个 NUMA,减少远距访问;数据库/网关常受益。戴尔/Cisco/AMD 的指南都给过类似建议。

2) Xeon 的 AMX/QAT 不是“默认就飞”

  • AMX 需要内核(≥5.16)与用户态主动申请 XSTATE 权限,否则库用不上;一堆人“开了 AMX 但性能没起”,就是没走到硬件路径。
  • QAT 需要**驱动 + OpenSSL 引擎 + 上层(Nginx/Envoy)**配合,链不上就没收益;对 TLS CPS/压缩提升非常直观。

3) PCIe 资源是香港机房的“隐藏 KPI”

  • 单路 EPYC 的 128 条 PCIe5.0 很适合多 NVMe + 双 100G/200G 的节点;Xeon 的 80 条 需要更精细的分配(或上 2P)。

六、落地用的“对比评测表”(可贴进你们的内部 Wiki)

下表是我当时整理的“横向参数+典型性能指示”合集(便于快速对比/评审)。性能数据以第三方相对值为主,适配香港常见机型。

维度 EPYC 9654 EPYC 9684X EPYC 9754 Xeon 8490H Xeon 8592+
核/线程 96/192 96/192 128/256 60/120 64/128
L3 384 MB 1,152 MB 256 MB 112.5 MB 320 MB
DDR5 通道 12(最高 4800 MT/s) 12 12 8(4800 MT/s) 85600 MT/s)
PCIe 5.0 128(1P)/160(2P) 同左 同左 80 80
代表性特性 高核/带宽平衡 超大缓存 极致密度 加速器齐全 更大 L3 + 加速器
通用计算(2P 几何均值) 1.30×*(对 8490H) 1.34× 1.38× 1.00× 1.0×*(相对 8490H,实际更强单核/更大 L3)
CDN/边缘/Redis 很强 最强 中上 中上
TLS/压缩卸载 最强(QAT) 最强(QAT)
AI 推理(CPU) 中上 中上 中上 最强(AMX)
典型 TDP 360W 320–400W 360W 350W 350W
参考价格(RCP) $11,805 $11,600

说明与来源:通用计算相对值基于 Phoronix 对 9684X/9754 vs 8490H 的几何均值对比(双路),以及我们现场实测的趋势;内存/PCIe/特性/价位来自 AMD/Intel 官方资料与评测。


七、香港机房的“坑”和我当时怎么填的

  1. 风道与散热:1U 满配(双 100G + 多 NVMe)在 6kW/柜里很容易温度顶格;我把热点节点换到 2U、并把高发热的 Xeon+QAT 终端与 EPYC 缓存节点错层放,风道顺了 5–7℃。
  2. NUMA 跨片:EPYC 在 NPS=1 时省心,但数据库/代理在 NPS=2/4 下延迟尾部更稳。把 pg_walmgr / walwriter / checkpoint 这类线程绑到同 NUMA,效果立竿见影。
  3. AMX 没起效:一开始 oneDNN 跑不动 AMX,原因是进程没申请 XSTATE 权限arch_prctl(ARCH_REQ_XCOMP_PERM, …));换到 6.1+ 内核并升级用户态后就通了。
  4. QAT 只装驱动不加速:OpenSSL 引擎没编进 Nginx,TLS 还是走 CPU