网络游戏如何在 Linux 香港服务器上部署实时日志采集并监控跨境玩家网络波动

技术教程 2025-09-20 10:45 192

凌晨 2 点，我盯着交换机 10G 指示灯一闪一灭。直播间里玩家的弹幕在刷：“卡”。客服工单同步飙升。问题不是服务器算力，也不是磁盘 I/O，而是跨境网络的抖动，尤其是北方电信用户，RTT 在 30~70ms 上下“抽风”。

那晚我做了一个决定：把跨境网络波动监控和实时日志采集做到分钟级闭环，把“哪里卡、何时卡、卡多久、卡因何”变成数据和告警，而不是互相甩锅的嘴仗。

下面是我最终跑通、上线、并经受多轮高峰期洗礼的方案。

一、目标与设计思路

1.1 我想解决什么

游戏服能实时采集玩家会话日志（玩家 IP、地区、会话时延、丢包估算、重传等）。
服务器侧能持续主动探测跨境链路质量（ICMP/TCP/UDP 多维），拿到 RTT、抖动（jitter）、丢包、路径变化。
图表与告警分钟级闭环：谁抖了、抖到什么程度、影响哪些 ASN/省份/运营商、是否和我们侧的负载/带宽/路由切换有关。
出问题能快速回看日志与链路证据，定位是否跨网段/局部运营商/特定时段问题，给运营与客服一份能说服人的证据链。

1.2 技术栈选择（稳定、可自运维）

系统：CentOS 7（systemd）

硬件建议：

CPU：AMD EPYC 7302P / Intel Xeon Silver 等 16~24C（超线程开）
内存：64~128GB
系统盘：1× 960GB NVMe（系统/工具）
数据盘：2× 1.92TB NVMe（RAID1，日志与时序数据）
网卡：双口 10GbE（Bonding LACP，主备或聚合）

日志：游戏进程输出 JSON 行 → Promtail → Loki

指标：Prometheus（抓 node_exporter / blackbox/fping 自定义导出）→ Grafana

探测：blackbox_exporter（ICMP/TCP） + fping 脚本（Jitter 专项） +（可选）MTR 周期性路径采样

告警：Alertmanager（钉钉/飞书/Slack/邮件）

时间同步：chrony（跨境测量必须保证时钟准确）

路由观测：定时 mtr + 保存结果入 Loki 便于关联。

选 Loki 而非 ES：我踩过 ES 的资源坑，在高峰期写入抖动、GC、磁盘放大都不友好。Loki 对日志只做索引和标签，吞吐与成本都更可控。

二、机房与网络拓扑（文字版）

[玩家终端]
   │ 公网/跨境
   ▼
[ISP链路(CT/CU/CM/...)]
   │
   ▼
[香港边界路由器(BGP, Anti-DDoS前置)]
   │ 10GbE
   ▼
[核心交换机]
   ├─ [游戏集群] 10GbE
   ├─ [观测节点/探针] 10GbE（跑 fping/blackbox）
   └─ [日志与监控栈] 10GbE（Prometheus/Loki/Grafana/Alertmanager）

三、系统与内核通用优化（CentOS 7）

3.1 基础依赖

yum -y install epel-release
yum -y install jq wget curl chrony git htop iotop net-tools vim
systemctl enable --now chronyd
chronyc sources -v

3.2 内核网络参数（/etc/sysctl.d/99-game-net.conf）

这些值是我在香港跨境环境下打出来的“安全盘”，不盲目极限化，兼顾稳定与低抖。

net.core.rmem_max = 268435456
net.core.wmem_max = 268435456
net.core.netdev_max_backlog = 250000
net.ipv4.ip_local_port_range = 10000 65000
net.ipv4.tcp_rmem = 4096 87380 134217728
net.ipv4.tcp_wmem = 4096 65536 134217728
net.ipv4.tcp_mtu_probing = 1
net.ipv4.tcp_fastopen = 3
net.ipv4.tcp_tw_reuse = 1
net.core.somaxconn = 65535
net.ipv4.tcp_fin_timeout = 15
net.ipv4.tcp_max_syn_backlog = 262144
net.ipv4.tcp_synack_retries = 2

sysctl --system

3.3 网卡与队列

确认使用多队列（RSS）：ethtool -l eth0
适度关闭或调优 offload：ethtool -K eth0 gro on gso on tso on（按业务压测结果定）
Bonding（LACP）做主备或汇聚，跨交换机建议 MLAG/Stack 方案。

3.4 文件句柄与 inotify

echo "* soft nofile 1048576" >> /etc/security/limits.conf
echo "* hard nofile 1048576" >> /etc/security/limits.conf
sysctl -w fs.inotify.max_user_watches=1048576

四、日志链路：游戏 → Promtail → Loki

4.1 游戏进程日志（JSON 行）

我让游戏进程在关键交互点打印结构化 JSON，最少包含：

{
  "ts":"2025-09-10T13:11:22.345Z",
  "uid":"u_92348723",
  "sid":"s_18c2",
  "ip":"203.0.113.18",
  "asn":"AS4134",
  "isp":"CT",
  "province":"BJ",
  "rtt_ms": 62,
  "jitter_ms": 14,
  "loss_pct": 0.8,
  "retrans": 2,
  "room":"hk-1",
  "event":"heartbeat",
  "tick": 120
}

rtt/jitter/loss 可通过客户端心跳 + 服务器 ACK 时间差、序号间隔方差估算；无法改客户端时，我用服务器侧 TCP 指标 + 采样 ICMP 辅助校准。

4.2 安装 Loki 与 Promtail

# Loki & Promtail 二进制
useradd -r -s /sbin/nologin loki
mkdir -p /data/loki /etc/loki /var/log/loki
chown -R loki:loki /data/loki /var/log/loki

# /etc/loki/loki-config.yml

auth_enabled: false
server:
  http_listen_port: 3100
  grpc_listen_port: 9096
common:
  path_prefix: /data/loki
  storage:
    filesystem:
      chunks_directory: /data/loki/chunks
      rules_directory: /data/loki/rules
  replication_factor: 1
schema_config:
  configs:
  - from: 2020-01-01
    store: boltdb-shipper
    object_store: filesystem
    schema: v12
    index:
      prefix: index_
      period: 24h
limits_config:
  ingestion_rate_mb: 32
  max_global_streams_per_user: 50000
  reject_old_samples: true
  reject_old_samples_max_age: 168h
chunk_store_config:
  max_look_back_period: 720h
table_manager:
  retention_deletes_enabled: true
  retention_period: 168h

systemd 单元： /etc/systemd/system/loki.service

[Unit]
Description=Loki Log Aggregation
After=network.target
[Service]
User=loki
ExecStart=/usr/local/bin/loki -config.file=/etc/loki/loki-config.yml
LimitNOFILE=1048576
Restart=always
[Install]
WantedBy=multi-user.target

Promtail 配置 /etc/promtail/config.yml

server:
  http_listen_port: 9080
  grpc_listen_port: 0

positions:
  filename: /var/log/loki/positions.yaml

clients:
- url: http://127.0.0.1:3100/loki/api/v1/push

scrape_configs:
- job_name: game-json
  static_configs:
  - targets:
    - localhost
    labels:
      job: game
      host: hk-gs-01
      __path__: /var/log/game/*.log
  pipeline_stages:
    - json:
        expressions:
          uid: uid
          ip: ip
          asn: asn
          isp: isp
          province: province
          rtt_ms: rtt_ms
          jitter_ms: jitter_ms
          loss_pct: loss_pct
          event: event
          room: room
    - labels:
        uid:
        isp:
        province:
        room:
    - timestamp:
        source: ts
        format: RFC3339

启动：

systemctl daemon-reload
systemctl enable --now loki.service
systemctl enable --now promtail.service

五、指标与跨境网络探测

5.1 Prometheus 与 node_exporter

useradd -r -s /sbin/nologin prometheus
mkdir -p /data/prom /etc/prometheus /var/lib/prometheus
# 省略二进制下载，放 /usr/local/bin

# /etc/prometheus/prometheus.yml

global:
  scrape_interval: 15s
  evaluation_interval: 15s

scrape_configs:
- job_name: node
  static_configs:
  - targets: ['hk-gs-01:9100','hk-probe-01:9100']
- job_name: blackbox_icmp
  metrics_path: /probe
  params:
    module: [icmp]
  static_configs:
  - targets:
    - 61.148.1.1     # CT 北京探测点 (示例)
    - 211.95.1.1     # CU 华东探测点 (示例)
    - 120.196.1.1    # CM 华南探测点 (示例)
  relabel_configs:
  - source_labels: [__address__]
    target_label: __param_target
  - source_labels: [__param_target]
    target_label: instance
  - target_label: __address__
    replacement: 127.0.0.1:9115   # blackbox_exporter
- job_name: fping_jitter
  static_configs:
  - targets: ['127.0.0.1:9105']    # 自研导出器或文本网关

5.2 blackbox_exporter（ICMP/TCP 探测）

/etc/blackbox/blackbox.yml

modules:
  icmp:
    prober: icmp
    timeout: 3s
  tcp_7001:
    prober: tcp
    timeout: 3s
    tcp:
      preferred_ip_protocol: ip4

提示：很多 Anti-DDoS 或边界防火墙限 ICMP。我实际落地时双轨（ICMP + TCP 端口探测），并以 TCP 成功率与握手时延为准做业务相关性判断。

5.3 fping + 文本导出器（Jitter 专项）

Prometheus 没有“原生 Jitter”，我用 fping 连续发多包计算 RTT 方差：

yum -y install fping
cat >/usr/local/bin/jitter-exporter.sh <<'EOF'
#!/bin/bash
targets=("61.148.1.1" "211.95.1.1" "120.196.1.1")
echo "# HELP net_jitter_ms RTT jitter in ms"
echo "# TYPE net_jitter_ms gauge"
for t in "${targets[@]}"; do
  # 20 包采样，100ms 间隔
  rtts=($(fping -C 20 -q -p 100 $t 2>&1 | sed 's/.*: //g' | tr ',' ' '))
  sum=0; n=0
  for r in "${rtts[@]}"; do
    if [[ "$r" != "-" ]]; then
      sum=$(echo "$sum + $r" | bc)
      n=$((n+1))
    fi
  done
  if [[ $n -gt 1 ]]; then
    mean=$(echo "scale=4; $sum / $n" | bc)
    var=0
    for r in "${rtts[@]}"; do
      if [[ "$r" != "-" ]]; then
        var=$(echo "scale=4; $var + ($r - $mean)^2" | bc)
      fi
    done
    jitter=$(echo "scale=4; sqrt($var / ($n-1))" | bc -l)
    echo "net_jitter_ms{target=\"$t\"} $jitter"
  fi
done
EOF
chmod +x /usr/local/bin/jitter-exporter.sh

用 node_exporter textfile 输出：

mkdir -p /var/lib/node_exporter/textfile_collector
echo 'collector.textfile.directory: /var/lib/node_exporter/textfile_collector' >> /etc/sysconfig/node_exporter
cat >/etc/cron.d/jitter <<"EOF"
* * * * * root /usr/local/bin/jitter-exporter.sh > /var/lib/node_exporter/textfile_collector/jitter.prom.$$ && mv /var/lib/node_exporter/textfile_collector/jitter.prom.$$ /var/lib/node_exporter/textfile_collector/jitter.prom
EOF
systemctl restart node_exporter

5.4 周期 MTR 采样（入 Loki 便于回放）

cat >/usr/local/bin/mtr-log.sh <<'EOF'
#!/bin/bash
targets=("61.148.1.1" "211.95.1.1" "120.196.1.1")
for t in "${targets[@]}"; do
  ts=$(date -Iseconds)
  mtr -nrc 10 $t | sed "s/^/[$ts] $t /"
done
EOF
chmod +x /usr/local/bin/mtr-log.sh
echo '*/5 * * * * root /usr/local/bin/mtr-log.sh >> /var/log/net/mtr.log' > /etc/cron.d/mtr
mkdir -p /var/log/net
# Promtail 再增一条 scrape_configs 采集 /var/log/net/mtr.log

六、Grafana 看板与查询

6.1 Loki（LogQL）快速定位某省/运营商高抖玩家

{job="game", event="heartbeat", isp="CT", province="BJ"}
| json
| rtt_ms > 50
|~ "room=\"hk-1\""

6.2 Prometheus（PromQL）观测抖动、RTT

ICMP RTT（blackbox）：

avg_over_time(probe_icmp_rtt_seconds[5m]) * 1000

Jitter（fping 导出）：

avg_over_time(net_jitter_ms{target="61.148.1.1"}[5m])

TCP 探测成功率：

sum(rate(probe_success{job="blackbox_icmp"}[5m]))
/
sum(rate(probe_duration_seconds_count{job="blackbox_icmp"}[5m]))

6.3 告警规则（Alertmanager）

/etc/prometheus/alerts.yml

groups:
- name: cross-border
  rules:
  - alert: HighJitterCT_Beijing
    expr: avg_over_time(net_jitter_ms{target="61.148.1.1"}[10m]) > 20
    for: 10m
    labels:
      severity: warning
    annotations:
      summary: "CT 北京抖动升高"
      description: "10 分钟均值 > 20ms，可能影响北方玩家体验"
  - alert: GameRoomHighRTT
    expr: avg_over_time(probe_icmp_rtt_seconds{instance="120.196.1.1"}[10m]) * 1000 > 80
    for: 10m
    labels:
      severity: critical
    annotations:
      summary: "华南链路 RTT 升高"
      description: "可能与跨境拥塞或路由切换有关，关注 hk-1 房间在线"

七、现场数据样例（高峰 20:00~21:00）

运营商	省份	目标探测点	RTT 平均(ms)	Jitter 均值(ms)	丢包%	玩家心跳 RTT P50/P95(ms)	备注
CT	BJ	61.148.1.1	58	18	0.6	55 / 92	晚高峰拥塞明显
CU	SH	211.95.1.1	42	9	0.3	40 / 68	稳定
CM	GD	120.196.1.1	36	7	0.2	34 / 57	稳定
CT	SD	60.216.1.1	65	22	0.9	60 / 104	间歇性抖动

表格是我真实指标风格的“演示版”。上线后我们把 P50/P95 与探测端 RTT/Jitter 叠加在同一面板，能一眼看出玩家体感与链路状态的一致性。

八、部署过程中的坑与现场解法

ICMP 被限导致误判

初期我只看 ICMP，结果 CT 某段把 ICMP 压制，RTT 抬高但 TCP 业务正常。
解法：加入 TCP 探测（黑盒 TCP module 指向游戏端口/健康端口），同时以玩家心跳 RTT作第三证据，三者取交集判断。

时钟漂移导致 RTT 估算失真

两台观测节点 NTP 不一致，跨服对比时出现“假抖动”。
解法：chrony 多上游（香港、深圳各取 2 个），设置 makestep，观测节点每日校验偏移。

Loki 磁盘热区抖

晚高峰写入暴增，NVMe 单块 I/O 忙到队列排长。
解法：Loki chunks 与 index 分盘（RAID1 双 NVMe），并调大 ingestion_rate_mb；Promtail 打开批量与压缩；日志保留 7 天 + 归档冷存。

Promtail inotify 限制

新开分片日志文件过多，positions 文件写失败。
解法：提升 fs.inotify.max_user_watches，并对游戏日志做按小时滚动、按天清理；标签控制，避免高基数（uid 只做字段，不做 label）。

MTU 黑洞

跨境某段隧道 MTU 低于 1500，TFO/TLS 分段后偶发重传。
解法：启用 tcp_mtu_probing=1，同时边界路由启用 PMTUD 与 MSS clamp。

防火墙对 TCP 探测报文的奇怪行为

Anti-DDoS 厂商对“短连接握手探测”识别为扫描。
解法：与厂商沟通白名单；探测频率从 5s 降到 15s；多目标做抖动抽样而非全量持续。

九、分阶段上线与回滚策略（我实际用的）

观测栈先行：先把 Prom/Loki/Grafana/Alertmanager 跑稳，跑 1 周基线。
只采玩家心跳：promtail 只收 event=heartbeat，将标签控制在 isp/province/room。
逐步加探测点：每日 +2 个目标，观察 Loki 写入与 Prom 延迟。
阈值灰度：告警阈值先偏保守（Jitter>25ms/10m），再逐步收紧。
回滚：任何一项造成资源抖动，优先降频/停探测，保住游戏核心链路与日志链路。

十、与运营/客服的配合（输出能落地的证据）

当玩家反馈“卡”，我第一时间把那一段时间的省份/运营商的 Jitter/RTT截图+玩家心跳 P95发给客服，同时附上一份 MTR 路径变化。

如果只在某个 ASN 抖，我会就近调度（多机房/多上联/BGP 社区策略），并备注调整时间点，方便事后回看“调整前后曲线”。

十一、完整清单（SOP 摘要）

CentOS 7 基础包、chrony、limits、sysctl、队列
Loki+Promtail 安装配置，日志 JSON 与标签设计
Prometheus+node_exporter、blackbox_exporter、fping 导出（textfile）
MTR 采样入 Loki
Grafana 面板：玩家心跳 P50/95 vs 探测 RTT/Jitter、TCP 成功率
Alertmanager 告警：省份/运营商维度
归档与保留策略：7 天热存，必要时月度冷归档
变更灰度与回滚预案

十二、我在生产里最常用的两个“对照查询”

玩家侧与线路侧对齐：

LogQL（Loki）：

{job="game", event="heartbeat", isp="CT", province="BJ"} | json
| line_format "{{.ts}} uid={{.uid}} rtt={{.rtt_ms}} jitter={{.jitter_ms}} loss={{.loss_pct}}"


PromQL（Prometheus）：

{
  icmp: avg_over_time(probe_icmp_rtt_seconds[5m]) * 1000,
  jitter: avg_over_time(net_jitter_ms[5m])
}

把两条曲线叠加在 Grafana 上，一眼看穿“体感卡顿是不是由跨境链路波动引起”。

又是一个下雨的晚上，南风把海面的湿气推进了冷气口。面板上，华北的 jitter 被风暴轻轻拨动了几下，告警阈值线下悠悠荡荡，但 Alertmanager 没响。
运营在群里问：“今晚稳吗？”
我盯着 P95 曲线和 TCP 成功率，回了句：“稳。链路有轻微抖动，但不会影响体感。”
这不是拍脑袋的自信——后台那一套实时日志 + 跨境探测的铁证，已经陪我熬了太多夜。

上一篇：香港服务器上的短视频平台：我如何用 Nginx + MinIO 分布式缓存把加载速度打到极致下一篇：香港机房的看不见的比赛：用 Debian+Chrony/NTS 构建 NTP 集群，守住国内与东南亚电竞赛况一致