
我们为一家跨国医疗科技公司在新加坡部署一套具备“混合云能力”的架构,既要整合本地高性能服务器处理实时医疗数据,又需与AWS Singapore Region进行深度连接,实现随时可扩的云端计算能力。系统要求极高的可用性、快速的横向扩展能力,同时要支持将AI模型部署在本地以降低延迟。
这是一个实打实的项目,不只是PPT上的蓝图。以下,就是我在实际操作中,总结出的完整流程和关键配置方法。
一、明确混合云架构的核心目标
目标明确,方案才能落地。混合云架构的核心,是将“本地计算资源”与“云端计算能力”融合,使系统在满足安全、合规、低延迟的前提下,具备弹性扩展能力。
我们将任务分为三类:
- A类:实时数据处理(本地处理)
- B类:高强度计算(混合处理)
- C类:批量训练和数据存储(云端处理)
因此,我们的服务器部署必须支持以下几个核心能力:
- 本地GPU或FPGA支持
- 支持容器化管理(如Kubernetes)
- 云边无缝网络对接(如Direct Connect、VPN或SD-WAN)
- 存储方案支持冷热数据分层
- 自动化资源编排与伸缩机制
二、硬件选型:服务器的弹性扩展,从基础开始
2.1 本地服务器选型:HPE ProLiant DL380 Gen11
我们最终选择了 HPE ProLiant DL380 Gen11,这是针对数据中心级别部署优化的双路服务器,关键参数如下:
- 处理器:支持 Intel Xeon Scalable Gen 4(最多双路,128核心)
- 内存:最高可配 8TB DDR5 ECC
- GPU支持:支持2-4张NVIDIA A100/A30,加速AI推理与训练
- 网络:双10GbE起步,可扩展到25GbE或100GbE
- 热插拔能力:12个SAS/SATA/NVMe混合托架
- RAID控制器:支持RAID 0/1/5/6/10,确保数据冗余性
关键在于它的模块化设计,不仅便于后期升级,还适配机架式冷通道冷却结构,非常适合新加坡湿热的气候。
2.2 存储层设计:本地+云分层存储
- 本地热数据:采用 Dell EMC PowerStore 500T 全闪阵列,具备动态压缩与重复数据删除能力
- 冷数据与归档:推送至 AWS S3 Singapore 区域,并配置生命周期策略
- 快照与备份:使用 Veeam + HPE StoreOnce 进行本地+云端双重备份
三、网络互联:边缘与云的“高速通道”
3.1 云网对接:AWS Direct Connect
我们租用 Singtel 提供的物理链路,使用 AWS Direct Connect 接入 AWS VPC,核心配置如下:
- 带宽:1Gbps(可随业务扩展至10Gbps)
- VLAN配置:分为管理层(Mgmt)、业务层(App)和存储层(Storage)
- 冗余通道:备用VPN over IPSec链路,确保主链路中断时业务不受影响
3.2 软件定义网络控制
部署 VMware NSX-T 作为SDN解决方案,配合 NSX Edge,实现:
- 跨数据中心与云的策略控制
- 微分段安全策略(Zero Trust)
- 网络流量可视化监控
四、部署层技术栈:容器化 + 自动化调度
整个系统的服务交付基于 Kubernetes 进行容器化编排。具体技术选型如下:
- Kubernetes发行版:RKE2(Rancher Kubernetes Engine v2)
- 集群管理:Rancher UI,支持多集群统一管理
节点设计:
- 边缘节点(本地服务器):GPU节点用于AI推理
- 云端节点(EKS托管):用于高峰期自动扩展训练任务
自动伸缩策略
- 配置 Cluster Autoscaler 对接 AWS EC2 ASG
- 本地采用 KubeVirt + Prometheus + KEDA 动态扩容本地虚拟机容器
五、数据与性能监控:可视化 + 预警机制
- 监控栈:Prometheus + Grafana + Loki
- 指标采集:节点CPU、GPU使用率、网络IO、存储IOPS
- 事件驱动预警:通过 AlertManager 推送至 Slack、邮件与 PagerDuty
- 用户访问审计:启用 ELK Stack(Elasticsearch, Logstash, Kibana)
六、实际效果验证与弹性扩展测试
我们进行了三轮压力测试:
- 本地AI推理请求高峰模拟(1000并发)→ GPU占用率稳定在85%
- 云端批量AI训练触发 → 自动调起8台AWS EC2 GPU实例(G5)
- 数据传输性能 → 本地到S3上传速率达850Mbps(压缩后)
- 同时,系统实现了平均10秒内弹性伸缩响应、15分钟冷启动上云能力,满足SLAs。
七、架构拓扑图:新加坡混合云部署示意
以下是新加坡混合云架构的示意图,展示了本地数据中心与AWS云端的连接方式:

这个架构通过AWS Direct Connect或VPN实现本地数据中心与AWS云端的高速、低延迟连接,确保数据的安全传输和系统的高可用性。
八、部署清单:核心硬件与配置参数
1. HPE ProLiant DL380 Gen11 服务器
- 处理器:支持第4代和第5代 Intel Xeon Scalable 处理器,最多64核心,单颗功耗最高350W
- 内存:最大支持8TB DDR5,32个DIMM插槽,支持高带宽内存(HBM)
- 存储:支持前置8/12个LFF或8/16/24个SFF驱动器,后置可选2/4/6个SFF驱动器,支持NVMe
- 扩展槽:最多8个PCIe Gen5全高全长插槽,支持高带宽I/O
- 网络:集成1Gb iLO远程管理端口,可选10/25/100GbE网络卡
- GPU支持:支持2-4张NVIDIA A100或A30 GPU卡,适用于AI推理和训练任务
- 管理:集成HPE iLO 6管理软件,支持远程配置、监控和更新
2. Dell EMC PowerStore 500T 存储阵列
- 处理器:2个Intel Xeon处理器,24核心,主频2.2GHz
- 内存:最大支持192GB DDR4内存
- 存储容量:单个设备最大支持6.16PB,集群最大支持24.64PB
- 驱动器支持:最多支持97个驱动器,支持NVMe SSD
- 尺寸与重量:2U机架式设计,尺寸为8.64 cm x 44.45 cm x 79.5 cm,重量约37.4 kg
- 电源要求:支持100-240 VAC,最大功耗约984W
- 功能特性:支持NVMe-over-Fabric(FC和TCP),具备始终开启的数据缩减、智能自动化、主动资源平衡、预测分析和无中断的软件和硬件升级
3. AWS Direct Connect 网络连接
连接类型:支持专用连接(Dedicated)和托管连接(Hosted)
带宽选项:1 Gbps、10 Gbps、100 Gbps(部分地区支持)
端口小时费用:
- 1 Gbps:$0.30/小时
- 10 Gbps:$2.25/小时
- 100 Gbps:$22.50/小时
数据传输费用:根据传输数据量和区域而定,具体费用请参考AWS官方定价页面
连接方式:通过AWS Direct Connect位置与本地数据中心建立物理连接,支持VLAN划分,实现管理层、业务层和存储层的网络隔离
九、关键部署建议
- 高可用性设计:在本地数据中心和AWS云端分别部署冗余设备和网络连接,确保系统的高可用性和业务连续性。
- 网络安全:采用VMware NSX-T实现微分段安全策略,结合AWS安全组和网络ACL,构建零信任安全架构。
- 自动化运维:利用Kubernetes的自动伸缩(Auto Scaling)功能,实现资源的弹性扩展和高效利用。
- 监控与告警:部署Prometheus和Grafana进行系统监控,结合Alertmanager实现多渠道告警通知。
- 数据备份与恢复:使用Veeam结合HPE StoreOnce实现本地和云端的双重备份,确保数据的安全性和可恢复性。
从本地服务器硬件的选择,到混合云的联通部署,再到容器化编排和自动弹性伸缩策略的实现,每一步都像是在雨后林间铺设道路,步步为营,才能真正构建出一个“活”的架构。











