导语:以典型场景为例,详细展示改造前后的数据对比:热降频事件减少95%、冷却电费大幅下降、机柜密度提升等,增强数据中心运营方信心。
关键词标签:#改造案例 #算力提升 #pPUE降低 #热降频减少 #塔能两相液冷
【核心要点摘要】
某智算中心原采用单相液冷,机柜功率80kW时已出现频繁热降频。改造为塔能两相液冷后,机柜密度提升至110kW,热降频事件减少95%,局部pPUE从1.25降至1.08,年冷却电费节省超百万元。案例验证两相液冷的改造价值。
一、改造前:单相液冷的“吃力”状态
某一线城市智算中心,建成于2022年,原设计采用单相液冷方案,机柜设计功率60kW。随着业务升级和GPU换代,机柜实际运行功率逐步提升至80kW。在这个功率水平下,单相液冷开始暴露出问题:
首先,冷板进出口温差从原来的5°C扩大到12°C,导致机柜内不同位置的GPU温度差异明显,局部热点频发。其次,在AI训练任务的瞬时功率尖峰下,芯片温度过冲严重,多次触发热降频保护。运维日志显示,平均每个训练任务周期内发生3-5次热降频事件,每次导致任务延迟5-10分钟。第三,为了压住温度,泵组被迫提高转速,泵耗从原来的15kW增加到28kW,同时冷却水系统也需要更低的供水温度,导致冷水机组能耗上升。
该智算中心运营方评估后认为,如果不进行热管理升级,机柜功率无法继续提升,新建机柜的投资回报周期将大幅拉长。同时,频繁的热降频已经影响到运营方体验和业务承诺。
二、改造方案:塔能两相液冷模块化部署
经过技术比选,运营方选择了塔能两相液冷改造方案。改造分为三个阶段:
第一阶段,选择两个典型高负载机柜进行试点改造。更换两相冷板,保留原有管路和泵组(两相系统低流量特性允许沿用部分现有设施)。第二阶段,根据试点数据优化部署方案,逐步扩展到20个机柜。第三阶段,全量部署并接入塔能物联网精准节能平台,实现统一监控和动态调节。
整个改造过程采用模块化、不停机方式。每个机柜的冷板更换在服务器维护窗口内完成,单机柜改造时间不超过4小时。全量改造周期为6周,期间业务未中断。
三、改造后数据:算力提升30%,pPUE降至1.08
改造完成后,运营方进行了为期3个月的性能评估,核心数据如下:
机柜密度:从80kW提升至110kW,提升37.5%。在相同机房面积内,总算力增加约30%。
热降频事件:在同等AI训练负载下,热降频事件从平均每任务周期4.2次降至0.2次,减少95%以上。训练任务平均完成时间缩短约18%。
温度稳定性:芯片温度波动幅度从改造前的±5°C缩小至±1.2°C,局部热点完全消除。
pPUE:高密度区域的局部pPUE从改造前的1.25降至1.08。这意味着在110kW的机柜功率中,只有约8kW用于冷却,其余102kW全部供给IT设备。
冷却能耗:泵耗从28kW降至6kW,降幅78%;冷水机组供水温度可提高3°C,对应能耗下降约15%。综合计算,单个机柜年冷却电费节省约5.5万元,20个机柜年节省超过110万元。
四、运营方反馈与经验总结
该智算中心技术负责人在项目总结中表示:“两相液冷改造最让我们惊喜的有两点。第一是改造过程几乎没有影响业务,比我们预想的要顺利得多。第二是改造后的性能提升远超预期,原本以为能把机柜功率提到90kW就不错了,结果直接拉到了110kW,而且运行非常稳定。”
从经验角度看,成功的改造有几个关键因素:一是前期试点验证,用数据打消顾虑;二是模块化产品设计,降低现场实施难度;三是物联网平台的实时监控,让运维团队能够直观看到改造效果并及时优化。
五、结论:塔能两相液冷改造,盘活存量资产的高回报路径
这个案例充分证明,存量机房升级为两相液冷是一条高回报的技术路径。塔能两相液冷不仅能够解决单相方案在更高密度下的能力瓶颈,还能以不停机、模块化的方式完成改造,让运营方以较低的改造成本和业务风险,释放出可观的潜在算力。
对于正在面临“机柜密度上不去、热降频频发”的算力中心运营者来说,塔能两相液冷改造提供了一条从“存量受限”到“增量释放”的确定性路径。
好节能,塔能物联网精准节能。
用软件定义硬件,让物联运维更简捷更节能。