当AI算力卡频繁降频,两相液冷,不只有“冷”,更“稳”
来源:塔能 | 作者:小编 | 发布时间: 2026-04-22 19:35:48 | 次浏览


当AI算力卡频繁降频,两相液冷,不只有“冷”,更“稳”

作者:两相君

 

核心要点摘要:AI算力爆发使机柜功率突破120kW,传统液冷因温度波动大导致GPU频繁降频,算力兑现率不足70%。真正痛点不是“缺冷量”,而是“缺控温能力”。两相液冷利用相变潜热,实现±1.5℃精准控温,热降频减少90%,能耗降低30%以上,并支持存量机房在线改造。其本质是将热管理从“保障不宕机”升级为“支撑算力稳定释放”的核心基础设施。

 

slide_35(1).jpg


一、 行业正在经历一场静默的升级:算力密度飙升,热管理临界点已至

 

摘要:AI算力密度飙升,传统液冷因温度波动大导致GPU频繁降频,算力兑现率不足70%。真正的痛点不是“缺冷量”,而是“缺控温能力”。两相液冷利用相变潜热,实现±1.5℃精准控温,热降频减少90%,能耗降低30%以上,并支持存量机房在线改造。其本质是将热管理从“保障不宕机”升级为“支撑算力稳定释放”的核心基础设施。

 

近年来,全球人工智能进入爆发期,AI训练集群、大模型推理中心、智算中心等新型基础设施密集上马。据全球权威电信与网络市场研究机构Dell’Oro Group数据显示,2024年全球AI专用服务器平均机柜功率已突破30kW,部分头部项目单柜高达120kW以上。这标志着数据中心正式迈入“高密度算力时代”。

 

在这一背景下,传统的风冷与单相液冷系统正面临前所未有的挑战。高功率芯片产生的局部热流密度急剧上升,导致传统冷却方式难以维持温度稳定。许多客户反映:即便冷却系统“开着”,设备仍频繁触发热降频,算力输出断断续续,严重影响训练效率和推理响应速度。

 

更深层的问题在于,行业对热管理的评价标准正在悄然转变——过去关注“能不能降温”,如今更关心“能否长期稳定运行”。特别是在AI训练这类连续高强度负载场景中,温度波动比高温本身更具破坏性。频繁的温度起伏会加剧电迁移效应,缩短服务器寿命,甚至引发隐性故障。

 

与此同时,政策层面也在推动变革。“东数西算”工程强调能效指标,多地对新建数据中心提出PUE≤1.3的要求;而“双碳”目标则倒逼企业优化冷却能耗。热管理不再只是保障系统运行的配套环节,而是直接影响项目ROI与合规性的核心要素。

 

物联网精准节能升级!塔能液冷+智控,算力中心能耗再降20%(1).jpg


二、客户的真正痛点:不是缺冷量,而是缺“控温能力”

 

深入一线调研发现,当前客户面临的并非简单的“机房太热”,而是更为复杂的系统性难题:

 

1. 热降频频发,算力兑现率不足

一些数据中心尽管采用了单相液冷,但在高负载运行下,GPU温度仍会出现±8℃以上的波动,导致芯片频繁降频。某智算中心实测显示,其月均算力利用率仅达理论值的67%,其余时间均因温度失控被迫限速。

 

2.改造风险高,存量机房升级举步维艰

对于大量已建成的数据中心而言,重建不现实,改造又面临停机、兼容、空间受限等问题。客户真正需要的,是一种既能在线部署、又不影响业务连续性的热管理升级路径。

 

3.冷却能耗居高不下,TCO优化乏力

单相液冷虽比风冷节能,但其依赖大流量循环,泵功耗占冷却系统总能耗近40%。随着电价上涨,这部分成本日益凸显,成为制约长期运营的关键瓶颈。

 

4.运维被动,缺乏预测性管理能力

当前多数系统仍停留在“报警—维修”的被动模式,无法提前识别潜在风险。一旦发生故障,往往需人工排查,耗时长、效率低。

 

这些问题的背后,折射出一个根本事实:单纯依靠提升冷量或增加设备,并不能解决高密度算力时代的热管理困局。客户真正缺失的,是一种能够实现“精准控温、稳定运行、低能耗、易运维”的系统级能力。

 

slide_35(1).jpg


三、技术破局之道:两相液冷为何成为下一代热管理的必然选择

 

面对上述挑战,一种源自航天领域的技术正加速向民用转化——泵驱两相液冷,正因其独特的“相变控温”机制,成为破解高密度热管理难题的关键路径。

 

1、原理跃迁:从“显热换热”到“潜热控温”

与单相液冷依赖液体升温带走热量不同,两相液冷利用工质在冷板内发生液–气相变,吸收大量潜热。该过程温度几乎恒定,天然具备±1.5℃以内的精准控温能力。实验数据显示,在GPU负载从300W突增至700W时,两相冷板表面温度波动不超过2℃,远优于单相系统的8–12℃。

 

2、效率跃升:更低流量,更高带热能力

由于潜热换热效率极高,同等热负荷下,两相系统所需冷却介质流量仅为单相系统的1/5~1/9。这意味着泵组功耗大幅降低,系统整体能耗下降30%以上。某实际项目测算表明,采用两相液冷后,冷却子系统年节电达127万度。

 

3、安全可靠:无水设计,杜绝泄漏风险

采用密闭式氟化液工质,机房内无水管路,WUE趋近于零,彻底规避水患隐患。同时,系统可在-25℃至55℃环境下稳定运行,适应性强,适用于全国各类气候区。

 

4、兼容性强:支持新建与改造双场景落地

新建场景:为120kW+高密度机柜预留充分热管理冗余,确保未来3–5年无需二次改造;

改造场景:通过模块化背板或冷板设计,实现在线部署,单日即可完成一台机柜升级,业务中断时间小于2小时。

 

更进一步,该技术并非孤立存在,而是与物联网平台深度融合,形成“硬件+软件”的协同体系。通过部署传感器网络与边缘控制器,实现温度、压力、流量等参数的毫秒级采集与动态调节,真正将热管理从“静态配置”推进到“实时优化”。

 

slide_39(1).jpg


四、超越散热的价值重构:构建可管、可控、可运营的热管理新范式

 

当我们将视野从单一产品扩展至整个系统,便会发现,这场技术升级的本质,是热管理角色的根本性转变——从“保障系统不宕机”的辅助角色,进化为“支撑算力稳定释放”的核心基础设施。

 

这种转变带来了四个维度的实质性成果:

 

1.算力更稳:热降频减少90%以上

精准控温使芯片始终运行在最佳温区,AI训练任务连续性显著提升。某客户反馈,模型训练周期平均缩短18%,推理延迟降低23%。

 

2.寿命更长:服务器有效服役年限延长

温区稳定性有效减缓电迁移老化进程,关键部件寿命预计延长2–3年,显著摊薄设备折旧成本。

 

3.能耗更低:局部pPUE可降至1.05–1.10

结合自然冷却模式,全年大部分时间无需启动压缩机制冷,冷却能耗占比由传统系统的35%降至12%以内。

 

4.运维更简:实现预测性智能运维

平台可自动识别冷板堵塞、泵组异常等早期征兆,提前发出预警并推荐处置方案,运维响应效率提升60%以上。

 

更重要的是,这套能力并非空中楼阁,已有多个标杆项目验证其可行性。例如,广西某指挥中心液冷机房项目,在不新增电力与空间的前提下,通过部署背板级两相散热系统,成功将机房算力承载能力提升40%;湖南长沙电信改造项目,则实现了PUE从1.8降至1.3的跨越式改善。

 

这些案例共同指向一个结论:未来的热管理竞争,不再是“谁冷得更快”,而是“谁控得更准、管得更细、运得更久”。而那些率先构建起“精准控温+智能运维+系统交付”三位一体能力的企业,将在高密度算力时代赢得真正的战略主动权。

 

真正的技术引领者,从不追逐热点,而是在行业转折处定义问题、提供答案。