两相液冷:高密度算力时代,控温决定热管理胜负
来源:塔能 | 作者:小编 | 发布时间: 2026-04-24 22:47:20 | 次浏览


两相液冷:高密度算力时代,控温决定热管理胜负

 

摘要:高密度算力时代,单机柜功率突破30kW,传统冷却方式面临“稳温”困局。两相液冷利用相变潜热,实现芯片级±1.5℃精准控温,同等热负荷下流量仅为单相方案的1/5~1/9,CLF可降至0.036以下。湖北某航空研究院项目验证PUE稳定在1.12,湖南某电信改造PUE从1.8降至1.3且业务零中断,上海某智算中心冷却能耗下降37%。热管理的胜负手正从“能不能降温”转向“能不能控温”,为高密度算力提供稳定运行保障。

 

新基建+双碳双驱动!塔能液冷PUE≤1.1,解锁算力中心绿色发展密码(1).jpg


一、行业正在经历一场静默的升级:从“算力爆发”到“运行质量危机”

1. AI推动机柜功率密度飙升,传统冷却方式逼近极限

近年来,随着AI训练与推理任务的规模化部署,数据中心单机柜功率密度持续攀升。2024年已有多个头部智算中心部署超过30kW/柜的高密度集群,部分实验性架构甚至突破120kW/柜。这一趋势背后,是GPU集群功耗呈指数级增长的真实压力。

 

然而,硬件性能的跃迁并未同步带来运行质量的保障。据一些数据中心反馈:即便配备了液冷系统,设备仍频繁出现热降频、性能抖动、局部热点等问题。这标志着,行业的焦点已从“有没有冷却”转向“冷却是否足够稳定”。

 

2. 单相液冷仍在服役,但能力边界日益清晰

目前主流的单相液冷方案依赖液体循环带走热量,虽比风冷效率提升显著,但在面对高热流密度、动态负载波动时,逐渐暴露出短板:

 

换热效率受限于显热传递,需大流量维持散热,泵耗高

温度响应滞后,难以应对瞬时功耗突增

系统余量小,扩容空间有限

正如某大型运营商技术负责人所说:“我们现在不是缺冷量,而是缺‘稳温’的能力。”

 

3.政策与市场双重驱动,推动热管理进入“精准控温”阶段

“东数西算”工程对PUE提出严苛要求,多地新建数据中心PUE限制在1.25以内;而“双碳”目标下,冷却系统的能耗占比成为关键考核指标。与此同时,存量机房因热管理瓶颈导致算力无法满载的现象普遍存在——空间、电力、机柜都在,唯独“热债”压顶。

 

这场变革的本质,是热管理从配套系统向算力基础设施核心环节的跃迁。

 

slide_35(1).jpg


二、客户真正的痛点,从来都不是“温度高”,而是“不稳定”

1.高密度机柜最怕的不是发热,而是温区波动

对于AI训练任务而言,连续稳定的算力输出远比峰值性能更重要。频繁的温度波动会导致GPU反复进出降频状态,直接影响模型收敛速度和训练周期。实测数据显示,温度波动超过±5℃时,训练任务平均延长18%以上。

 

更深层问题是:传统冷却系统只能“被动响应”,无法“主动调节”。一旦负载突增,冷却系统滞后反应,芯片早已进入保护性限频。

 

2.改造项目难,难的不只是技术,更是停机风险与兼容性

大量已建成的数据中心面临升级困境。客户不愿采用侵入式改造方案,担心影响业务连续性。他们需要的是:

 

不拆服务器、不改机柜结构

在线部署、模块化接入

与现有监控系统无缝对接

但市面上多数液冷方案仍停留在“换设备”的层面,缺乏对运维现实的尊重。

 

3.节能≠省电,真正的价值在于“资源兑现率”

许多客户投入巨资进行节能改造,却发现节能效果难以量化,运维负担反而加重。根本原因在于:节能动作未与运营体系打通。

能耗数据孤岛

故障无法预判

控制策略僵化

客户需要的不是一套独立运行的冷却设备,而是一个能融入其运维流程、持续优化运行状态的可运营系统。

 

slide_39(1).jpg


三、为什么是现在?一种更系统的热管理方法正在浮现

1. 两相液冷:从“带走热量”到“控制温度”的范式转移

当行业还在讨论“如何更快降温”时,另一条技术路径已在悄然成熟——泵驱两相液冷。其核心原理在于利用工质的“相变潜热”吸热,在沸腾过程中实现近乎恒定的温度输出。

这意味着:

冷板表面温度波动可控制在±1.5℃以内

相同热负荷下,所需流量仅为单相系统的1/5~1/9

泵组能耗大幅降低,CLF(制冷负载系数)可降至0.036以下

这不是简单的技术迭代,而是从“散热思维”向“控温思维”的跃迁。

 

2.航天级技术下放,成就地面高可靠应用

该技术最早应用于航天器红外探测器、机载雷达等对温控精度要求极高的场景,历经数十年极端工况验证。如今,通过工程化转化,已可在数据中心实现:

全密闭冷媒循环,无水患风险

WUE趋近于零,适用于水资源紧张地区

模块化设计,支持背板级、芯片级灵活部署

在湖北某航空研究院项目中,6台25kW机柜连续运行半年,平均PUE稳定在1.12,验证了其长期可靠性。

 

3.硬件+平台协同,构建“可管、可控、可运营”的闭环

真正的竞争力不在单一部件,而在系统整合能力。一套完整的解决方案必须包含:

芯片级泵驱两相冷板:实现定点高效散热

背板级两相换热系统:适配多种服务器架构

液冷CDU与集成冷站:提供稳定工质供应

物联网SaaS平台:实现远程监测、动态调参、故障预警

 

例如在湖南某电信改造项目中,通过平台实时调控泵压与沸点,成功将PUE从1.8降至1.3,且全程无需中断业务。

 

图片2.png


四、这不仅是技术选择,更是一种面向未来的运营哲学

1.新建市场看上限,改造市场看兑现

对于新建智算中心,两相液冷提供了面向未来3-5年的热管理冗余,支持120kW+/柜的部署密度;而对于存量机房,则可通过模块化背板系统,在不停机前提下释放30%-50%的潜在算力。

广西某集团新建机房即采用芯片+背板双系统配置,设计PUE<1.2,兼顾高性能与可扩展性。

 

2.从“设备交付”到“运行质量交付”

客户最终采购的,从来不是一个冷板或一台CDU,而是一种长期稳定释放算力的能力。这套能力体现在:

热降频事件减少90%以上

服务器使用寿命因温区稳定而延长

冷却能耗降低,TCO显著优化

运维从“救火式”转向“预测式”

在上海临港某智算中心,部署后首个季度即实现冷却系统能耗下降37%,AI训练任务完成率提升22%。

 

3.软件定义硬件,让节能真正“活”起来

未来节能的竞争,不再是“谁的设备更省电”,而是“谁的系统更能持续优化”。通过AI算法对温度、流量、负载进行联合寻优,平台可自动生成最优控制策略,并随运行环境动态调整。

 

就像岳阳某数据中心所言:“以前节能靠经验,现在靠数据;以前调参数靠人,现在靠模型。”

 

真正领先的解决方案,从不追随热点,而是在行业拐点到来之前,就已经构建起覆盖技术、产品、平台与运维的完整方法论。当整个市场还在争论“要不要上液冷”时,少数玩家已开始回答:“如何让算力全天候稳定满载运行”——这才是高密度时代的终极命题。