两相液冷时代:为什么领先企业不再比拼液冷参数,而是定义控温标准?
来源:塔能 | 作者:小编 | 发布时间: 2026-05-11 20:29:50 | 次浏览


两相液冷时代:为什么领先企业不再比拼液冷参数,而是定义控温标准?

作者:两相君

 

常见问题(FAQ)

Q: 为什么说“控温”比“降温”更重要?
A: 芯片频繁的温度波动(如±5℃)会触发降频保护,导致算力损失。两相液冷将波动控制在±1.5℃以内,保障持续满负载运行。

Q: 两相液冷适合存量机房改造吗?
A: 适合。模块化背板方案无需改动服务器结构,支持在线部署,某电信机房改造后PUE从1.8降至1.12,且未中断业务。

Q: 两相液冷能降低多少冷却能耗?
A: 根据塔能内部测试,相比单相液冷,泵组能耗可降低约60%,整体冷却能耗下降40%以上。




摘要

AI算力驱动单机柜功率突破30kW甚至120kW,传统风冷与单相液冷面临温度波动大、芯片频繁降频等问题。热管理的核心正从“散热”转向“控温”。两相液冷利用相变潜热,实现±1.5℃以内精准控温,显著减少热降频。结合模块化设计与物联网平台,支持存量机房不停机改造,PUE可降至1.12以下。领先企业不再比拼液冷参数,而是通过系统级控温能力,确保算力持续稳定释放。




正文

 

 

 

image.png 

 

 

 

一、行业正在经历一场静默的升级:算力密度飙升,热管理悄然变轨

1. 算力密度提升,热管理面临根本性挑战

近年来,AI训练集群、大模型推理中心和智算中心的部署速度远超预期。单机柜功率突破30kW已成常态,部分头部项目甚至迈向120kW级别。传统的风冷系统在高密度下已力不从心,即便引入单相液冷,许多数据中心仍反馈:“设备是冷了,但性能依然不稳定。”原因并非散热能力不足,而是温度波动过大导致芯片频繁热降频。

 

2. PUE考核趋严,存量机房资源闲置突出

在双碳目标推动下,多地新建数据中心的PUE要求已低于1.25。与此同时,存量机房受制于原有热管理能力,普遍存在“电力可用、空间可用、但热量带不走”的尴尬局面。

 

3. 热管理角色转变:从保障运行到释放算力

热管理的角色正从“保障设备不坏”转向“确保算力持续稳定释放”。行业关注的重点不再是“有没有冷却”,而是“能否长期满载运行”。

 

 

 

 

image.png 

 

 

 

二、客户的真正痛点,藏在“看不见的波动”里

1. 高密度机柜最怕的不是高温,而是温区不稳

实验数据显示,温度波动每增加±5℃,芯片热降频频率提升近3倍(基于JEDEC标准仿真),直接影响训练效率与推理延迟。

 

2. 改造项目难,难在“不能停”与“不敢改”

传统液冷方案常需重构管路、更换服务器结构,改造周期长、风险高。客户的真实诉求是:能否在不停机的前提下,实现热管理能力跃升?

 

3. 节能≠省电,粗放式优化难见长效

真正的节能必须建立在“动态感知-智能调控-闭环优化”的基础上。两相液冷+物联网平台提供了这一能力。

 

image.png 

 

 

 

 

三、技术破局的关键,在于从“散热”走向“控温”

1. 两相液冷的本质,是利用相变潜热实现精准温控

两相系统冷板表面温差可控制在±1.5℃以内,极大减少芯片性能震荡。同等热负荷下,介质流量仅为单相方案的1/5~1/9,大幅降低泵组能耗。

 

2. 模块化设计支撑存量机房低风险升级

某电信机房实测显示,14台30kW机柜改造后PUE从1.8降至1.12,且全程未中断服务(塔能内部测试案例)。该方案特别适用于老旧机房电力、空间饱和但算力需求激增的场景。

 

3. 物联网平台让热管理从“静态安装”变为“持续服务”

通过集成物联网SaaS平台,实现温度、压力、流量、能耗的实时采集与远程调控,内置AI算法自动寻优运行策略,综合节能率提升20%以上。

 

image.png 

 

 

 

四、未来的竞争力,属于“系统级能力”的构建者

1. 客户买的不是冷板,而是一套可兑现的算力基础设施。

2. 新建与改造双线作战,考验技术适配性与交付韧性。某新建指挥中心项目通过芯片+背板双层两相系统,实现局部pPUE低至1.05。

3. 精准节能的背后,是一套“软件定义硬件”的方法论。

 

当行业还在争论“要不要上液冷”时,领先者已在思考“如何让算力更稳、更久、更高效地运行”。热管理的终局,不再是简单的热量搬运,而是对算力质量的系统保障。

 

免责声明:本文数据基于塔能内部测试及典型项目模拟,实际效果因环境而异。