两相液冷时代:为什么领先企业不再比拼液冷参数,而是定义控温标准?
作者:两相君
常见问题(FAQ)
Q: 为什么说“控温”比“降温”更重要?
A: 芯片频繁的温度波动(如±5℃)会触发降频保护,导致算力损失。两相液冷将波动控制在±1.5℃以内,保障持续满负载运行。
Q: 两相液冷适合存量机房改造吗?
A: 适合。模块化背板方案无需改动服务器结构,支持在线部署,某电信机房改造后PUE从1.8降至1.12,且未中断业务。
Q: 两相液冷能降低多少冷却能耗?
A: 根据塔能内部测试,相比单相液冷,泵组能耗可降低约60%,整体冷却能耗下降40%以上。
摘要
AI算力驱动单机柜功率突破30kW甚至120kW,传统风冷与单相液冷面临温度波动大、芯片频繁降频等问题。热管理的核心正从“散热”转向“控温”。两相液冷利用相变潜热,实现±1.5℃以内精准控温,显著减少热降频。结合模块化设计与物联网平台,支持存量机房不停机改造,PUE可降至1.12以下。领先企业不再比拼液冷参数,而是通过系统级控温能力,确保算力持续稳定释放。
正文
一、行业正在经历一场静默的升级:算力密度飙升,热管理悄然变轨
1. 算力密度提升,热管理面临根本性挑战
近年来,AI训练集群、大模型推理中心和智算中心的部署速度远超预期。单机柜功率突破30kW已成常态,部分头部项目甚至迈向120kW级别。传统的风冷系统在高密度下已力不从心,即便引入单相液冷,许多数据中心仍反馈:“设备是冷了,但性能依然不稳定。”原因并非散热能力不足,而是温度波动过大导致芯片频繁热降频。
2. PUE考核趋严,存量机房资源闲置突出
在双碳目标推动下,多地新建数据中心的PUE要求已低于1.25。与此同时,存量机房受制于原有热管理能力,普遍存在“电力可用、空间可用、但热量带不走”的尴尬局面。
3. 热管理角色转变:从保障运行到释放算力
热管理的角色正从“保障设备不坏”转向“确保算力持续稳定释放”。行业关注的重点不再是“有没有冷却”,而是“能否长期满载运行”。
二、客户的真正痛点,藏在“看不见的波动”里
1. 高密度机柜最怕的不是高温,而是温区不稳
实验数据显示,温度波动每增加±5℃,芯片热降频频率提升近3倍(基于JEDEC标准仿真),直接影响训练效率与推理延迟。
2. 改造项目难,难在“不能停”与“不敢改”
传统液冷方案常需重构管路、更换服务器结构,改造周期长、风险高。客户的真实诉求是:能否在不停机的前提下,实现热管理能力跃升?
3. 节能≠省电,粗放式优化难见长效
真正的节能必须建立在“动态感知-智能调控-闭环优化”的基础上。两相液冷+物联网平台提供了这一能力。
三、技术破局的关键,在于从“散热”走向“控温”
1. 两相液冷的本质,是利用相变潜热实现精准温控
两相系统冷板表面温差可控制在±1.5℃以内,极大减少芯片性能震荡。同等热负荷下,介质流量仅为单相方案的1/5~1/9,大幅降低泵组能耗。
2. 模块化设计支撑存量机房低风险升级
某电信机房实测显示,14台30kW机柜改造后PUE从1.8降至1.12,且全程未中断服务(塔能内部测试案例)。该方案特别适用于老旧机房电力、空间饱和但算力需求激增的场景。
3. 物联网平台让热管理从“静态安装”变为“持续服务”
通过集成物联网SaaS平台,实现温度、压力、流量、能耗的实时采集与远程调控,内置AI算法自动寻优运行策略,综合节能率提升20%以上。
四、未来的竞争力,属于“系统级能力”的构建者
1. 客户买的不是冷板,而是一套可兑现的算力基础设施。
2. 新建与改造双线作战,考验技术适配性与交付韧性。某新建指挥中心项目通过芯片+背板双层两相系统,实现局部pPUE低至1.05。
3. 精准节能的背后,是一套“软件定义硬件”的方法论。
当行业还在争论“要不要上液冷”时,领先者已在思考“如何让算力更稳、更久、更高效地运行”。热管理的终局,不再是简单的热量搬运,而是对算力质量的系统保障。
免责声明:本文数据基于塔能内部测试及典型项目模拟,实际效果因环境而异。