新建看上限,改造看兑现:两相液冷如何同时打赢两场仗?
作者:两相君
常见问题(FAQ)
Q: 新建智算中心采用两相液冷,初始投资比单相高多少?
A: 初始设备成本约高15-25%,但考虑更高机柜密度、更低PUE和更长寿命,整体TCO通常更低,投资回收期约1.5-2年。
Q: 两相液冷改造后能提升多少算力?
A: 实测数据显示,在不新增电力与空间前提下,可释放30%~50%潜在算力,机柜负载率从60%提升至90%以上。
Q: CLF 0.036是什么意思?
A: 冷却负载因子(CLF)=冷却系统功耗/IT设备功耗。0.036表示冷却功耗仅为IT功耗的3.6%,即每1000W IT设备只需36W用于散热。
摘要
AI算力密度持续攀升,单相液冷面临控制精度不足、扩容受限等瓶颈。两相液冷基于相变潜热机制,实现±1.5℃以内精准控温,从根本上消除局部热点与降频风险。面向新建智算中心可支撑120kW+高密度部署;面向存量机房支持不停机改造,实测释放30%~50%潜在算力,PUE降至1.3以下。两相液冷节能方案通过物联网平台实现“预测-调节-验证”闭环,将热管理从被动散热升级为主动控温,让算力稳稳跑满每一天。
正文
一、行业正在经历一场静默的升级:从“算力密度”到“运行质量”的跃迁
1. AI训练集群的爆发,正在改写数据中心的设计逻辑
过去五年,GPU单卡功耗已从300W跃升至800W以上,整机柜功率密度普遍突破30kW,部分智算中心达到120kW。传统的风冷与单相液冷系统正面临物理极限的逼近。客户关注的重点已转移:他们不再只问“能不能开机”,而是追问“能不能全天候满载运行”。
2. 液冷不再是“要不要上”的选项,而是“上哪种”的战略抉择
据Dell‘Oro与DCD报告,2025年起全球新建智算中心中,液冷渗透率预计将超60%。单相液冷虽已普及,但在瞬时负载波动、局部热点集中、长期温区漂移等问题上逐渐显现控制精度不足、能耗反弹等瓶颈。
3. 热管理的角色正在重构:从辅助系统变为算力兑现的核心基础设施
未来的竞争将不再停留在“有没有冷却”,而在于“能否支撑更高密度、更长时间、更低成本的稳定算力输出”。
二、客户的隐性痛点:表面是散热问题,本质是运营质量危机
1. “热降频”正在悄悄吞噬AI训练效率
当GPU因温度波动触发保护机制而自动降频,哪怕每次只持续几分钟,累积下来可能导致单次训练周期延长15%以上。
2. 改造风险高、停机代价大,存量机房升级举步维艰
传统液冷改造常需断电拆机、重布管路,一次停机可能造成数十万元损失。
3. 运维越来越复杂,但管理工具仍停留在“看得见”而非“管得住”
设备“在线”不等于“受控”,数据“可见”不等于“可用”。
三、真正的破局者,早已跳出“比谁更冷”的竞赛,转向“控温+系统+运营”的综合能力构建
1. 两相液冷的核心价值不在“降温”,而在“精准控温”
实验数据显示,同等热负荷下所需冷却流量仅为单相系统的1/5~1/9,冷板温度近乎恒定,天然具备±1.5℃以内控温能力。
2. 不止于硬件革新,更在于“软件定义温控”的闭环构建
将泵驱两相冷板、背板级散热系统与物联网SaaS平台深度融合,实现“预测-调节-验证”闭环。
3. 兼顾新建与改造场景
对新建智算中心:支持120kW+高密度机柜部署,pPUE局部可达1.05-1.10;对存量机房:实测释放30%~50%潜在算力。某电信改造项目中,原有机房PUE从1.8降至1.3,CLF低至0.036(塔能内部测试)。
四、未来三年,决定竞争力的不是技术本身,而是能否把技术转化为可持续的运营优势
1. 客户真正买单的是一套可交付、可验证、可扩展的系统能力。
2. 物联网平台是让硬件价值放大的“操作系统”。
3. 从“设备交付”到“运营服务”,才是精准节能的终极形态。
当行业还在争论“液冷要不要上”时,领先者已在思考“如何让算力稳稳跑满每一天”——而两相液冷,正是这一目标的底层支撑。
免责声明:本文数据基于塔能内部测试及典型项目模拟,实际效果因环境而异。