两相液冷:真正的挑战不是降温,而是稳住温度
作者:两相君
常见问题(FAQ)
Q: 两相液冷改造一个存量机柜需要多久?
A: 采用背板方案,单机柜现场施工约2-4小时,整机房7天内可完成,业务中断小于2小时/机柜。
Q: 改造后能多装多少服务器?
A: 在未新增电力与空间的前提下,实测可将机柜负载率从60%提升至90%以上,相当于释放30%-50%的算力容量。
Q: PUE能从1.8降到多少?
A: 某改造项目从1.8降至1.3,冷却能耗下降42%。理想条件下可达1.15-1.2。
摘要
AI算力密度持续攀升,单机柜功率已跃升至30-50kW,热管理正从辅助系统变为算力兑现的核心瓶颈。行业的真正挑战不是“能不能降温”,而是“能不能稳住温度”——瞬时波动超过±5℃,即可使推理延迟增加15%-20%(基于JEDEC标准仿真)。两相液冷利用相变潜热原理,实现±1.5℃以内的精准控温,显著消除热降频风险。从新建智算中心到存量机房改造,两相液冷兼顾未来上限与现实落地,让每一瓦算力都释放得更稳、更省、更可控。
正文
一、行业正在经历一场静默的技术跃迁
AI算力爆发推动机柜功率密度持续攀升:单机柜功率从过去的5-10kW普遍跃升至30-50kW,部分智算中心规划100kW以上。
热管理正从“辅助系统”变为“算力兑现的核心瓶颈”:芯片频繁热降频、局部热点导致性能波动,行业关注点转向“能否长期稳定满载运行”。
液冷竞争进入深水区:单相液冷在负载剧烈波动时温度调节滞后、系统余量不足的问题日益暴露。
二、数据中心面临的不再是“散热问题”,而是“运行质量问题”
真实痛点:高密度机柜最怕温区波动。单相液冷响应速度受限于泵控逻辑和流体惯性,难以匹配AI芯片毫秒级功耗跳变。
改造困境:存量机房受限于空间、电力与停机窗口,无法进行大规模改造。若需拆改服务器主板,代价高昂。
运营盲区:多数监控系统“看得见数据、调不动策略”,能耗、故障、温控、负载之间缺乏联动分析。
三、真正有效的解决方案,必须穿透技术层、产品层与运营层
技术层:用“相变潜热”替代“显热传递”,实现±1.5℃以内控温精度,抑制温度震荡。
产品层:模块化设计打通“新建+改造”双路径。新建支持120kW以上机柜;存量采用后置两相背板,最快7天完成整柜升级,释放30%以上潜在算力。
系统层:以物联网平台为底座,构建“可管、可控、可运营”的热管理体系。某改造项目数据显示:PUE由1.8降至1.3,冷却能耗下降42%,GPU热降频次数减少90%以上,年均可多完成AI训练任务超200小时。
四、未来的竞争力,属于那些能把“技术”转化为“确定性结果”的企业
不止降温,更要稳算力——精准控温带来更稳定的算力输出、更长的硬件寿命、更高的资源利用率。
软件定义硬件——数据驱动、策略迭代、远程协同,让硬件潜力充分释放。
未来的数据中心,拼的不是降温能力,而是控温精度。两相液冷用相变潜热的物理本质,守住±1.5℃以内的温度稳定,为明天的不确定性留出足够的演进空间。
免责声明:本文案例及数据基于塔能内部测试及客户试点项目(已脱敏),实际效果因环境而异。