两相液冷:高密度算力时代,热管理胜负手不在“降温”,在“控温”
作者:两相君
常见问题(FAQ)
Q: 温度波动多大就会导致芯片降频?
A: 一般来说,瞬时温度波动超过±5℃就可能触发GPU/CPU的频率调节,造成性能损失。
Q: 两相液冷能降低冷却能耗多少?
A: 根据塔能内部测试,相比单相液冷,泵组能耗可降低40%以上,整体冷却能耗下降30%左右。
Q: 存量机房改造是否必须更换服务器?
A: 不用。塔能两相背板方案兼容主流服务器,无需改动内部结构。
摘要
AI算力爆发,单机柜功率已跃升至60-120kW,热管理正从“配套系统”升级为算力兑现的核心环节。行业的胜负手已从“降温”转向“控温”——±5℃的温度波动即可触发芯片降频,导致算力输出不稳。两相液冷利用相变潜热原理,实现±1.5℃以内的精准控温,显著消除热波动。从新建智算中心到存量机房改造,两相液冷支持不停机升级,让每一瓦算力都稳定释放。
正文
一、行业正在经历一场静默的热革命
1. AI算力爆发,机柜功率密度三年翻倍
过去三年,AI训练集群的单机柜功率密度从平均15-20kW跃升至60-120kW,部分头部智算中心甚至规划百千瓦级部署。传统的风冷与单相液冷,正在多个实际项目中暴露出“能降温但控不住温”的窘境。
2. 热管理不再是配套系统,而是算力兑现的核心环节
客户采购的早已不是“一台服务器能跑多快”,而是“一千台服务器能否持续满载运行”。频繁的热降频导致模型训练周期拉长、吞吐波动剧烈,行业痛点正从“有没有液冷”转向“液冷够不够稳”。
3. 存量机房改造需求集中爆发
“东数西算”工程推动下,大量已建数据中心面临算力升级压力。如何在不停机、不重建的前提下释放30%以上的潜在算力,成为改造核心命题。
二、客户面临的五大真实困境,暴露出现有方案的局限
1. 单相液冷系统余量吃紧,温控精度不足:面对GPU瞬时功耗飙升,系统响应滞后,温度波动常达±5℃以上,引发芯片级性能节流。
2. 冷却能耗占比攀升,PUE优化陷入瓶颈:单相系统需大流量循环,泵组功耗高,难以实现自然冷却全覆盖。
3. 改造项目风险高,停机成本难以承受:传统液冷改造常需断电拆改管路,业务中断损失巨大。
4. 运维仍依赖人工经验:大量项目监控数据仅用于事后查看,缺乏动态调节与预测能力。
5. 节能成果难以量化与持续:初期见效但后期反弹,缺乏持续优化机制。
三、新一代热管理方案的破局点:从“散热”走向“控温”
1. 两相液冷的本质,是利用相变潜热实现精准温控:换热效率高出数十倍,冷板温度近乎恒定,天然具备±1.5℃以内控温能力。
2. 航天级技术下放:封闭式循环设计无水患风险,工质惰性、无腐蚀,支持10年以上免维护运行。
3. 模块化设计支持不停机改造:某电信示范项目在15kW机柜上实现PUE从1.8降至1.2,释放40%隐藏算力容量。
4. 与物联网SaaS平台深度融合:实现“可管、可控、可运营”,推动运维从被动响应走向主动预防。
四、这场变革的深层意义:重新定义节能与运维的范式
· 节能不再是“换设备”,而是“建体系”——实现感知-分析-决策-执行的闭环优化。
· 运维不再依赖“老师傅”,而是依靠“系统大脑”——某项目中提前72小时预警冷板微渗漏,避免宕机。
· 热管理从成本项变为价值项——直接影响ROI。
· 未来三年,控温能力将成为高密度算力时代的“隐形门槛”。
真正的技术领先,不在于追逐热点,而在于提前布局行业必然演进的方向。当整个产业还在讨论“要不要上液冷”时,先行者正在用两相液冷构建“让算力全天候稳定释放”的系统能力。
免责声明:本文数据部分来自塔能内部测试及行业公开信息整理,实际效果因环境而异。