两相液冷:客户在乎的不是“能不能降温”,而是“能不能稳住算力输出”
来源:塔能 | 作者:小编 | 发布时间: 2026-05-06 20:56:07 | 次浏览


两相液冷:客户在乎的不是“能不能降温”,而是“能不能稳住算力输出”

 

摘要:AI算力驱动单机柜功率突破120kW,行业痛点已从“设备能否运行”转向“能否长期满载稳定运行”。单相液冷温度波动达±5°C以上,导致GPU频繁降频、算力损失严重。两相液冷利用相变潜热控温,实现芯片级±1°C精准调节,换热效率提升20倍以上。航天级技术下放,三层架构贯通芯片、机柜与站级,物联网平台实现动态服务。实测显示热降频减少90%,pPUE低至1.05,运维效率提升60%。液冷竞争的下半场,比的是控温能力。

 

 

 

 

image.png 

 

 

 

一、行业正在经历一场静默的升级:算力密度飙升,热管理已从配套走向核心

 

1.AI训练集群功率突破120kW,传统冷却方式正逼近物理极限

近年来,GPU集群单机柜功率从过去的5–10kW快速跃升至30kW以上,部分AI推理与训练节点甚至达到60kW乃至120kW。据DCD与Network World 2024年报告,全球已有超过17%的新建智算中心规划单柜功率超过50kW。这一趋势下,风冷系统早已无力应对,单相液冷虽有所延展,但在高热流密度、负载波动剧烈的场景中,也开始显现温度波动大、局部热点难控、泵耗高等瓶颈。

 

2.客户关注点已从“设备能否运行”转向“能否长期满载稳定运行”

过去数据中心建设更关注“能不能开机”,如今客户真正焦虑的是:“为什么我的算力卡频繁降频?”“模型训练到一半突然中断,是不是温度波动太大?”这些问题的背后,是热管理系统无法提供持续稳定的温区保障。真正的算力损失,往往不是来自硬件故障,而是来自不可控的热行为。

 

3.液冷竞争的下半场,比拼的不再是散热效率,而是控温能力

当前市场上不少液冷方案仍停留在“我把热量带走了”的阶段,但对AI芯片而言,最关键的并非“低温”,而是“恒温”。研究表明,GPU在55°C–75°C区间运行性能最佳,频繁波动会导致电迁移加速、寿命缩短、计算误差增加。未来的热管理,必须从“降温思维”升级为“控温思维”——这正是技术代际差异的关键所在。

 

image.png 

 

 

 

 

二、行业面临的五大真实困境,暴露出现有热管理系统的深层短板

 

1.高密度机柜“装得满,跑不稳”:热设计余量不足,扩容受限

许多数据中心在部署高功率服务器后发现,尽管电力和空间充足,但由于冷却系统无法匹配,不得不降低负载运行,造成资源浪费。机柜利用率不足60%成为常态,本质是热管理能力拖了算力兑现的后腿。

 

2.单相液冷渐近边界:流量大、能耗高、控温精度差

单相液冷依赖高流速带走热量,导致水泵功耗占比升高,系统PUE改善有限;同时,其换热过程受流量影响大,难以应对瞬时负载变化,温度波动常达±5°C以上,无法满足高端芯片对温区稳定性的要求。

 

3.存量机房改造难:停机风险高,兼容性差,投入产出比模糊

大量已建数据中心面临升级压力,但传统液冷改造需停机数天,涉及管路重布、配电调整,实施难度大、成本高。客户迫切需要一种不影响业务、可模块化部署、见效快的热管理升级路径。

 

4.运维效率低下:故障难预警、问题难定位、优化靠经验

许多冷却系统缺乏数据采集与智能分析能力,运维人员只能被动响应告警。一旦出现局部过热,排查往往耗时数小时,严重影响服务质量。设备“在线”不等于“可控”,更不等于“可优化”。

 

5.节能停留在“省电费”层面,未形成系统化节能体系

当前节能评估多聚焦于空调或水泵能耗,忽视了因热降频导致的算力损失、服务器寿命折损等隐性成本。真正的节能,不应只是降低冷却能耗,更要提升算力兑现效率与资产使用周期。

 

image.png 

 

 

 

 

三、系统级热管理方案浮现:以精准控温为核心,重构高密度算力基础设施

 

1.两相液冷:用相变潜热实现高效带热与天然恒温

区别于单相液冷仅依靠显热换热,两相液冷利用液体沸腾吸热的相变潜热机制,换热效率高出20倍以上。更关键的是,在相变过程中,冷板表面温度几乎恒定,可实现芯片级±1°C以内的精准控温,从根本上消除热波动带来的性能衰减。

 

2.航天级技术下放:极端工况验证,保障长期高可靠运行

该技术源自航天器热控系统,曾在真空、微重力、长周期运行条件下成功应用于红外探测器、激光器等高精密设备。其高可靠性、低维护、强环境适应性的特点,为数据中心提供了经过极端验证的技术底座。

 

3.芯片级+机柜级+站级三层协同,构建系统性热管理能力

芯片级:泵驱两相冷板直接贴合CPU/GPU,实现定点高效散热;

机柜级:两相背板回收服务器排出热风,进一步降低环境温升;

站级:集成冷站配合AI能效平台,实现全局最优调度。

三层架构贯通,确保从器件到系统级的完整热管理覆盖。

 

4.物联网平台赋能:让热管理从“静态安装”变为“动态服务”

通过物联网SaaS平台,实时采集温度、压力、流量、能耗等数据,结合AI算法进行趋势预测与策略优化。运维团队可远程监控、故障预警、自动调参,真正实现“可管、可控、可运营”。平台不仅是数据展示工具,更是持续节能与质量保障的服务中枢。

 

5.适配新建与改造双场景:兼顾未来上限与当下兑现

对新建项目:支持120kW+高密度部署,预留5年以上扩容空间;

对存量机房:采用模块化后液冷面板设计,支持在线部署,72小时内完成单机柜升级,不停机、不改布线,实测可释放30%–50%潜在算力。

 

image.png 

 

 

 

 

四、最终交付的不是一套系统,而是一种可持续释放的算力质量

 

1.稳算力:热降频减少90%,AI训练任务连续性显著提升

在多个实测案例中,部署两相液冷后,GPU因高温触发的降频事件近乎归零,模型训练周期平均缩短18%,推理延迟更加稳定。

 

2.长寿命:温区稳定减缓老化,服务器有效服役年限延长2–3年

稳定的运行环境大幅降低电迁移速率,硬件资产折旧速度放缓,TCO(总拥有成本)显著

优化。

 

3.低PUE:局部pPUE可达1.05–1.10,支撑双碳目标达成

相比传统方案pPUE普遍在1.3以上,两相液冷结合自然冷却模式,全年PUE稳定在1.12左右,冷却能耗下降40%以上。

 

4.可运营:从“设备管理”迈向“运行质量管理”

通过平台实现能耗、故障、性能、成本的统一视图,运维效率提升60%,人力依赖减少,真正实现从“救火式维修”到“预测性运营”的转变。

 

5.绿色算力:让每一瓦电力都转化为可衡量的计算价值

最终,客户获得的不只是更低的能耗数字,而是一套可量化、可验证、可持续优化的算力质量保障体系——这才是高密度时代最具竞争力的基础设施能力。

 

当行业还在讨论“有没有液冷”时,领先者已在构建“能不能控温”的能力护城河。