液冷改造≠停机重建:如何在不停业务的前提下盘活闲置算力资源?
摘要:两相液冷利用工质相变潜热实现高效换热,同等热负荷下所需流量仅为单相液冷的1/5~1/9。芯片级冷板在沸腾过程中温度近乎恒定,控温精度达±1.5℃,有效抑制热波动。系统CLF可低至0.036,pPUE达1.05~1.10,冷却能耗降幅超40%。模块化背板支持存量机房在线部署,无需停机改造。航天级两相技术结合物联网平台,实现温度、流量、相态的实时监测与动态调控,将热管理从被动散热升级为主动控温。

一、行业变了:AI算力爆发,热管理正在重写游戏规则
1. AI训练集群功率密度翻倍,传统冷却方式逼近极限
2024年起,主流AI训练机柜功率普遍突破30kW,部分头部智算中心单柜已达120kW。这意味着单位空间内的热流密度急剧上升,传统的风冷和单相液冷系统正面临前所未有的挑战。不仅仅是“热量大”,更是“局部热点频发、温度波动剧烈、负载动态响应滞后”。这些隐性问题直接导致GPU频繁降频,算力输出不稳——客户买的不是服务器,而是持续稳定的计算能力,但现实却是:设备满载运行不到几小时就得降速散热。
2. 液冷普及之后,行业关注点正从“有没有”转向“够不够稳”
据DCD与Network World报告,2025年全球新建数据中心中超过60%已标配液冷。但许多项目反馈:“上了液冷,PUE是降了,但机器还是不敢长期满载。”这说明,行业矛盾已悄然转移——过去看“能不能降温”,现在看“能不能控温”。
3. 改造市场兴起,存量机房亟需“低风险升级路径”
大量已建成的数据中心受限于建筑结构、供电容量或运维体制,无法整体重建。它们的真实诉求不是“推倒重来”,而是在不影响业务的前提下,提升热管理上限。
这就要求新技术不仅要先进,更要兼容性强、部署灵活、可模块化在线升级。

二、客户痛点:他们真正焦虑的,从来都不是“冷不冷”
1.高密度机柜最怕的不是高温,而是温区不稳定
对AI芯片而言,短暂的高温可通过瞬时散热应对,但持续的温度波动会触发保护机制,造成性能断崖式下跌。实验数据显示,±5℃以上的温度震荡会使训练任务平均延迟达18%。
客户需要的不是一个“更冷的机房”,而是一个能让算力持续满载、性能可预期的运行环境。
2.单相液冷仍在服役,但已逐渐接近能力边界
单相液冷依靠液体显热带走热量,其效率受限于流量与温差。面对600W以上的GPU热源,必须大幅提升流速才能维持换热,进而带来泵耗激增、管路振动、泄漏风险等问题。
更重要的是,它无法实现温度恒定——流量一旦变化,芯片表面温度随之波动。这不是技术落后,而是物理机制决定了它的适应边界。
3.运维团队需要的不只是报警信息,而是可干预的系统能力
很多客户部署了监控平台,能看到温度、流量、PUE曲线,但发现问题后仍需人工到场排查。
真正的瓶颈不在“看不见”,而在“管不了、调不动、优化不了”。
他们需要的是一套能自动感知、动态调节、策略优化的闭环系统,而非孤立的数据仪表盘。

三、技术破局:为什么是两相液冷?因为它重构了热管理的本质逻辑
1.从“显热换热”到“相变控温”,物理机制决定能力上限
两相液冷的核心在于利用工质的相变潜热。当冷却液流经芯片冷板时,吸收热量后由液态变为气态,此过程温度几乎不变(恒温沸腾),从而天然实现±1℃以内的精准控温。
相比单相液冷依赖大流量换热,两相系统所需流量仅为1/5~1/9,大幅降低泵组能耗与系统复杂性。
2.航天级技术下放,极端工况验证保障长期可靠
该技术源于航天器热控系统,早在上世纪90年代即用于卫星红外探测器、机载雷达等高可靠性场景。其设计原则就是:小体积、轻重量、长寿命、抗扰动。
如今这项技术经过民用化重构,已在多个数据中心实现连续运行超半年无故障,平均PUE稳定在1.12左右。
3.不止是硬件革新,更是“软件定义温控”的系统跃迁
真正的价值不在于一块冷板或多冷的背板,而在于将硬件嵌入一个可管、可控、可运营的物联网平台中。通过实时采集芯片温度、回路压力、气液比例等数据,系统可动态调节泵压与沸点设定,实现:
负载突增时自动提升换热强度
室外低温时切换自然冷却模式
故障前兆自动预警并启动冗余策略
这种“动态适配”能力,才是应对AI负载波动的关键。

四、系统价值:客户买的不是技术,而是一整套可兑现的算力保障
1.稳算力:减少热降频90%,让AI训练任务连续输出
在某研究院项目中,部署两相液冷后,GPU热降频事件从平均每小时2.3次降至每月不足1次,模型训练周期缩短近15%。
这不是简单的“降温成功”,而是算力质量的根本提升。
2.省成本:冷却能耗下降40%,PUE局部可达1.05
在某数据中心项目中,采用微通道两相背板系统,全年PUE控制在1.1以下,CLF(制冷负载因子)低至0.036。
由于取消室内空调与风机群组,年度冷却电费节省超百万元,且WUE≈0,彻底规避水患风险。
3.提效率:支持新建与改造双轨并行,盘活沉没资源
对于新建智算中心,两相液冷可为未来5年预留热管理余量,避免二次改造;
对于存量机房,如湖南长沙电信项目,仅通过更换背板级散热系统,便将PUE从1.8降至1.3,释放出原有机柜35%未被利用的算力潜力。
更重要的是,整套系统采用模块化预制设计,支持不停机在线部署,极大降低改造风险。
4.延寿命:温区稳定减缓电迁移,服务器使用周期延长2年以上
研究表明,芯片在±2℃波动环境下运行,其电迁移速率比±8℃环境低60%以上。这意味着更少的硬件更换频率与更低的TCO(总拥有成本)。
当行业还在争论“哪种液冷更好”时,真正的领先者已在重新定义热管理的目标:从“把热量带走”到“让算力稳定释放”。
这不仅是技术升级,更是管理模式的进化——
未来三年,谁能提供更稳的温区、更低的PUE、更高的资源兑现率,谁就能真正掌握高密度算力时代的入场券。