液冷改造≠停机重建:如何在不停业务的前提下盘活闲置算力资源?
来源:塔能 | 作者:小编 | 发布时间: 2026-04-26 22:00:29 | 次浏览


液冷改造≠停机重建:如何在不停业务的前提下盘活闲置算力资源?

 

摘要:两相液冷利用工质相变潜热实现高效换热,同等热负荷下所需流量仅为单相液冷的1/5~1/9。芯片级冷板在沸腾过程中温度近乎恒定,控温精度达±1.5℃,有效抑制热波动。系统CLF可低至0.036,pPUE达1.05~1.10,冷却能耗降幅超40%。模块化背板支持存量机房在线部署,无需停机改造。航天级两相技术结合物联网平台,实现温度、流量、相态的实时监测与动态调控,将热管理从被动散热升级为主动控温。

新基建+双碳双驱动!塔能液冷PUE≤1.1,解锁算力中心绿色发展密码(1).jpg

 

一、行业变了:AI算力爆发,热管理正在重写游戏规则

1. AI训练集群功率密度翻倍,传统冷却方式逼近极限

2024年起,主流AI训练机柜功率普遍突破30kW,部分头部智算中心单柜已达120kW。这意味着单位空间内的热流密度急剧上升,传统的风冷和单相液冷系统正面临前所未有的挑战。不仅仅是“热量大”,更是“局部热点频发、温度波动剧烈、负载动态响应滞后”。这些隐性问题直接导致GPU频繁降频,算力输出不稳——客户买的不是服务器,而是持续稳定的计算能力,但现实却是:设备满载运行不到几小时就得降速散热。

 

2. 液冷普及之后,行业关注点正从“有没有”转向“够不够稳”

据DCD与Network World报告,2025年全球新建数据中心中超过60%已标配液冷。但许多项目反馈:“上了液冷,PUE是降了,但机器还是不敢长期满载。”这说明,行业矛盾已悄然转移——过去看“能不能降温”,现在看“能不能控温”。

 

3. 改造市场兴起,存量机房亟需“低风险升级路径”

大量已建成的数据中心受限于建筑结构、供电容量或运维体制,无法整体重建。它们的真实诉求不是“推倒重来”,而是在不影响业务的前提下,提升热管理上限。

这就要求新技术不仅要先进,更要兼容性强、部署灵活、可模块化在线升级。

 

图片2.png


二、客户痛点:他们真正焦虑的,从来都不是“冷不冷”

1.高密度机柜最怕的不是高温,而是温区不稳定

对AI芯片而言,短暂的高温可通过瞬时散热应对,但持续的温度波动会触发保护机制,造成性能断崖式下跌。实验数据显示,±5℃以上的温度震荡会使训练任务平均延迟达18%。

客户需要的不是一个“更冷的机房”,而是一个能让算力持续满载、性能可预期的运行环境。

 

2.单相液冷仍在服役,但已逐渐接近能力边界

单相液冷依靠液体显热带走热量,其效率受限于流量与温差。面对600W以上的GPU热源,必须大幅提升流速才能维持换热,进而带来泵耗激增、管路振动、泄漏风险等问题。

更重要的是,它无法实现温度恒定——流量一旦变化,芯片表面温度随之波动。这不是技术落后,而是物理机制决定了它的适应边界。

 

3.运维团队需要的不只是报警信息,而是可干预的系统能力

很多客户部署了监控平台,能看到温度、流量、PUE曲线,但发现问题后仍需人工到场排查。

真正的瓶颈不在“看不见”,而在“管不了、调不动、优化不了”。

他们需要的是一套能自动感知、动态调节、策略优化的闭环系统,而非孤立的数据仪表盘。

 

新建算力中心必配!塔能液冷模块化方案,从建设之初锁定低PUE(1).jpg


三、技术破局:为什么是两相液冷?因为它重构了热管理的本质逻辑

1.从“显热换热”到“相变控温”,物理机制决定能力上限

两相液冷的核心在于利用工质的相变潜热。当冷却液流经芯片冷板时,吸收热量后由液态变为气态,此过程温度几乎不变(恒温沸腾),从而天然实现±1℃以内的精准控温。

相比单相液冷依赖大流量换热,两相系统所需流量仅为1/5~1/9,大幅降低泵组能耗与系统复杂性。

 

2.航天级技术下放,极端工况验证保障长期可靠

该技术源于航天器热控系统,早在上世纪90年代即用于卫星红外探测器、机载雷达等高可靠性场景。其设计原则就是:小体积、轻重量、长寿命、抗扰动。

如今这项技术经过民用化重构,已在多个数据中心实现连续运行超半年无故障,平均PUE稳定在1.12左右。

 

3.不止是硬件革新,更是“软件定义温控”的系统跃迁

真正的价值不在于一块冷板或多冷的背板,而在于将硬件嵌入一个可管、可控、可运营的物联网平台中。通过实时采集芯片温度、回路压力、气液比例等数据,系统可动态调节泵压与沸点设定,实现:

负载突增时自动提升换热强度

室外低温时切换自然冷却模式

故障前兆自动预警并启动冗余策略

这种“动态适配”能力,才是应对AI负载波动的关键。

 

slide_35(1).jpg


四、系统价值:客户买的不是技术,而是一整套可兑现的算力保障

1.稳算力:减少热降频90%,让AI训练任务连续输出

在某研究院项目中,部署两相液冷后,GPU热降频事件从平均每小时2.3次降至每月不足1次,模型训练周期缩短近15%。

这不是简单的“降温成功”,而是算力质量的根本提升。

 

2.省成本:冷却能耗下降40%,PUE局部可达1.05

在某数据中心项目中,采用微通道两相背板系统,全年PUE控制在1.1以下,CLF(制冷负载因子)低至0.036。

由于取消室内空调与风机群组,年度冷却电费节省超百万元,且WUE≈0,彻底规避水患风险。

 

3.提效率:支持新建与改造双轨并行,盘活沉没资源

对于新建智算中心,两相液冷可为未来5年预留热管理余量,避免二次改造;

对于存量机房,如湖南长沙电信项目,仅通过更换背板级散热系统,便将PUE从1.8降至1.3,释放出原有机柜35%未被利用的算力潜力。

 

更重要的是,整套系统采用模块化预制设计,支持不停机在线部署,极大降低改造风险。

4.延寿命:温区稳定减缓电迁移,服务器使用周期延长2年以上

研究表明,芯片在±2℃波动环境下运行,其电迁移速率比±8℃环境低60%以上。这意味着更少的硬件更换频率与更低的TCO(总拥有成本)。

 

当行业还在争论“哪种液冷更好”时,真正的领先者已在重新定义热管理的目标:从“把热量带走”到“让算力稳定释放”。

 

这不仅是技术升级,更是管理模式的进化——

未来三年,谁能提供更稳的温区、更低的PUE、更高的资源兑现率,谁就能真正掌握高密度算力时代的入场券。