液冷改造≠停机重建：如何在不停业务的前提下盘活闲置算力资源？

首页 > 公司动态

来源:塔能 | 作者:小编 | 发布时间: 2026-04-26 22:00:29 | 次浏览

液冷改造≠停机重建：如何在不停业务的前提下盘活闲置算力资源？

摘要：两相液冷利用工质相变潜热实现高效换热，同等热负荷下所需流量仅为单相液冷的1/5～1/9。芯片级冷板在沸腾过程中温度近乎恒定，控温精度达±1.5℃，有效抑制热波动。系统CLF可低至0.036，pPUE达1.05～1.10，冷却能耗降幅超40%。模块化背板支持存量机房在线部署，无需停机改造。航天级两相技术结合物联网平台，实现温度、流量、相态的实时监测与动态调控，将热管理从被动散热升级为主动控温。

新基建+双碳双驱动!塔能液冷PUE≤1.1，解锁算力中心绿色发展密码(1).jpg

一、行业变了：AI算力爆发，热管理正在重写游戏规则

1． AI训练集群功率密度翻倍，传统冷却方式逼近极限

2024年起，主流AI训练机柜功率普遍突破30kW，部分头部智算中心单柜已达120kW。这意味着单位空间内的热流密度急剧上升，传统的风冷和单相液冷系统正面临前所未有的挑战。不仅仅是“热量大”，更是“局部热点频发、温度波动剧烈、负载动态响应滞后”。这些隐性问题直接导致GPU频繁降频，算力输出不稳——客户买的不是服务器，而是持续稳定的计算能力，但现实却是：设备满载运行不到几小时就得降速散热。

2．液冷普及之后，行业关注点正从“有没有”转向“够不够稳”

据DCD与Network World报告，2025年全球新建数据中心中超过60%已标配液冷。但许多项目反馈：“上了液冷，PUE是降了，但机器还是不敢长期满载。”这说明，行业矛盾已悄然转移——过去看“能不能降温”，现在看“能不能控温”。

3．改造市场兴起，存量机房亟需“低风险升级路径”

大量已建成的数据中心受限于建筑结构、供电容量或运维体制，无法整体重建。它们的真实诉求不是“推倒重来”，而是在不影响业务的前提下，提升热管理上限。

这就要求新技术不仅要先进，更要兼容性强、部署灵活、可模块化在线升级。

图片2.png

二、客户痛点：他们真正焦虑的，从来都不是“冷不冷”

1．高密度机柜最怕的不是高温，而是温区不稳定

对AI芯片而言，短暂的高温可通过瞬时散热应对，但持续的温度波动会触发保护机制，造成性能断崖式下跌。实验数据显示，±5℃以上的温度震荡会使训练任务平均延迟达18%。

客户需要的不是一个“更冷的机房”，而是一个能让算力持续满载、性能可预期的运行环境。

2．单相液冷仍在服役，但已逐渐接近能力边界

单相液冷依靠液体显热带走热量，其效率受限于流量与温差。面对600W以上的GPU热源，必须大幅提升流速才能维持换热，进而带来泵耗激增、管路振动、泄漏风险等问题。

更重要的是，它无法实现温度恒定——流量一旦变化，芯片表面温度随之波动。这不是技术落后，而是物理机制决定了它的适应边界。

3．运维团队需要的不只是报警信息，而是可干预的系统能力

很多客户部署了监控平台，能看到温度、流量、PUE曲线，但发现问题后仍需人工到场排查。

真正的瓶颈不在“看不见”，而在“管不了、调不动、优化不了”。

他们需要的是一套能自动感知、动态调节、策略优化的闭环系统，而非孤立的数据仪表盘。

新建算力中心必配！塔能液冷模块化方案，从建设之初锁定低PUE(1).jpg

三、技术破局：为什么是两相液冷？因为它重构了热管理的本质逻辑

1．从“显热换热”到“相变控温”，物理机制决定能力上限

两相液冷的核心在于利用工质的相变潜热。当冷却液流经芯片冷板时，吸收热量后由液态变为气态，此过程温度几乎不变（恒温沸腾），从而天然实现±1℃以内的精准控温。

相比单相液冷依赖大流量换热，两相系统所需流量仅为1/5～1/9，大幅降低泵组能耗与系统复杂性。

2．航天级技术下放，极端工况验证保障长期可靠

该技术源于航天器热控系统，早在上世纪90年代即用于卫星红外探测器、机载雷达等高可靠性场景。其设计原则就是：小体积、轻重量、长寿命、抗扰动。

如今这项技术经过民用化重构，已在多个数据中心实现连续运行超半年无故障，平均PUE稳定在1.12左右。

3．不止是硬件革新，更是“软件定义温控”的系统跃迁

真正的价值不在于一块冷板或多冷的背板，而在于将硬件嵌入一个可管、可控、可运营的物联网平台中。通过实时采集芯片温度、回路压力、气液比例等数据，系统可动态调节泵压与沸点设定，实现：

负载突增时自动提升换热强度

室外低温时切换自然冷却模式

故障前兆自动预警并启动冗余策略

这种“动态适配”能力，才是应对AI负载波动的关键。

slide_35(1).jpg

四、系统价值：客户买的不是技术，而是一整套可兑现的算力保障

1．稳算力：减少热降频90%，让AI训练任务连续输出

在某研究院项目中，部署两相液冷后，GPU热降频事件从平均每小时2.3次降至每月不足1次，模型训练周期缩短近15%。

这不是简单的“降温成功”，而是算力质量的根本提升。

2．省成本：冷却能耗下降40%，PUE局部可达1.05

在某数据中心项目中，采用微通道两相背板系统，全年PUE控制在1.1以下，CLF（制冷负载因子）低至0.036。

由于取消室内空调与风机群组，年度冷却电费节省超百万元，且WUE≈0，彻底规避水患风险。

3．提效率：支持新建与改造双轨并行，盘活沉没资源

对于新建智算中心，两相液冷可为未来5年预留热管理余量，避免二次改造；

对于存量机房，如湖南长沙电信项目，仅通过更换背板级散热系统，便将PUE从1.8降至1.3，释放出原有机柜35%未被利用的算力潜力。

更重要的是，整套系统采用模块化预制设计，支持不停机在线部署，极大降低改造风险。

4．延寿命：温区稳定减缓电迁移，服务器使用周期延长2年以上

研究表明，芯片在±2℃波动环境下运行，其电迁移速率比±8℃环境低60%以上。这意味着更少的硬件更换频率与更低的TCO（总拥有成本）。

当行业还在争论“哪种液冷更好”时，真正的领先者已在重新定义热管理的目标：从“把热量带走”到“让算力稳定释放”。

这不仅是技术升级，更是管理模式的进化——

未来三年，谁能提供更稳的温区、更低的PUE、更高的资源兑现率，谁就能真正掌握高密度算力时代的入场券。