两相液冷：客户在乎的不是“能不能降温”，而是“能不能稳住算力输出”

首页 > 公司动态

来源:塔能 | 作者:小编 | 发布时间: 2026-05-06 20:56:07 | 次浏览

两相液冷：客户在乎的不是“能不能降温”，而是“能不能稳住算力输出”

摘要：AI算力驱动单机柜功率突破120kW，行业痛点已从“设备能否运行”转向“能否长期满载稳定运行”。单相液冷温度波动达±5°C以上，导致GPU频繁降频、算力损失严重。两相液冷利用相变潜热控温，实现芯片级±1°C精准调节，换热效率提升20倍以上。航天级技术下放，三层架构贯通芯片、机柜与站级，物联网平台实现动态服务。实测显示热降频减少90%，pPUE低至1.05，运维效率提升60%。液冷竞争的下半场，比的是控温能力。

一、行业正在经历一场静默的升级：算力密度飙升，热管理已从配套走向核心

1．AI训练集群功率突破120kW，传统冷却方式正逼近物理极限

近年来，GPU集群单机柜功率从过去的5–10kW快速跃升至30kW以上，部分AI推理与训练节点甚至达到60kW乃至120kW。据DCD与Network World 2024年报告，全球已有超过17%的新建智算中心规划单柜功率超过50kW。这一趋势下，风冷系统早已无力应对，单相液冷虽有所延展，但在高热流密度、负载波动剧烈的场景中，也开始显现温度波动大、局部热点难控、泵耗高等瓶颈。

2．客户关注点已从“设备能否运行”转向“能否长期满载稳定运行”

过去数据中心建设更关注“能不能开机”，如今客户真正焦虑的是：“为什么我的算力卡频繁降频？”“模型训练到一半突然中断，是不是温度波动太大？”这些问题的背后，是热管理系统无法提供持续稳定的温区保障。真正的算力损失，往往不是来自硬件故障，而是来自不可控的热行为。

3．液冷竞争的下半场，比拼的不再是散热效率，而是控温能力

当前市场上不少液冷方案仍停留在“我把热量带走了”的阶段，但对AI芯片而言，最关键的并非“低温”，而是“恒温”。研究表明，GPU在55°C–75°C区间运行性能最佳，频繁波动会导致电迁移加速、寿命缩短、计算误差增加。未来的热管理，必须从“降温思维”升级为“控温思维”——这正是技术代际差异的关键所在。

二、行业面临的五大真实困境，暴露出现有热管理系统的深层短板

1．高密度机柜“装得满，跑不稳”：热设计余量不足，扩容受限

许多数据中心在部署高功率服务器后发现，尽管电力和空间充足，但由于冷却系统无法匹配，不得不降低负载运行，造成资源浪费。机柜利用率不足60%成为常态，本质是热管理能力拖了算力兑现的后腿。

2．单相液冷渐近边界：流量大、能耗高、控温精度差

单相液冷依赖高流速带走热量，导致水泵功耗占比升高，系统PUE改善有限；同时，其换热过程受流量影响大，难以应对瞬时负载变化，温度波动常达±5°C以上，无法满足高端芯片对温区稳定性的要求。

3．存量机房改造难：停机风险高，兼容性差，投入产出比模糊

大量已建数据中心面临升级压力，但传统液冷改造需停机数天，涉及管路重布、配电调整，实施难度大、成本高。客户迫切需要一种不影响业务、可模块化部署、见效快的热管理升级路径。

4．运维效率低下：故障难预警、问题难定位、优化靠经验

许多冷却系统缺乏数据采集与智能分析能力，运维人员只能被动响应告警。一旦出现局部过热，排查往往耗时数小时，严重影响服务质量。设备“在线”不等于“可控”，更不等于“可优化”。

5．节能停留在“省电费”层面，未形成系统化节能体系

当前节能评估多聚焦于空调或水泵能耗，忽视了因热降频导致的算力损失、服务器寿命折损等隐性成本。真正的节能，不应只是降低冷却能耗，更要提升算力兑现效率与资产使用周期。

三、系统级热管理方案浮现：以精准控温为核心，重构高密度算力基础设施

1．两相液冷：用相变潜热实现高效带热与天然恒温

区别于单相液冷仅依靠显热换热，两相液冷利用液体沸腾吸热的相变潜热机制，换热效率高出20倍以上。更关键的是，在相变过程中，冷板表面温度几乎恒定，可实现芯片级±1°C以内的精准控温，从根本上消除热波动带来的性能衰减。

2．航天级技术下放：极端工况验证，保障长期高可靠运行

该技术源自航天器热控系统，曾在真空、微重力、长周期运行条件下成功应用于红外探测器、激光器等高精密设备。其高可靠性、低维护、强环境适应性的特点，为数据中心提供了经过极端验证的技术底座。

3．芯片级+机柜级+站级三层协同，构建系统性热管理能力

芯片级：泵驱两相冷板直接贴合CPU/GPU，实现定点高效散热；

机柜级：两相背板回收服务器排出热风，进一步降低环境温升；

站级：集成冷站配合AI能效平台，实现全局最优调度。

三层架构贯通，确保从器件到系统级的完整热管理覆盖。

4．物联网平台赋能：让热管理从“静态安装”变为“动态服务”

通过物联网SaaS平台，实时采集温度、压力、流量、能耗等数据，结合AI算法进行趋势预测与策略优化。运维团队可远程监控、故障预警、自动调参，真正实现“可管、可控、可运营”。平台不仅是数据展示工具，更是持续节能与质量保障的服务中枢。

5．适配新建与改造双场景：兼顾未来上限与当下兑现

对新建项目：支持120kW+高密度部署，预留5年以上扩容空间；

对存量机房：采用模块化后液冷面板设计，支持在线部署，72小时内完成单机柜升级，不停机、不改布线，实测可释放30%–50%潜在算力。

四、最终交付的不是一套系统，而是一种可持续释放的算力质量

1．稳算力：热降频减少90%，AI训练任务连续性显著提升

在多个实测案例中，部署两相液冷后，GPU因高温触发的降频事件近乎归零，模型训练周期平均缩短18%，推理延迟更加稳定。

2．长寿命：温区稳定减缓老化，服务器有效服役年限延长2–3年

稳定的运行环境大幅降低电迁移速率，硬件资产折旧速度放缓，TCO（总拥有成本）显著

优化。

3．低PUE：局部pPUE可达1.05–1.10，支撑双碳目标达成

相比传统方案pPUE普遍在1.3以上，两相液冷结合自然冷却模式，全年PUE稳定在1.12左右，冷却能耗下降40%以上。

4．可运营：从“设备管理”迈向“运行质量管理”

通过平台实现能耗、故障、性能、成本的统一视图，运维效率提升60%，人力依赖减少，真正实现从“救火式维修”到“预测性运营”的转变。

5．绿色算力：让每一瓦电力都转化为可衡量的计算价值

最终，客户获得的不只是更低的能耗数字，而是一套可量化、可验证、可持续优化的算力质量保障体系——这才是高密度时代最具竞争力的基础设施能力。

当行业还在讨论“有没有液冷”时，领先者已在构建“能不能控温”的能力护城河。