两相液冷技术助力智算中心:从高效散热到稳定控温
摘要:当单颗芯片功耗突破700W、热流密度逼近200W/cm²,传统单相液冷已接近能力边界。塔能两相液冷,不止散热,更能精准控温,实验室实测可压制1000W热源(等效600W/cm²),控温精度±1.5℃,多项目实测年均PUE≤1.18。某4000张GPU集群采用塔能两相液冷方案后,5年TCO净省近亿元,根据模型测算,典型投资回收期约2-3个月。热管理的重点,已从“散热”转向“控温”。
一、算力密度飙升,热管理进入“深水区”
1. AI算力爆发,机柜功率突破传统边界
过去两年,大模型训练与推理的规模化部署,直接推高了智算中心的功率密度。2025年起主流AI训练集群的单机柜功率普遍达到30–50kW,部分高密度机柜超过100kW。与此同时,单颗AI芯片的热设计功耗从350W攀升至700W,下一代芯片突破1000W已成公开路线图。按芯片面积折算,热流密度从约86W/cm²向200W/cm²甚至更高迈进。
2. 传统风冷与单相液冷显露短板
在这样极端的热负荷下,传统风冷难以满足高密度散热需求。即使是当前最主流的单相水冷板,也开始暴露出三大短板:换热依赖显热,需大流量维持效率,泵耗占比高达12%-20%;控温能力不足,负载波动时芯片温度变化±5-8℃,表面温差可达±8℃以上,局部热点频发;瞬态响应滞后,面对AI训练中秒级的功率跃升,容易触发保护性降频。
3. 焦点转移:从“能运行”到“稳定满载运行”
算力中心的问题不再是“能否运行”,而是“能否稳定满载运行”——我的GPU每天能跑满多少小时?投资回报周期会不会因降频或宕机而拉长?这标志着热管理从附属保障系统,升级为决定算力价值能否释放的关键基础设施。
二、算力中心的两难:散热容易,控温难
1. 单相液冷逼近能力边界,并非失效但已吃力
必须客观承认:在中低密度场景下,单相液冷依然有效。但随着芯片功耗持续上升、负载波动日益剧烈,它的局限被迅速放大。一个典型现象是:系统表面上看“没超温”,实则运行质量不断劣化。对于需要连续运行数周的大模型训练,哪怕是微小的温度波动,都可能导致训练中断、检查点回滚,造成数十万元的重训成本。
2. 真正稀缺的不是冷量,而是“稳定运行能力”
客户购买的从来不是更低的温度,而是更高的算力兑现率。传统散热方案回答不了“我的GPU是否每天都能跑满频率”“运维团队是否需要24小时盯告警”这类问题。热管理的竞争,已经进入“控温”的深水区。
3. 改造的最大阻力:停机与兼容性
许多数据中心运营者并非不愿升级,而是担心三个现实问题:必须停机施工吗?需要更换服务器架构吗?会不会引入泄漏风险?这些担忧指向一个核心诉求:优秀的技术必须匹配低干扰、模块化、可预测的交付路径。
三、塔能两相液冷:从硬件堆叠到系统级控温
1. 技术跃迁:利用相变潜热实现精准控温
塔能两相液冷的核心突破在于从“显热换热”迈向“潜热换热”。利用工质液态→气态的相变过程,系统可在恒定温度下吸收大量热量——潜热吸收量是显热的数倍至数十倍。实测数据显示,在负载大幅波动时,塔能两相冷板可将芯片温度波动控制在±1.5℃以内,芯片表面温差≤±1℃。同等热负荷下所需工质流量仅为单相水冷的五分之一到九分之一,泵耗占比从12%-20%降至5%以下。
2. 实验室极限与案例印证:600W/cm²,压得住
实验室测试显示,冷板可压制1000W模拟热源,等效热流密度600W/cm²,远超主流的86W/cm²及下一代芯片的200W/cm²,为未来三代芯片预留充足余量。
某智算中心(4000张H100 GPU)原用单相水冷,PUE 1.45,夏季每周降频3-5次,单次训练延长8小时。改造为塔能两相液冷(单机柜停机≤2小时)后,运行6个月数据:芯片温度波动±1.2℃,降频显著减少,PUE降至1.18,年节省制冷与泵耗450万元,训练时间缩短7%,算力增收超600万元/年。
3. 三层产品矩阵:芯片级+机柜级+站级协同
塔能两相液冷提供贯穿芯片、机柜到冷站的完整方案。在芯片级,泵驱两相冷板采用0.5mm微通道结构,沸腾换热系数提升约37%,适配600W以上芯片。在机柜级,背板两相散热系统集成于机柜后端,兼容标准服务器,特别适合存量机房不停机改造。在站级,泵驱CDU及集成冷站实现冷量分配、压力调节与自然冷却切换,沸点可在25℃至85℃连续调节。多项目验证表明,塔能两相液冷可支持30台以上服务器稳定并联,无流量不均或局部“烧干”问题。
FAQ
Q1:塔能两相液冷与单相水冷相比,初始投资高出的部分多久能收回?
根据典型4000张GPU集群的TCO模型,初始投资高出约20%至30%(约300万至450万元)。受益于年均PUE从1.45降至1.18、泵耗降低60%以上以及GPU寿命翻倍带来的更换成本节省,每月可节省电费与运维成本约150万元,因此差价部分通常在2至3个月内即可收回。实际回收期因电价、负载率而异。
Q2:存量老旧机房能否在不中断业务的情况下改造为两相液冷?
可以。塔能两相液冷提供机柜级背板两相散热系统,可直接安装于现有机柜后部,无需改变服务器结构或中断业务。单机柜改造停机时间可控制在2小时以内,支持分批滚动实施。该方案已在多个金融、互联网数据中心验证,改造后PUE从1.5以上降至1.2以下,且不引入水患风险,WUE≈0。
Q3:塔能两相液冷的安全性如何?是否会有泄漏风险?
塔能两相液冷采用全焊接密封工艺与氦质谱检漏,工质为专用两相冷却液,密闭循环,无水患、无燃爆风险。系统工作压力远低于设计阈值,并配备多重压力保护与泄漏监测。多项目连续运行超2年,未发生一例泄漏事故。此外,WUE≈0意味着水资源消耗极少,特别适合金融、政务等对水患敏感的行业。
#塔能两相液冷 #智算中心散热 #塔能科技 #PUE≤1.18 #算力控温