导语:详解两相相变过程中的等温特性,对比单相冷板进出口温差问题,解释为什么两相液冷天生适合“控温”,以及控温对算力稳定的实际意义。
关键词标签:#精准控温 #±1℃温控 #两相等温特性 #芯片温度管理 #塔能两相液冷
【核心要点摘要】
两相液冷在相变过程中,冷板温度几乎恒定,天然具备等温特性。而单相冷板存在进出口温差,热流密度越高温差越大。两相液冷通过精准控温,让芯片长期稳定在适宜工作温区,减少热降频、延长寿命、提升算力输出稳定性。
一、控温vs 降温:两个完全不同的目标
在数据中心热管理中,“降温”和“控温”常被混为一谈,但它们代表的是两种不同的能力层级。降温追求的是“温度越低越好”,而控温追求的是“温度稳定在适宜区间”。对于高性能芯片来说,后者远比前者重要。
芯片设计有一个最佳工作温区,通常在60°C到85°C之间。温度过低,芯片可能因为电迁移效应减弱而影响性能,同时过冷也会造成不必要的能耗;温度过高,芯片触发热降频保护,性能大幅下降;温度波动过大,芯片内部不同区域的热膨胀系数差异会导致应力累积,加速老化。因此,真正理想的热管理系统,不是把温度压到最低,而是把温度稳定在最佳温区内,波动幅度尽可能小。
二、单相冷板的局限:进出口温差随热流密度增大
单相液冷的工作原理是让液体流经冷板,通过液体温升带走热量。这意味着冷板入口温度最低,出口温度最高,存在一个固有温差。在中等热流密度下,这个温差可能只有几度,影响不大。但当热流密度升高到100W/cm²以上时,为了带走足够的热量,要么提高流量,要么接受更大的温升。提高流量会带来泵耗和侵蚀问题;接受更大的温升则意味着芯片不同区域的温度差异变大,局部热点风险增加。
更关键的是,单相冷板的出口温度受入口温度和负载共同影响。当AI训练任务产生瞬时功率尖峰时,出口温度会迅速上升,但由于液体循环需要时间,温控存在滞后。这种滞后可能导致芯片温度过冲,触发降频。
三、两相冷板的优势:相变过程中的等温特性
两相液冷的工作原理完全不同。冷却介质在冷板内吸收热量后发生相变,从液态变为气态。在相变过程中,温度和压力一一对应——只要压力恒定,饱和温度就是恒定的。也就是说,在两相区,冷板的温度几乎不随热负荷变化,直到所有液体完全汽化。
这种等温特性是两相液冷能够实现精准控温的物理基础。无论芯片是待机还是满载,只要两相冷板内保持两相共存状态,冷板温度就基本不变。实测数据显示,塔能两相液冷可以将芯片温度波动控制在±1°C以内,远优于单相冷板的±5°C甚至更高。
四、精准控温对算力稳定的实际意义
精准控温带来的直接收益有三个:第一,热降频事件大幅减少。当芯片温度稳定在最佳温区内,降频保护不会被触发,性能可以持续释放。对于AI训练任务来说,这意味着更少的任务中断和更短的完成时间。
第二,系统负载更稳定。温度波动会通过芯片的电气特性影响信号完整性,尤其是在高频运行状态下。稳定的温度意味着更稳定的电气性能,进而意味着更低的误码率和更高的有效算力。
第三,芯片寿命更可控。温度每升高10°C,电迁移老化速率大约翻倍。而温度波动产生的热应力会加速焊点和内部互连的疲劳失效。精准控温既降低了平均温度,又消除了剧烈波动,可以显著延长芯片的有效使用寿命。
五、塔能两相液冷:把控温能力变成产品力
塔能两相液冷的设计目标,从一开始就不是“更冷的芯片”,而是“更稳的算力输出”。通过两相相变过程的等温特性和物联网平台的动态调节能力,塔能将液冷系统从“被动散热”升级为“主动温控”。
对于数据中心运营方来说,这意味着三个非常直接的结果:第一,热降频更少,芯片性能释放更连续;第二,温度波动更小,业务负载更稳定;第三,器件老化更可控,设备寿命更长。塔能不是把液冷当成“冷却设备”去卖,而是把它当成“温度管理能力”去交付。
好节能,塔能物联网精准节能。
用软件定义硬件,让物联运维更简捷更节能。