“烧水”物理学与 600W/cm ²的较量
来源:塔能 | 作者:小编 | 发布时间: 2026-06-12 22:32:18 | 次浏览


 “烧水”物理学与600W/cm²的较量

从游泳池上岸觉得冷,炖汤“大火收汁”,这些生活常识背后,藏着同一个物理原理——相变潜热。而它,正在改写AI数据中心的散热规则。

夏天从游泳池爬上岸,一阵风吹过,你打了个寒颤。水温明明比气温还高,为什么会觉得冷?答案在蒸发——水变成水蒸气,从你的皮肤上带走了热量。这带走的热量,叫“潜热”。

炖汤时,大火煮沸后转小火慢炖,“大火收汁”。为什么收汁要用大火?因为让液态水变成水蒸气需要大量热量——这些热量就是“潜热”,它不改变温度,只改变形态。当水蒸气跑掉,汤就“收”了。

这两个生活常识,恰好揭示了两相液冷的全部秘密。

image.png 

一、显热 vs 潜热:散热界的“油车”与“电车”

理解两相液冷,先要分清两种热量:显热和潜热。

显热,是物质吸收或放出热量后,温度发生变化但物态不变的那部分能量。烧一壶水,从20℃烧到100℃,吸收的热量就是显热。常规单相水冷板,靠的就是显热——液体流进冷板,温度升高,带走热量。原理简单,成本可控,是当前液冷的主流方案。

但显热有个先天短板:它必然伴随温度变化。冷板入口的液体温度最低,吸收热量后逐渐升温,到出口时温度已经高出一截。这个温差,在低功率时尚可接受;当芯片功耗突破千瓦级,冷板进出口温差可达10-20℃,直接导致芯片表面温度分布不均。入口对应的芯片区域凉快,出口对应的区域滚烫。温度不均带来热应力,热应力加速焊点疲劳,疲劳到一定程度就是芯片失效。

潜热,是物质在相变(固态→液态→气态)过程中吸收或放出的热量,相变期间温度保持不变。把100℃的沸水完全烧成水蒸气,吸收的热量就是潜热——它的量,是显热的数倍乃至数十倍。

两相液冷利用的正是潜热。工质在冷板内沸腾汽化,吸收大量潜热,温度却几乎不变。这意味着:无论芯片功率如何波动,只要沸腾持续,冷板表面温度就能稳定在工质沸点附近。这就是两相液冷实现精准控温的根本原因。

打个比方:显热散热像油车,速度越快噪音越大、油耗越高;潜热散热像电车,起步就是最大扭矩,安静且高效。不是油车不好,而是当功率密度上升到一定程度,物理原理决定了电车更有上限。

 

二、600W/cm²到底意味着什么?

塔能科技的实验室里,一个1000W的模拟热源被紧贴在冷板下方。热源面积只有指甲盖大小,意味着热量高度集中。系统启动后,冷板内的工质开始沸腾。热源温度迅速被压制,稳定在可接受范围内。按有效换热面积折算,冷板承受的热流密度达到600W/cm²。

600W/cm²是什么概念?当前主流AI芯片的平均热流密度约86W/cm²,新一代产品约160W/cm²,预计未来2-3年的芯片将达到200-300W/cm²。600W/cm²的能力,相当于提前为未来三代芯片铺好了散热安全垫。

类比一下:热流密度就像公路的通行能力。86W/cm²是双向两车道,日常够用;160W/cm²是四车道,高峰也能应付;300W/cm²是八车道,极端情况也能跑。而600W/cm²,相当于提前建了一条十六车道的高速公路——即使未来车流量翻倍,也不用担心拥堵。

这就是塔能两相液冷的“超前性”。今天部署两相方案,三年后芯片升级时,散热系统不用换。冷板的设计余量足够覆盖下一代、下两代甚至下三代芯片的发热需求。

image.png 

三、为什么沸点可调是关键?

实现600W/cm²需要两个关键能力:一是冷板能承受高热流密度,二是系统能把芯片温度精准控制在目标区间。前者靠微通道结构,后者靠泵驱主动控温。

传统两相方案(比如笔记本电脑里的热管)沸点是固定的。工质物性决定了它在某个压力下的沸腾温度,用户无法调节。这在单一场景下问题不大,但数据中心里同时运行着CPUGPUFPGA甚至ASIC,不同芯片的最佳工作温度各不相同——CPU喜欢55-65℃,GPU更喜欢65-75℃,FPGA可能只有45-55℃。固定沸点方案只能选一个折中值,谁都服务不好。

塔能的解决方案是“泵驱主动控温”。通过变频磁力泵调节系统压力,从而改变工质的沸腾压力。压力升高,沸点升高;压力降低,沸点降低。整个调节范围覆盖25-85℃,跨度60℃。不管什么芯片,运维人员只需要在控制台设定一个目标温度,系统自动维持。

实测数据表明,塔能两相液冷系统可将芯片温度波动控制在±1.5℃以内。这意味着:当负载从200W突然跳到700W时,温度上升不超过1℃,且2秒内即可稳定。而常规单相方案,同样的负载跳变,温度过冲可能高达6-8℃,稳定时间需要数秒至十余秒。在这几秒内,芯片可能已经触发降频,算力损失已经发生。

 

四、微通道:沸腾的“加速器”

如果说泵驱主动控温是“大脑”,那么微通道冷板就是“肌肉”。没有强壮的肌肉,大脑再聪明也无法输出力量。

传统冷板内部的流道通常是平直的,宽度在2-3mm。工质流过时,气泡在壁面成核、生长、脱离,过程相对缓慢。当热流密度急剧上升时,气泡来不及脱离,会形成一层“蒸汽膜”覆盖在壁面上,大幅恶化换热效果——这就是俗称的“烧干”。一旦烧干,温度失控,芯片瞬间降频甚至损坏。

塔能冷板内部加工有0.5mm宽的微通道,通道尺寸缩小了一个数量级。微通道的好处有三:

第一,单位体积的换热面积大幅增加。同样大小的冷板,微通道的壁面面积是平直通道的5-10倍。面积越大,换热越强。

第二,气泡脱离速度快。微通道内空间狭小,气泡一长大就被“挤”出去,来不及聚集成蒸汽膜。气泡脱离频率提高3倍以上,意味着单位时间内有更多的潜热被带走。

第三,沸腾换热系数大幅提升。据某高校风洞实验数据,微通道结构可使沸腾换热系数再提升约37%。这个数字叠加两相液冷本身的20倍优势,最终形成对风冷千倍级的代差。

0.5mm的加工精度、微米级的表面光洁度、全焊接密封工艺——这些细节,决定了600W/cm²不是实验室的“灵光一现”,而是可量产的工程化能力。

image.png 

五、从航天到数据中心:物理原理的降维

两相液冷并非全新发明。在过去数十年里,它一直服务于航天领域——卫星、空间站、高功率雷达、激光武器,这些极端工况对散热的要求远高于任何数据中心。体积小、重量轻、高可靠、功耗低、能力强,是机载散热设备的标准要求。

两相流体回路技术在这些场景中已经过无数次验证:零重力环境下稳定运行、承受发射时的剧烈振动、在-20℃到60℃的极端温差下保持性能。这些严苛条件,数据中心一个都不需要面对——没有振动、没有零重力、环境温度相对稳定。

所以把航天级两相散热技术“降维”到数据中心,本质上是用高射炮打蚊子。难度不在于技术本身,而在于把成本降下来、把体积做小、把维护做简单。塔能科技与国内顶尖高校联合研发中心合作,花了数年时间攻克了工程化难题:从微通道冷板的低成本加工,到泵驱系统的微型化,再到多机并联的控制算法。

成果是:一个只有空调外机大小的CDU,可以同时支持数十个冷板稳定运行;一套全焊接密封管路,泄漏率低于行业标准一个数量级;工质是环保介电液体,即使泄漏也不会损坏服务器。这些工程细节,才是决定两相液冷能否从实验室走向大规模部署的关键。

image.png 

六、物理原理的极限,对抗算力膨胀的极限

AI芯片功耗正在以肉眼可见的速度增长。从数百瓦到千瓦级,再到未来两千瓦、三千瓦,散热的物理极限正在被一次次冲击。传统风冷已经出局,单相水冷正在逼近边界,两相液冷站到了舞台中央。

这不是技术路线之争,而是物理原理的选择。显热的利用效率有其上限,潜热则是一块尚未充分开垦的富矿。600W/cm²的热流密度,远远超出了当前芯片的需求,但和芯片功耗的增长曲线相比,这个余量并不奢侈。

更关键的是,两相液冷带来的不只是“散热能力”,更是“控温能力”。±1.5℃的精准控温,意味着芯片可以始终运行在最佳性能区间,不再因为温度波动而被迫降频。对于AI训练集群来说,这意味着更短的训练时间、更稳定的算力输出、更长的硬件寿命。

当算力被功耗的增长曲线不断推向高空时,两相液冷用物理原理的极限,给出了一个回答:不是更强的风扇,也不是更大的流量,而是相变潜热——那个让你从游泳池上岸感到冷的物理机制,正在成为下一代AI数据中心的散热底座。

(本文技术数据来源于塔能科技内部测试报告及联合实验室测试数据)