“烧水”物理学与 600W/cm ²的较量

首页 > 公司动态

来源:塔能 | 作者:小编 | 发布时间: 2026-06-12 22:32:18 | 次浏览

“烧水”物理学与600W/cm²的较量

从游泳池上岸觉得冷，炖汤“大火收汁”，这些生活常识背后，藏着同一个物理原理——相变潜热。而它，正在改写AI数据中心的散热规则。

夏天从游泳池爬上岸，一阵风吹过，你打了个寒颤。水温明明比气温还高，为什么会觉得冷？答案在蒸发——水变成水蒸气，从你的皮肤上带走了热量。这带走的热量，叫“潜热”。

炖汤时，大火煮沸后转小火慢炖，“大火收汁”。为什么收汁要用大火？因为让液态水变成水蒸气需要大量热量——这些热量就是“潜热”，它不改变温度，只改变形态。当水蒸气跑掉，汤就“收”了。

这两个生活常识，恰好揭示了两相液冷的全部秘密。

一、显热 vs 潜热：散热界的“油车”与“电车”

理解两相液冷，先要分清两种热量：显热和潜热。

显热，是物质吸收或放出热量后，温度发生变化但物态不变的那部分能量。烧一壶水，从20℃烧到100℃，吸收的热量就是显热。常规单相水冷板，靠的就是显热——液体流进冷板，温度升高，带走热量。原理简单，成本可控，是当前液冷的主流方案。

但显热有个先天短板：它必然伴随温度变化。冷板入口的液体温度最低，吸收热量后逐渐升温，到出口时温度已经高出一截。这个温差，在低功率时尚可接受；当芯片功耗突破千瓦级，冷板进出口温差可达10-20℃，直接导致芯片表面温度分布不均。入口对应的芯片区域凉快，出口对应的区域滚烫。温度不均带来热应力，热应力加速焊点疲劳，疲劳到一定程度就是芯片失效。

潜热，是物质在相变（固态→液态→气态）过程中吸收或放出的热量，相变期间温度保持不变。把100℃的沸水完全烧成水蒸气，吸收的热量就是潜热——它的量，是显热的数倍乃至数十倍。

两相液冷利用的正是潜热。工质在冷板内沸腾汽化，吸收大量潜热，温度却几乎不变。这意味着：无论芯片功率如何波动，只要沸腾持续，冷板表面温度就能稳定在工质沸点附近。这就是两相液冷实现精准控温的根本原因。

打个比方：显热散热像油车，速度越快噪音越大、油耗越高；潜热散热像电车，起步就是最大扭矩，安静且高效。不是油车不好，而是当功率密度上升到一定程度，物理原理决定了电车更有上限。

二、600W/cm²到底意味着什么？

塔能科技的实验室里，一个1000W的模拟热源被紧贴在冷板下方。热源面积只有指甲盖大小，意味着热量高度集中。系统启动后，冷板内的工质开始沸腾。热源温度迅速被压制，稳定在可接受范围内。按有效换热面积折算，冷板承受的热流密度达到600W/cm²。

600W/cm²是什么概念？当前主流AI芯片的平均热流密度约86W/cm²，新一代产品约160W/cm²，预计未来2-3年的芯片将达到200-300W/cm²。600W/cm²的能力，相当于提前为未来三代芯片铺好了散热安全垫。

类比一下：热流密度就像公路的通行能力。86W/cm²是双向两车道，日常够用；160W/cm²是四车道，高峰也能应付；300W/cm²是八车道，极端情况也能跑。而600W/cm²，相当于提前建了一条十六车道的高速公路——即使未来车流量翻倍，也不用担心拥堵。

这就是塔能两相液冷的“超前性”。今天部署两相方案，三年后芯片升级时，散热系统不用换。冷板的设计余量足够覆盖下一代、下两代甚至下三代芯片的发热需求。

三、为什么沸点可调是关键？

实现600W/cm²需要两个关键能力：一是冷板能承受高热流密度，二是系统能把芯片温度精准控制在目标区间。前者靠微通道结构，后者靠泵驱主动控温。

传统两相方案（比如笔记本电脑里的热管）沸点是固定的。工质物性决定了它在某个压力下的沸腾温度，用户无法调节。这在单一场景下问题不大，但数据中心里同时运行着CPU、GPU、FPGA甚至ASIC，不同芯片的最佳工作温度各不相同——CPU喜欢55-65℃，GPU更喜欢65-75℃，FPGA可能只有45-55℃。固定沸点方案只能选一个折中值，谁都服务不好。

塔能的解决方案是“泵驱主动控温”。通过变频磁力泵调节系统压力，从而改变工质的沸腾压力。压力升高，沸点升高；压力降低，沸点降低。整个调节范围覆盖25℃-85℃，跨度60℃。不管什么芯片，运维人员只需要在控制台设定一个目标温度，系统自动维持。

实测数据表明，塔能两相液冷系统可将芯片温度波动控制在±1.5℃以内。这意味着：当负载从200W突然跳到700W时，温度上升不超过1℃，且2秒内即可稳定。而常规单相方案，同样的负载跳变，温度过冲可能高达6-8℃，稳定时间需要数秒至十余秒。在这几秒内，芯片可能已经触发降频，算力损失已经发生。

四、微通道：沸腾的“加速器”

如果说泵驱主动控温是“大脑”，那么微通道冷板就是“肌肉”。没有强壮的肌肉，大脑再聪明也无法输出力量。

传统冷板内部的流道通常是平直的，宽度在2-3mm。工质流过时，气泡在壁面成核、生长、脱离，过程相对缓慢。当热流密度急剧上升时，气泡来不及脱离，会形成一层“蒸汽膜”覆盖在壁面上，大幅恶化换热效果——这就是俗称的“烧干”。一旦烧干，温度失控，芯片瞬间降频甚至损坏。

塔能冷板内部加工有0.5mm宽的微通道，通道尺寸缩小了一个数量级。微通道的好处有三：

第一，单位体积的换热面积大幅增加。同样大小的冷板，微通道的壁面面积是平直通道的5-10倍。面积越大，换热越强。

第二，气泡脱离速度快。微通道内空间狭小，气泡一长大就被“挤”出去，来不及聚集成蒸汽膜。气泡脱离频率提高3倍以上，意味着单位时间内有更多的潜热被带走。

第三，沸腾换热系数大幅提升。据某高校风洞实验数据，微通道结构可使沸腾换热系数再提升约37%。这个数字叠加两相液冷本身的20倍优势，最终形成对风冷千倍级的代差。

0.5mm的加工精度、微米级的表面光洁度、全焊接密封工艺——这些细节，决定了600W/cm²不是实验室的“灵光一现”，而是可量产的工程化能力。

五、从航天到数据中心：物理原理的降维

两相液冷并非全新发明。在过去数十年里，它一直服务于航天领域——卫星、空间站、高功率雷达、激光武器，这些极端工况对散热的要求远高于任何数据中心。体积小、重量轻、高可靠、功耗低、能力强，是机载散热设备的标准要求。

两相流体回路技术在这些场景中已经过无数次验证：零重力环境下稳定运行、承受发射时的剧烈振动、在-20℃到60℃的极端温差下保持性能。这些严苛条件，数据中心一个都不需要面对——没有振动、没有零重力、环境温度相对稳定。

所以把航天级两相散热技术“降维”到数据中心，本质上是用高射炮打蚊子。难度不在于技术本身，而在于把成本降下来、把体积做小、把维护做简单。塔能科技与国内顶尖高校联合研发中心合作，花了数年时间攻克了工程化难题：从微通道冷板的低成本加工，到泵驱系统的微型化，再到多机并联的控制算法。

成果是：一个只有空调外机大小的CDU，可以同时支持数十个冷板稳定运行；一套全焊接密封管路，泄漏率低于行业标准一个数量级；工质是环保介电液体，即使泄漏也不会损坏服务器。这些工程细节，才是决定两相液冷能否从实验室走向大规模部署的关键。

六、物理原理的极限，对抗算力膨胀的极限

AI芯片功耗正在以肉眼可见的速度增长。从数百瓦到千瓦级，再到未来两千瓦、三千瓦，散热的物理极限正在被一次次冲击。传统风冷已经出局，单相水冷正在逼近边界，两相液冷站到了舞台中央。

这不是技术路线之争，而是物理原理的选择。显热的利用效率有其上限，潜热则是一块尚未充分开垦的富矿。600W/cm²的热流密度，远远超出了当前芯片的需求，但和芯片功耗的增长曲线相比，这个余量并不奢侈。

更关键的是，两相液冷带来的不只是“散热能力”，更是“控温能力”。±1.5℃的精准控温，意味着芯片可以始终运行在最佳性能区间，不再因为温度波动而被迫降频。对于AI训练集群来说，这意味着更短的训练时间、更稳定的算力输出、更长的硬件寿命。

当算力被功耗的增长曲线不断推向高空时，两相液冷用物理原理的极限，给出了一个回答：不是更强的风扇，也不是更大的流量，而是相变潜热——那个让你从游泳池上岸感到冷的物理机制，正在成为下一代AI数据中心的散热底座。

（本文技术数据来源于塔能科技内部测试报告及联合实验室测试数据）