白皮书:高密度 AI算力时代的两相液冷散热解决方案 ——塔能两相液冷,从源头显著缓解降频,助力算力中心高效合规运营
来源:塔能 | 作者:小编 | 发布时间: 2026-06-02 19:38:33 | 次浏览


白皮书:高密度AI算力时代的两相液冷散热解决方案

——塔能两相液冷,从源头显著缓解降频,助力算力中心高效合规运营

发布日期:2026年5月

摘要

随着人工智能算力需求的指数级增长,GPU/CPU芯片功耗不断攀升,单机柜功率密度已从传统的5-10kW跃升至50kW、100kW乃至更高。传统风冷散热方案面临物理极限,芯片因温度过高强制降频导致的算力损失已成为算力中心最隐蔽、最核心的亏损来源。两相液冷技术凭借相变潜热换热的物理优势,可实现毫秒级热峰吸收与±1.5℃级高精度控温,从根源上显著缓解降频问题。本白皮书基于塔能两相液冷方案的实测数据与项目经验,系统阐述两相液冷的技术原理、核心优势、经济效益与实施路径,为AI算力中心的热管理升级提供完整参考。

微信图片_20260602164246_768_117.jpg


1. 行业背景:AI算力爆发驱动散热技术代际跃迁

1.1 芯片功耗持续攀升,液冷成“刚需”

高性能计算芯片的热设计功耗(TDP)正在以惊人的速度增长。NVIDIA H100的TDP为700W,B200在保持700W功耗的基础上实现性能翻倍,GB200 Superchip集成CPU与GPU,功耗达1,200W。2025年发布的Blackwell Ultra(B300)进一步将单颗GPU功耗推至1,400W,预计2026年量产出货。2026年亮相的Vera Rubin架构,单颗GPU功耗预计将达到1,800W。

芯片功耗的大幅攀升直接导致机柜功率密度跃升。GPU密集的服务器单机柜功耗已突破200kW,远超传统10kW级别的风冷承载能力。英伟达已在GB200平台中将液冷作为标准配置,并与主要OEM厂商联合开发定制化冷板接口。业内普遍认为,单机柜功率超过30kW时,风冷已难以有效应对;而当前及下一代AI芯片的单机柜功率已达50-120kW甚至更高,液冷已成为不可替代的技术路径。

1.2 液冷市场进入高速增长期

2025年全球数据中心冷却市场规模约为108亿美元,预计到2032年将增长至285.4亿美元,年复合增长率达14.9%。据Mordor Intelligence报告,液冷解决方案在数据中心冷却市场中的占有率已达46%,其17.5%的年复合增长率显著高于整体市场。据Prescient & Strategic Intelligence等机构预测,全球数据中心液冷市场规模将从2025年的约66.5亿美元增长至2033年的约294.6亿美元,年复合增长率为20.1%。

全球AI数据中心液冷渗透率正从2024年的14%提升至2026年的40%以上,AI训练服务器液冷渗透率更将从2024年的15%跃升至2027年的80%。中国液冷服务器渗透率已从2021年不足3%提升至2025年约20%,2026年将进一步升至37%,预计2027年突破50%。2026年被广泛视为液冷产业化放量的关键元年,行业正从试点示范迈向规模量产。

2. 问题剖析:热降频——算力中心的“隐形损耗”

2.1 热降频的物理原理

热降频(Thermal Throttling)是GPU、CPU、NPU、ASIC等主流高性能计算芯片内置的硬件安全保护机制。当芯片的核心温度、显存温度或供电模块温度中任一指标超过芯片厂商严格设定的安全温度墙时,芯片会在毫秒级时间内自动强制降低核心运行频率、降低工作电压、压缩算力输出强度,以主动牺牲部分性能的方式避免高温导致烧毁、击穿、短路等永久性物理损坏。该机制无法通过驱动升级、BIOS调整或系统优化绕过或关闭。

2.2 温度四区间模型

参考行业通用的高性能AI芯片温度影响评估区间,芯片运行状态可划分为四个关键区间:

70℃–85℃——高效运行区间:芯片可长期、稳定、满频、满算力运行,无性能损失,硬件老化速度可控,是算力中心应努力达到的理想运行状态。

85℃–95℃——性能影响区间:芯片开始阶梯式降频,温度每上升1℃,运行频率可能下调,性能损失约10%-30%。

95℃–105℃——高风险降频区间:芯片大幅强制降频,算力明显下降,硬件老化速度成倍上升,宕机、掉卡、业务中断风险快速提高。

105℃以上——极限保护区间:系统可能直接触发断电保护,整机关机,业务中断及合同违约风险集中爆发。

2.3 热降频的四大核心影响

算力直接缩水:根据第三方评测机构公开报告,GPU核心温度从80℃上升到92℃,算力可能下降超过20%;温度达95℃,算力可能下降35%-50%;温度接近98℃,算力可能被砍掉一半。

任务周期拉长:大模型训练任务不降频约14天完成,降频20%需17.5天,降频50%需28天,导致交付延期、合同违约、市场份额流失。

硬件寿命显著缩短:行业长期观察表明,温度每升高10℃,部分电子元器件的老化速度呈加快趋势。长期高温运行的机房,GPU故障率可能是恒温液冷机房的数倍,一张高端AI加速卡的年维修更换成本可达百万元级别。

PUE值偏高,政策合规压力大:根据行业调研数据,传统风冷机房PUE普遍在1.5到1.8之间,部分老旧机房甚至超过2.0。国家政策明确要求新建大型及超大型数据中心PUE≤1.25,国家枢纽节点数据中心PUE≤1.2。超标可能面临限电、差别电价征收、停批新项目等监管风险。

3. 技术路线对比:为何两相液冷是面向未来的先进方案

3.1 风冷——物理瓶颈难以突破

空气热导率仅约0.026 W/(m·K),换热能力有物理上限;风压有限,难以穿透高密度芯片区域;冷热风易混合短路,制冷效率大幅下降。风冷的控温能力有限,温度波动可能达±10℃至±20℃;功率上限通常仅适用于10kW以下机柜,超过后降频风险显著增加;热峰响应速度较慢,难以应对AI芯片毫秒级爆发的热量。基于当前技术分析,在高密度AI算力场景下,风冷面临显著挑战,许多依赖风冷的机房已无法满足新一代AI芯片的散热需求。

3.2 单相液冷——重要过渡,但仍存局限

单相液冷依靠液体显热换热能力将热量从芯片端搬运到外部,比风冷有明显提升,但存在三个主要瓶颈:其一,在毫秒级热峰面前存在延迟,液体流动搬运热量的速度可能追不上AI芯片爆发式产热,温度仍可能瞬间冲高触发降频;其二,温度波动通常在±3℃到±8℃之间,降频可能反复触发,算力稳定性不足;其三,参考部分行业公开技术文献,其高效工作区间上限约为150W/cm²,而当前及下一代AI芯片的热流密度普遍较高,可能已超出该范围。

3.3 两相液冷——先进散热方案

两相液冷采用相变潜热换热原理:冷却液接触高温芯片时瞬间从液态沸腾汽化为气态,吸收大量潜热,在冷凝器中重新液化后循环。潜热换热能力远高于普通显热换热,根据塔能实验室对比测试数据,两相液冷的换热效率相比风冷有显著提升,相比单相液冷也有数倍的优势。

两相液冷拥有四项显著优势:吸热速度快,任何热峰都能被瞬间吸收;控温精度高,温度波动可控制在±0.5℃至±1.5℃,实现高精度恒温运行;热流密度承载力强,可应对当前及未来5-10年高功耗AI芯片;系统相对简洁、稳定、节能,泵耗和故障率更低。

基于上述分析,两相液冷在高密度AI算力场景下具有显著优势,是面向未来的重要技术路线。

4. 塔能两相液冷解决方案

4.1 核心定位:算力温度管家

塔能两相液冷,不止降温,更能精准控温——±1.5℃,让算力稳定在线。塔能交付的不只是冷板、管路、泵组等硬件设备,而是一套以低降频、稳算力、低PUE、长寿命、智能化为核心目标的完整热管理系统。协助任何规模、任何功率密度的AI高密度机柜,在全年7×24小时全时段运行中实现低降频、低热点、小波动、高稳定、低风险。

塔能科技在实验室条件下进行了模拟热源测试:在冷板下方安装一个1000W的模拟热源,用以等效芯片在高负载状态下的发热工况。测试结果表明,该两相液冷系统能够完全压制1000W的热源输出。按热源面积折算,其等效热流密度达到600W/cm²,充分验证了塔能两相冷板在极端热流密度下的散热能力与工程可行性。


4.2 四大核心技术能力

芯片级微通道两相冷板:经过大量热仿真、结构优化、流体验证的精密冷板,紧密贴合GPU、CPU核心Die面与显存区域。冷媒在微通道内发生液气相变,毫秒级带走热量,实现核心散热低死角、热量转移低延迟、温度控制小波动。

±1.5℃高精度控温:依靠冷媒在相变过程中温度近乎恒定的物理特性,将芯片工作温度稳定控制在80℃±1.5℃。芯片不易触达85℃、90℃、95℃的降频阈值,从物理机制上显著降低降频可能性。

全密度兼容,面向未来:系统散热能力可支持单机柜120kW稳定运行,兼容30kW-120kW全密度机柜及下一代更高功耗的GPU、NPU、ASIC芯片。一次部署,可支撑长期稳定运行。

AIoT智能运维平台:实时监控每一颗芯片的温度、回路流量、模块压力、机柜功耗、全场PUE变化、算力输出曲线、降频统计数据。内置AI预测算法,提前预判压力异常、流量衰减、换热效率下降等潜在风险,自动生成预警、自动维护工单、自动调节运行策略。根据塔能项目验证数据,运维工作量可降低50%-80%,相关故障发生率可降低90%以上。

4.3 环保工质技术

塔能两相液冷采用无PFAS环保型专用制冷剂,不含全氟和多氟烷基物质,完全契合全球环保法规管控要求。工质为多元非共沸混合组分,具备温度滑移特性,可精准匹配CDU冷凝器换热曲线,消除温度夹点,大幅提升换热效率、缩减系统温差并降低运行能耗。该工质安全等级高、低毒微可燃,适配规模化数据中心部署。

4.4 三组实测对比数据(塔能内部实测数据)

方案 芯片温度 降频幅度 算力损失 PUE

传统风冷 94℃-98℃ 28%-35% 约32% 约1.68

常规单相液冷 86℃-92℃ 12%-18% 约15% 约1.32

塔能两相液冷 80℃±1.5℃ 低于1% 低于1% 1.08-1.12

基于以上真实、可复现、可核查的数据,在标准工况和规范部署下,塔能两相液冷可实现全年极低降频(降频导致算力损失低于1%)。

5. 经济效益分析

5.1 测算模型

基于塔能对典型机房的调研参考,以当前行业最具代表性的50柜高密度AI算力中心为模型进行收益测算:

规模:50柜

单机柜配置:2U 8卡高端AI服务器,功率50kW

年运行时长:350天,7×24小时

传统风冷/单相液冷方案对比塔能两相液冷方案

重要声明:以下收益测算基于上述特定模型假设,实际收益受电价波动、算力服务市场价格变化、机房实际负载率等多种因素影响,仅供参考,不构成投资保障。

5.2 各项收益核算

算力增收:传统方案普遍存在约20%的持续降频,塔能方案将降幅降至低于1%,近20%的有效算力提升转化为营收。基于特定模型测算,50柜规模每年有望带来450万-700万元增收潜力。

电费节省:通过相变散热、近源散热、精准控温、低流量低阻力循环,PUE从1.5降至1.1以内。基于特定模型测算,每年预计可节约电费90万-110万元。

硬件延寿:通过±1.5℃级精准恒温,大幅降低热应力、延缓老化。根据行业经验,GPU硬件有效使用寿命有望从3年延长到5年甚至更久。基于特定模型和行业经验,每年预计可节省硬件更换、维修、备件储备费用80万-150万元。

运维节省:根据塔能项目验证数据,运维工作量可下降50%-80%。综合人力成本降低、备件成本降低,50柜规模一年可节省运维相关开支30万-50万元。

合规收益:基于政策风险规避和潜在补贴测算,每年可带来约50万元潜在合规收益。具体补贴金额需根据项目所在地政策核实。

5.3 年度综合收益与回本周期

综合上述各项收益,50柜算力中心年度综合收益潜力为700万-1100万元。基于前述测算模型,历史项目回本周期参考值约为8-14个月,实际回本周期因项目而异。

6. 政策环境与合规优势

6.1 国家政策强制导向

从2024年到2026年,国家层面针对数据中心、智算中心、绿色算力基础设施的政策导向,已经从“鼓励升级”转变为刚性约束、考核指标。无论是新建项目审批、存量机房改造、节能补贴申报、重大项目承接,散热效率、PUE控制、算力稳定性、低碳节能都已成为重要的硬性指标。

第一,参考《数据中心绿色低碳发展专项行动计划》(2024年)及2026年算电协同新政,新建大型/超大型数据中心PUE需≤1.25,国家枢纽节点数据中心项目PUE需≤1.2。这不是建议,不是指导,而是国家部委联合印发的刚性约束指标,直接与项目节能审查、环评、审批、验收、用电指标挂钩。PUE不达标的项目,可能面临批复困难、供电限制、备案受阻。多个地区已经明确,PUE超过标准的机房,可能面临差别电价、限电或限制扩容等处罚措施。

第二,国家明确将液冷技术列为新一代算力中心的重要制冷方案,推动高效散热技术应用。在《数据中心绿色低碳发展专项行动计划》《国家工业和信息化领域节能降碳技术装备推荐目录》等一系列政策文件中,液冷被反复提及,成为国家层面主推的核心技术路线之一。例如,“芯片级精准喷淋液冷技术”已被列入《国家工业和信息化领域节能降碳技术装备推荐目录》(2025年版),该技术可使数据中心PUE低至1.10。政策明确要求新建智算中心、超算中心、高密度AI集群优先采用冷板液冷、相变液冷等高效制冷技术,并逐步对存量风冷机房实施改造升级。

第三,能效不达标、散热不合格、长期高温降频的机房,可能面临限电、差别电价征收、停批新项目、整改等监管措施。这不是未来的威胁,而是已经在全国多地落地执行的现实。例如,北京自2026年起对PUE超过1.35的数据中心开征差别电价,PUE在1.35-1.7之间的每度电加价0.2元,PUE大于1.7的每度电加价0.5元,且PUE大于1.5的存量项目须在2026年6月底前完成改造,否则面临限电。根据《河北省数字经济发展三年行动计划(2025—2027年)》,将引导督促年均PUE超过1.5的数据中心进行节能降碳改造。不少地方已经出现因为PUE超标、散热效率过低、算力利用率不足,被核减用电指标、暂停新增业务、暂停扩容审批的案例。更关键的是,随着“能耗双控”向“碳排双控”全面转型,散热差、降频多、能耗高不仅是经济问题,更是合规问题。

第四,采用高效液冷、实现低降频、稳定算力输出的机房,在政策补贴、项目申报、试点示范、能耗指标上获得优先权。全国各地已陆续出台具体激励政策:

北京市:根据《北京市存量数据中心优化工作方案(2024-2027年)》,数据中心节能技术改造项目给予不超过1200元/吨标准煤的资金奖励,单个项目奖励金额最高可达3000万元。自2026年起,对PUE高于1.35的数据中心开征差别电价,PUE在1.35-1.7之间每度电加价0.2元,PUE大于1.7的每度电加价0.5元。同时规定,PUE低于1.2的数据中心绿电比例力争达到20%,PUE在1.2-1.35之间的绿电比例力争达到30%,PUE高于1.35的绿电比例力争达到40%。

天津市:根据《天津市推动制造业高质量发展若干政策措施实施细则》(津工信规〔2025〕2号),对获评国家级绿色数据中心的项目,给予60万元一次性奖励。

河北省:根据《河北省数字经济发展三年行动计划(2025—2027年)》,持续推进“算电协同”试点建设,引导督促年均PUE超过1.5的数据中心进行节能降碳改造,制定数据中心全生命周期绿色算力地方标准和行业标准。对获评国家绿色数据中心的项目,按规定给予资金奖励。

上海市:根据《上海市经济信息化委关于组织申报2026年技术改造专项(投资补助方向)的通知》,技改项目投资补助支持比例不超过核定项目总投入的10%,最高不超过1亿元。同时,根据上海市相关算力补贴政策,对使用公共算力服务的主体给予算力券补贴,具体支持比例和上限根据项目评估确定。优先支持液冷、余热回收等示范项目,在能耗指标审批、电力保障等方面给予倾斜。

山西省:依据《山西省促进先进算力与人工智能融合发展的若干措施》(晋政办发〔2024〕35号):(一)对面向企业、科研机构及个人用户的云服务收入占比达到15%以上的算力企业,按照每个物理机架最高1000元,给予总额最高300万元的一次性补贴;(二)对新建或改造升级后的数据中心,实测年均PUE首次低于1.18的,按照每个物理机架最高1000元,给予每户企业最高不超过500万元的一次性补贴。

凡是部署两相液冷、实现低降频、高稳定、低PUE的机房,在承接政务算力、国企算力、科研算力、重大AI训练任务、城市大脑、国家数据基础设施等重点项目时,拥有优先入围、优先中标、优先保障的资格。

第五,国产化、绿色化、智能化深度融合,液冷已成为数字新基建的重要能力。在国家大力推进算力基础设施自主可控、安全可信的背景下,能够精准控温、稳定算力、高效节能、安全可靠的液冷技术,成为国产算力底座不可缺少的一环。风冷散热的局限性、低效性、不稳定性,已难以满足新一代算力基础设施对高性能、高可靠、高能效的要求。而以塔能两相液冷为代表的相变散热、精准控温、智能运维体系,高度契合国家战略发展方向。

行业大势已经日趋清晰:风冷逐步被替代、单相液冷作为过渡、两相液冷成为主流。政策已经把路铺好、把门槛立好、把方向定好。对于每一位算力中心投资者、建设者、运营者来说,积极采用高效液冷、主动完成绿色升级,有助于把握政策红利、实现合规运营、提升长期竞争力。

7. 存量机房改造:低风险不停机实施路径

7.1 四大保障措施

塔能提供可落地、负责任的保障措施:采用在线插拔、逐柜实施模式,目标为实现业务不中断;不改动机房结构,不拆墙、不打洞、不改承重;主流品牌服务器良好兼容;整体部署周期约2-3个月。

7.2 七步标准化改造流程

1.现场精准勘测

2.定制专属方案

3.工厂预制生产

4.单柜试点验证

5.逐柜在线改造

6.系统联调优化

7.整体验收交付

7.3 改造后即时可见效果

改造当天:芯片温度明显下降,降频显著改善

三天内:趋于满算力运行

一月内:PUE稳定降至1.1以内,较好地满足国家政策要求

8. 未来展望

随着AI算力需求的持续爆发,芯片功耗将继续攀升,热管理在算力中心TCO中的占比将进一步提高。液冷技术,特别是两相液冷,凭借相变潜热换热的物理优势,将成为高密度AI算力时代不可或缺的基础设施技术。政策层面,PUE红线持续收紧、碳排双控全面落地、算电协同深入推进,将进一步加速液冷的全面普及。

实验室测试表明:塔能两相冷板可完全压制1000W模拟热源,等效热流密度达600W/cm²。

行业大势已经日趋清晰:风冷逐步被替代、单相液冷作为过渡、两相液冷成为高密度AI算力的主流技术路线。未来算力市场的竞争,核心在于谁能更好地解决散热问题、谁能更稳定地输出算力、谁能实现更低的能耗成本、谁能更快完成合规绿色升级。

9. 总结

两相液冷凭借相变潜热换热的物理优势,可实现毫秒级热峰吸收与±1.5℃级高精度控温,从物理机制上显著降低降频触发概率,是解决高密度AI算力中心热管理挑战的重要技术路线。塔能两相液冷方案在实测中实现将芯片温度稳定控制在80℃±1.5℃、降频导致算力损失低于1%、PUE降至1.08-1.12,经济效益显著,政策合规优势突出,且具备存量机房低风险不停机改造的成熟实施能力。在AI算力需求持续增长、政策监管日益严格的背景下,两相液冷技术将从“可选方案”加速演变为算力中心建设的重要基础设施。

关于塔能

塔能专注于两相液冷散热技术的研发与工程化应用,致力于为AI算力中心、智算中心、超算中心等场景提供完整的热管理解决方案。以低降频、稳算力、低PUE、长寿命、智能化为核心目标,助力算力中心实现高效、稳定、合规、可持续运营。

本白皮书所述数据基于塔能内部实测数据及公开行业资料,仅供参考,不构成投资保障。具体项目需结合实际情况进行定制化评估。

参考文献

1.Mordor Intelligence. Data Center Cooling Market – Market Share Analysis, Industry Trends & Statistics, Growth Forecasts (2026-2032). 2026.

2.Global Growth Insights. Liquid Cooling for Data Center Market Size, Share, Growth, and Industry Analysis, Forecast to 2035. 2026.

3.Grand View Research. Data Center Liquid Cooling Market Size, Share, & Trend Analysis Report, 2026-2033. 2026.

4.Intel. NVIDIA Blackwell Ultra and B300: Infrastructure Requirements for Next-Generation GPUs. 2025.

5.Wedbush Securities. The Great Chill: How 1,800W GPUs Forced the Data Center Liquid Cooling Revolution of 2026. 2026.

6.NVIDIA B200与GB200部署完整指南:功耗、散热与投资回报分析. 2025.

7.国家发展改革委等四部门.《数据中心绿色低碳发展专项行动计划》. 2024.

8.国家工业和信息化部.《国家工业和信息化领域节能降碳技术装备推荐目录(2025年版)》. 2025.

9.TrendForce. AI数据中心液冷渗透率研究报告. 2026.

10.证券时报. 机构:政策助力 推动算电产业融合升级. 2026.

11.数字储能网. 智能算力、数据中心与基站:数据中心绿色转型与算力建设. 2025.

12.北京市经济和信息化局等.《北京市存量数据中心优化工作方案(2024-2027年)》. 2024.

13.天津市工业和信息化局.《天津市推动制造业高质量发展若干政策措施实施细则》(津工信规〔2025〕2号). 2025.

14.河北省人民政府.《河北省数字经济发展三年行动计划(2025—2027年)》(冀政办字〔2025〕50号). 2025.

15.上海市经济信息化委.《关于组织申报2026年技术改造专项(投资补助方向)的通知》. 2026.

16.山西省人民政府办公厅.《山西省促进先进算力与人工智能融合发展的若干措施》(晋政办发〔2024〕35号). 2025.