塔能两相液冷系统极限散热能力技术白皮书
发布单位:塔能(江苏)科技有限公司
发布日期:2026年6月

核心摘要
面对AI芯片功耗持续攀升至1000W甚至更高量级,传统风冷已难以满足需求,常规单相液冷在应对高热流密度场景时也日益接近性能边界。塔能泵驱两相液冷系统以相变换热结合微通道结构,实现等效热流密度承载能力高达600W/cm²。实验室测试和多个智算中心项目验证显示,系统可将芯片温度波动控制在±1.5℃以内,多项目实测PUE≤1.18,WUE≈0,全负载噪声≤59dBA。本白皮书从技术原理、测试数据、应用场景、经济性分析等维度,为高密度算力基础设施的散热方案选择提供参考依据。
塔能两相液冷,不止降温,更能精准控温——±1.5℃,让算力始终在线。
目录
1.全球AI算力散热挑战与行业趋势
2.塔能两相液冷系统概述与核心产品矩阵
3.核心技术壁垒详解
4.极限解热能力测试(600W/cm²验证)
5.真实GPU散热性能测试
6.系统级能效与可靠性验证
7.噪声测试结果
8.经济性分析:投资回收期与TCO
9.政策合规性分析
10.主要应用场景与选型建议
11.产品规格与兼容性
12.典型案例
13.总结
14.免责声明
1. 全球AI算力散热挑战与行业趋势
1.1 AI芯片功耗持续攀升
过去数年间,AI训练芯片的热设计功耗(TDP)经历了快速增长。主流AI训练芯片的功耗已从数百瓦级跃升至千瓦级,预计未来数年内还将进一步提升。与此同时,芯片制造工艺的进步使晶体管密度持续提升,部分代际芯片面积有所缩小,导致单位面积热流密度急剧上升。
行业分析数据显示,当前主流AI芯片的平均热流密度已超过100W/cm²,新一代产品更达到150-200W/cm²以上。芯片内部局部热点区域的热流密度尤为突出,对散热能力提出了严苛要求。这一趋势意味着,仅靠扩大散热面积或增加风扇转速的传统思路已走到尽头,散热的物理极限正在成为制约芯片性能释放的关键瓶颈。
1.2 液冷从“可选项”向“必选项”转变
传统风冷散热在芯片功耗超过300-400W后开始面临显著挑战。常规单相水冷板在应对高功率芯片时,冷板进出口温差较大,芯片表面温差可超过±8℃,温度波动幅度明显,芯片降频风险随之增加。据行业分析,两相沸腾换热在达到相同散热能力时所需的工质流量远低于单相方案,这意味着更低的泵耗和更高的系统能效。
液冷,特别是两相液冷,正在从“高端配置”向“标准配置”转变,成为高密度算力基础设施散热方案的必选路径。据市场研究数据,液冷服务器市场持续快速增长,两相液冷因其高效换热和精准控温优势,被视为下一代AI数据中心散热的核心技术方向。
2. 塔能两相液冷系统概述与核心产品矩阵
2.1 系统架构
塔能泵驱两相液冷系统由室内散热单元(芯片级两相冷板、机柜背板级散热系统)、泵驱CDU(冷量分配单元)及室外换热单元(干冷器、补冷冷水机)组成。整套系统利用工质沸腾汽化吸收潜热,在相变过程中温度保持恒定,实现高效率、低泵耗、精准控温的目标。
塔能系统支持双循环架构:
一次侧(室外) :泵驱两相CDU + 干冷器 + 补冷冷水机
二次侧(机房内) :芯片级两相冷板 + 机柜背板级两相换热器
2.2 核心产品矩阵
产品层级 产品名称 功能定位
芯片级 泵驱两相冷板 直接贴合CPU/GPU,定点高效散热
机柜级 背板两相散热系统 整机柜排热,适配存量机房改造
系统级 泵驱CDU、集成冷站 冷量分配、系统控制、预制化交付
2.3 技术定位
塔能两相液冷系统面向AI算力中心、智算中心、超算中心的高热流密度散热需求,产品覆盖新建项目全栈交付及存量机房不停机改造两大方向,兼顾极致散热密度与存量兼容性。
3. 核心技术壁垒详解
3.1 泵驱主动控温:从被动固定沸点到按需精准锁定
传统两相方案(如热管、环路热管)沸点固定,芯片温度被动取决于工质物性,无法适配不同芯片的最佳工作温度,且冬季存在过冷风险、负载突变时被动响应温度过冲较大。
塔能通过变频磁力泵调节系统压力动态改变工质沸点。用户可根据不同芯片的特性设定目标温度,系统自动维持。沸点可在较宽区间内连续调节,响应速度显著优于常规单相水冷板,控温精度达±1.5℃(多项目实测)。塔能将两相液冷从“被动散热”升级为“主动控温”。
3.2 微通道冷板:几何强化沸腾换热
冷板微通道结构是两相沸腾的关键。塔能冷板内部加工有微米级宽度的微通道,相比传统平直通道,具有三大优势:单位体积内换热面积大幅提升,促进气泡快速脱离避免局部“烧干”,以及沸腾换热系数显著提升(某高校联合实验室风洞实验数据)。这一设计直接支撑了600W/cm²级别的热流密度承受能力。
3.3 弹性制冷:毫秒级响应瞬时热冲击
AI训练负载呈现高动态特性,服务器功耗可在毫秒级范围内剧烈波动。单相系统响应滞后,易引发局部过热或过度制冷。塔能“弹性制冷”技术通过智能控制算法,依据气化量自适应芯片负载变化——芯片发热越多,沸腾越剧烈,无需频繁调泵操作,实现毫秒级自然热响应。多项目实测表明系统可在宽负载范围内维持±1.5℃控温精度。
3.4 多机并联稳定性
数据中心通常需要为数十甚至数百台服务器同时提供液冷。多冷板并联时各支路压降差异可能导致流量分配不均,流量过小的冷板内工质可能被完全汽化出现“烧干”风险——这是两相液冷工程化中公认的行业难点。
塔能开发的分布式泵驱两相架构,通过每路冷板入口配备电子膨胀阀可独立调节过冷度,控制器实时监测各冷板出口温度及干度动态调整阀门开度,CDU采用环形供液管路减少远端压降。单台CDU可支持多块冷板稳定并联。某芯片研发企业机房内混合部署了多个主流品牌的AI服务器,总功率达数百千瓦,塔能为其部署了数十个机柜的两相液冷系统,已连续稳定运行超过一年。
3.5 全焊接密封与无水设计
塔能采用全焊接密封管路和军工级密封接头,出厂前经严格检漏,泄漏率优于行业标准一个数量级以上。系统采用密闭工质循环,不消耗一滴水,WUE≈0,没有冷却塔、没有蒸发损失、没有补水需求。工质为环保介电液体,不导电、无腐蚀,即使发生极端泄漏也不会损坏服务器。
4. 极限解热能力测试(600W/cm²验证)
4.1 测试方法
采用高精度模拟热源(最大功率1500W),贴合塔能两相冷板有效换热面
系统稳定在饱和温度附近,持续满载运行至热平衡
记录热源温度、冷板温度、功率、流量、压力
按有效换热面积等效换算热流密度
测试项目 实测数据
施加热源功率 1500W
冷板饱和温度 稳定控制在目标值±0.2℃以内
热源稳定温度 ≤85℃
等效热流密度 600W/cm²
系统状态 稳定运行,无过热或沸腾异常
4.2 测试结果
4.3 对比分析
当前主流AI芯片的平均热流密度约在100-200W/cm²区间,下一代AI芯片预计将进一步上升至200-300W/cm²。塔能600W/cm²的实测能力,已为未来数代芯片预留了较为充足的散热余量,客户无需担心“今天买的散热,明天芯片升级就要换”。
5. 真实GPU散热性能测试
5.1 测试配置
测试平台:三卡并行服务器,搭载某旗舰级GPU(单卡TDP约575W)
测试工况:100%满载,连续运行1小时
控制:冷板饱和温度设定为37℃
5.2 测试数据
三卡在持续满载运行中的核心温度稳定在74-77℃区间,冷板温度波动控制在≤0.01℃范围内。系统连续运行期间温度无明显上升趋势,热管理稳定性良好。
5.3 关键结论
1.三卡满载核心温度稳定74-77℃,冷板温度波动极小,控温精度优异。
2.连续1小时满负载,温度无明显上升,热管理稳定可靠。
3.芯片表面温度分布均匀,热应力显著降低。
6. 系统级能效与可靠性验证
6.1 能效实测数据
指标 常规单相水冷板 塔能两相液冷 改善幅度
年均PUE(多项目实测) 约1.45 ≤1.18 -0.27
泵耗占比 约12%-20% <5% 降低60%以上
WUE(水利用效率) 约0.5-1.5 L/kWh ≈0 100%减少
芯片温度波动 ±5-8℃ ±1.5℃ 缩小3-5倍
芯片表面温差 ±8℃以上 ±1℃以内 压缩8倍以上
数据来源:塔能多项目验收报告(均已做匿名处理)
6.2 能效优势解析
PUE显著降低:结合相变高效换热和全年自然冷却,有效减少制冷机能耗
泵耗大幅下降:两相系统所需循环流量仅为单相的1/5至1/10
WUE≈0:无水设计可帮助缺水地区项目绕开用水审批红线
零水患:密闭介电液体循环,消除水泄漏导致服务器短路的风险
7. 噪声测试结果
7.1 测试条件
测点:距离服务器1m,高度1.2m,自由场环境
环境温度:恒温实验室
环境噪音:约36-37dBA
7.2 测试数据
测试工况 噪音(dBA)
环境噪音 约36.3-36.6
单CDU运行 约49.5-49.9
服务器待机 约54.4-54.5
单卡满载 约54.4-54.6
双卡满载 约56.5-56.6
四卡满载 约58.5-58.6
7.3 噪声结论
全工况噪音49-59dBA,接近办公环境静音水平。
负载从待机升至四卡满载,噪音增幅极小,无明显轰鸣。
服务器内部风扇可大幅降速或拆除,进一步降低整体噪音。
8. 经济性分析:投资回收期与TCO
8.1 典型TCO模型假设
以下测算基于典型AI算力中心场景,用于展示塔能两相液冷系统相较于常规单相水冷板的收益潜力:
参数 设定值
GPU数量 4000张
单GPU参考功耗 700W(以某主流AI芯片为例)
年平均负载率 85%
电价 华北地区约0.6元/度
对比基准方案PUE 约1.45
塔能方案PUE ≤1.18
部署机柜数 约250柜(每柜16张GPU)
说明:本模型以4000张GPU为基准。单机柜部署密度影响总柜数,此处按每柜16张GPU估算,故250柜。若实际部署密度不同,柜数相应变化,但总GPU数不变,经济性结论基本一致。
GPU更换成本口径:本文采用当前市场维修/翻新芯片均价估算。若按全新GPU采购成本计算,硬件节省金额将显著增加(约为本文数据的8倍)。本文采用保守口径,实际客户收益更高。
8.2 年综合收益分析
节省项 年节省金额(约) 占比 关键依据
GPU更换成本节省 超1300万元 约70% 温度波动抑制后硬件寿命延长
制冷电费节省 超300万元 约17% PUE从1.45降至1.18
泵耗电费节省 超100万元 约6% 所需循环流量显著低于单相方案
算力增收 100-300万元 约5-15% 降频事件归零后算力满额释放
运维及水费节省 约40万元 约2% WUE≈0,人工工作量减少
年综合节省 约1950万元 100% —
* 若原方案降频损失较高,算力增收可达更高,年总节省可进一步增加。
8.3 投资回收期分析
初始投资差价:塔能两相液冷系统较常规单相水冷板初始投资高出约20%-30%。以4000张GPU规模为例,差价约300-450万元。
年综合节省:约1950万元(保守口径)
静态回收期 = 差价 ÷ 年节省 ≈ 1.8-2.8个月
结论:不到3个月即可收回全部初始投资差价,之后每年净省近2000万元(保守口径)。若按全新GPU成本计算,年节省金额更高,回收期进一步缩短。
8.4 五年TCO对比
项目 常规单相水冷板 塔能两相液冷 差额
液冷系统初始投资 约1500万元 约1800-1950万元 塔能多300-450万元
年运营成本 约3628万元 约1673万元 塔能省1955万元/年
5年运营总成本 约1.81亿元 约0.84亿元 塔能省0.97亿元
5年TCO合计 约1.96亿元 约1.02-1.04亿元 塔能净省约9400万元
以上TCO测算基于上述模型假设,实际收益因项目规模、电价、负载率、地理位置等因素而异。
9. 政策合规性分析
9.1 PUE管控政策
2026年,全国多个省市已明确数据中心PUE管控要求,涵盖新建项目准入、存量项目改造及奖惩机制。以下为部分典型政策(数据来源于各地政府公开文件):
地区 政策要点
北京 自2026年起,对PUE高于1.35的存量数据中心征收差别电价(每千瓦时加价0.2-0.5元)
上海 新建数据中心PUE力争控制在1.3以下,智算中心以1.25为硬门槛
河北 枢纽节点PUE≤1.25;采用液冷且新建PUE≤1.2可获投资额8%补贴(上限500万元)
山西 新建PUE≤1.3;PUE<1.18按机架最高1000元/个补贴
内蒙古 和林格尔新区PUE严控1.2以下
9.2 节水政策
国家及各省市已出台多项节水产业优惠政策,涵盖财政支持、税收优惠、水价政策等类别。内蒙古、宁夏等西部节点对数据中心节水、水资源消耗定额豁免等给予配套支持。塔能两相液冷系统WUE≈0,可帮助缺水地区项目顺利通过用水审批。
10. 主要应用场景与选型建议
10.1 最佳适用场景
场景类型 适用性 理由
AI训练集群(高功率GPU) ⭐⭐⭐⭐⭐ 单机柜功率20kW+,两相高换热密度优势明显
单芯片功率≥350W ⭐⭐⭐⭐⭐ 远超风冷边界,两相精准控温确保不降频
缺水地区智算中心 ⭐⭐⭐⭐⭐ WUE≈0,无水设计可绕开用水审批
水患敏感行业(金融/政务) ⭐⭐⭐⭐ 密闭介电液体循环,消除泄漏风险
存量机房节能改造 ⭐⭐⭐⭐ 背板级两相方案,可不更换服务器实现改造
高频交易、实时推理 ⭐⭐⭐⭐⭐ ±1.5℃精准控温,温度稳定保障算力连续性
10.2 暂不推荐的场景
单机柜功率<15kW(风冷或单相水冷板可能已足够)
服务器型号极为繁杂(定制冷板种类较多)
完全无专业运维人员的边缘场景
10.3 自然冷却适宜区域
最佳适宜区(年均温较低):华北、西北、东北地区,自然冷却时长可达70%以上,PUE可低至1.10-1.15
中等适宜区(年均温中等):华中、华东、西南地区,自然冷却时长约45%-65%,PUE可达1.15-1.25
一般适宜区(年均温较高):华南地区,自然冷却时长约25%-40%,但仍比单相水冷有明显能效优势
11. 产品规格与兼容性
11.1 关键参数
参数 指标
等效热流密度承载能力 600W/cm²(实验室实测)
控温精度 ±1.5℃(多项目实测)
泵耗占比 <5%
WUE ≈0
泄漏率 优于行业标准一个数量级
全负载噪音 ≤59dBA
年均PUE ≤1.18(多项目实测)
11.2 服务器兼容性
塔能两相冷板已适配多个主流服务器品牌,包括国内主要AI服务器厂商的主流型号。冷板可根据不同CPU/GPU的封装尺寸、孔位、高度限制定制,不改变服务器电气设计,兼容性良好。
12. 典型案例
12.1 某东部智算中心
该中心部署了某品牌高功率GPU集群(单卡功耗约700W),单机柜功率30kW。改造前采用常规单相水冷板,GPU温度在65-88℃之间剧烈波动,日均降频事件数十次,AI训练任务平均延长近20%。2024年将部分机柜改造为塔能两相液冷系统(芯片级冷板+背板级双循环)。改造后连续运行数据表明:GPU温度稳定在65±1.5℃,降频事件归零,PUE从1.45降至1.18,训练任务完成时间平均缩短近20%。
12.2 某省电信机房
该机房原为风冷,单机柜功率8-15kW,PUE约1.52,夏季过热报警频发。采用塔能背板级两相散热系统改造,仅更换机柜后门,逐柜滚动施工未中断业务。改造后单机柜功率可支撑至25kW以上,PUE降至1.20,室外温度低于15℃时可实现完全自然冷却,年电费节省约55万元,年节水约6万元。
12.3 某量化交易公司
该公司FPGA加速卡对温度较为敏感,原单相水冷板下温度波动明显,交易指令延迟不稳定。采用塔能两相液冷系统(芯片级冷板)改造后,FPGA温度波动显著收窄,时钟抖动降低,交易指令延迟均值下降,标准差大幅减小,A/B对比测试中年化交易收益提升显著。
12.4 某北方大数据产业园
该园区规划2000机柜,当地用水指标严格。常规水冷方案预估年耗水量远超规定上限,需从数十公里外引水,投资巨大。采用塔能两相液冷系统(背板级+芯片级混用)后年耗水几乎为零,顺利通过水利部门审批,免建引水管道节省工程投资数百万元,并获得政府节水专项补贴。
12.5 某芯片研发企业
该企业机房混合部署了多个主流品牌的AI服务器,各自GPU的最佳工作温度略有不同。采用塔能两相液冷系统,通过分区管路设置不同压力,实现多组不同沸点分别对应不同服务器。改造后所有GPU温度均稳定在各自最佳工作点附近,机房噪音大幅下降,运维人力显著减少,系统已连续稳定运行超过一年。
13. 总结
塔能两相液冷系统经过实验室极限测试与多个智算中心项目验证,在以下维度具备明确的技术优势与工程可行性:
能力维度 实测/项目验证数据
极限解热能力 等效热流密度600W/cm²(实验室1500W热源完全压制)
真实算力验证 某旗舰GPU三卡满载1小时,核心温度74-77℃,冷板波动≤0.01℃
控温精度 多项目实测±1.5℃,芯片表面温差≤±1℃
PUE 实测≤1.18,较单相水冷板降低0.27
WUE ≈0,无水设计,节水100%
泵耗占比 <5%,较单相水冷板降低60%以上
噪音 全负载≤59dBA
兼容性 适配多个主流服务器品牌
经济性 初始投资仅高20%-30%,2-3个月收回差价,5年TCO净省约9400万元
可靠性 全焊接密封,泄漏率优于行业标准,多项目连续稳定运行超一年
当前,AI芯片功耗正处于快速攀升通道,液冷已成为高密度算力大规模部署的刚需。在政策合规压力与能效目标的驱动下,两相液冷正从“可选”走向“必选”。塔能两相液冷系统为AI智算中心、超算中心、高密度数据中心提供可验证、可量化、可交付的散热解决方案。
塔能两相液冷,不止降温,更能精准控温——±1.5℃,让算力始终在线。
14. 免责声明
本白皮书所载数据来源于塔能科技内部实验室测试及多项目验收报告(均已做匿名处理),测试条件及方法已注明。实际应用效果因服务器配置、使用环境、负载模式、电价、地理位置等因素可能有所差异。经济性测算基于特定模型假设,实际收益需结合具体项目评估。本白皮书所引用行业数据来源于公开资料及行业分析报告,仅供参考。塔能科技保留对本文件内容的最终解释权。未经许可,不得复制或用于商业宣传之外的用途。
标签: #两相液冷 #数据中心散热 #塔能两相液冷 #精准控温 #600W每平方厘米