一个拥有4000张GPU的AI集群,换上两相液冷后,每年能省下近2000万运营成本。这笔账,CFO算得比CTO还清楚。
一位数据中心财务总监,最近收到了一份技术改造方案。方案来自运维团队:建议将现有单相液冷系统升级为两相液冷,初始投资增加约300-450万元。他的第一反应是皱眉——“又要花钱”。但当他翻到第二页的运营成本对比表时,表情变了。
年电费节省450万元,泵耗节省超100万元,运维及水费节省40万元,最突出的是GPU更换成本节省超1300万元。四项合计,每年少花近2000万元。300多万的初始差价,不到3个月就能收回。他用手指在计算器上敲了两遍,确认数字没错。然后抬头问运维负责人:“这个方案,什么时候能上线?”
这个故事不一定发生在哪家公司,但它反映了一个正在发生的趋势:当两相液冷的TCO被算清,技术决策就从“工程师的选择”变成了“CFO的共识”。
一、四本账:从电费到GPU寿命,两相液冷省在哪?
算清两相液冷的经济账,要从四个维度展开。每一本账都有据可查,有数可算。
第一本账:电费——PUE从1.45降到1.18。
常规单相水冷板的年均PUE约为1.45。这意味着:每用1度电给IT设备计算,就要多用0.45度电来散热。两相液冷利用相变潜热高效换热,配合全年自然冷却,多项目实测PUE≤1.18。
以一个4000张GPU的集群为例(单GPU功耗700W,负载率85%):
IT设备年耗电 = 4000 × 0.7kW × 8760h × 85% ≈ 2085万度
单相方案总电费 = 2085万度 × 1.45 × 0.6元/度 ≈ 1814万元
两相方案总电费 = 2085万度 × 1.18 × 0.6元/度 ≈ 1476万元
年电费节省 = 338万元。这还没算泵耗。
第二本账:泵耗——流量只有1/5,电费再省112万
常规单相水冷板需要高流量来维持冷板进出口温差,泵耗占比通常为12%-20%。两相液冷所需流量仅为单相的1/5至1/10,泵耗占比可控制在5%以下。
同样以4000张GPU集群为例:单相方案年泵耗电费约150万元,两相方案约38万元。年泵耗节省 = 112万元。
电费+泵耗,两相方案每年比单相少花450万元。
第三本账:运维与水费——WUE≈0,成本再省。
常规单相水冷系统需要冷却塔补水,WUE通常在0.5-1.5 L/kWh之间。年水费+排污费约17.5万元(按WUE=1.2计算)。此外,水处理加药、阻垢、杀菌、泄漏检查,至少占用1-2名运维人员的部分工时。
两相液冷采用密闭工质循环,WUE≈0,无水处理需求。智能监控自动调节,运维人力可减少75%。两项合计年节省约40万元。
第四本账:GPU更换——温度稳定,寿命翻倍。
这是TCO模型中单项节省最高的部分,也是最容易被忽略的“隐形收益”。
温度波动是GPU封装失效的主要原因。常规单相水冷板方案下,高负载GPU的温度波动可达±6℃,平均故障间隔时间(MTBF)约为3年,年更换率33%。两相液冷将温度波动压缩至±1.5℃,热应力大幅降低,预计MTBF可延长至6年以上,年更换率降至16.7%。
按保守口径计算(维修/翻新芯片均价约3000美元/片,折合人民币约2.1万元):
单相方案年更换成本 = 4000 × 33% × 2.1万 ≈ 2772万元
两相方案年更换成本 = 4000 × 16.7% × 2.1万 ≈ 1403万
年GPU更换节省 = 1369万元。若按全新GPU采购成本(约2.5万美元/片)计算,年节省金额将超过1亿元。本文取保守值,实际客户收益更高。
四本账相加:450万 + 112万 + 40万 + 1369万 ≈ 1950万元。这就是一个4000张GPU集群选择两相液冷而非单相水冷板之后,每年能省下的真金白银。
二、投资回收期:2-3个月,显著快于常见IT设备更新周期
账算清楚了,下一个问题:两相液冷的初始投资比单相贵多少?多久能赚回来?
根据塔能科技多项目数据,塔能两相液冷系统较常规单相水冷板初始投资高出约20%-30%。以4000张GPU集群(约250个机柜)为例:
单相方案初始投资约1500万元
两相方案初始投资约1800-1950万元
差价约300-450万元
差价 ÷ 年节省 = 300-450万 ÷ 1950万 ≈ 0.15-0.23年 ≈ 1.8-2.8个月。
也就是说,不到3个月,省下来的电费、水费、运维费、GPU更换费,就足够覆盖初始投资差价。之后每年净省近2000万元。这个回收速度,与常见IT设备更新周期相比具有明显优势。
五年TCO的差距更为明显:单相方案五年总拥有成本约1.96亿元,两相方案约1.02-1.04亿元,净节省近1亿元。省下来的钱,足够再买4000张全新GPU。
三、WUE≈0:缺水地区的一张“通行证”
在华北、西北等缺水地区,比电费更让人头疼的是水审批。
一个 10MW 的水冷数据中心,年耗水量约 10-20 万吨。在内蒙古和林格尔,水利部门对数据中心的用水指标卡得非常严。部分常规水冷项目因本地地表水、地下水指标不足,需规划远距离引水配套,管线投入动辄数百万元,取水审批仍存在不确定性。
塔能两相液冷系统采用密闭工质循环,散热过程不消耗水,WUE≈0。没有冷却塔、没有蒸发损失、没有补水需求。在缺水地区,可大幅降低取水指标与环评的审批门槛,避开常规水冷的取水审批瓶颈。
2025 年,工信部首次将数据中心明确列为 “新兴用水行业”,国家标准 GB/T 32910.6-2025《数据中心 资源利用 第 6 部分:水资源使用效率》于 2025 年 12 月 1 日正式实施。WUE 正式与 PUE 并列,成为数据中心绿色评价的核心指标。在部分缺水地区,WUE 已纳入环评审查,超标项目实行 “一票否决”。
两相液冷的 WUE≈0,不仅省水费,更是在缺水地区拿到建设批文的关键条件。这个价值,无法用简单的数字衡量。
四、真实案例:改造后降频归零,PUE 1.18
数字说得再多,不如一个真实案例有说服力。
某智算中心,部署了某品牌高功率GPU集群(单卡功耗约700W),单机柜功率30kW。改造前采用常规单相水冷板,GPU温度在65-88℃之间剧烈波动,日均降频事件47次,AI训练任务平均延长近20%。
2024年,该中心将部分机柜改造为塔能两相液冷系统(芯片级冷板+背板级双循环)。改造后连续运行6个月的数据显示:
GPU温度稳定在65±1.5℃,温度波动从±6.3℃压缩至±1.4℃
降频事件归零
PUE从1.45降至1.18
训练任务完成时间平均缩短近20%
该中心技术负责人的原话是:“温度曲线从锯齿波变成了一条直线,我们终于不用在晚高峰盯着监控屏了。”
另一个案例来自某省电信机房。该机房原为风冷,PUE常年1.52。采用塔能背板级两相散热系统改造(仅更换机柜后门,无需服务器停机),改造后PUE降至1.20,室外温度低于15℃时实现完全自然冷却。年电费节省约55万元,年节水约6万元。
这些数据说明一件事:两相液冷的TCO优势不是理论推演,而是已经在真实数据中心里兑现的成果。
五、为什么塔能两相液冷能跑出这样的经济账?
从物理原理到工程实践,塔能两相液冷的经济性优势来自四个底层能力:
第一,相变潜热的高效换热。同样的散热需求,两相方案所需的循环流量仅为单相的1/5至1/10。流量小意味着泵小、管细、能耗低。
第二,精准控温带来的硬件寿命延长。温度波动从±6℃压缩至±1.5℃,芯片热应力大幅降低。GPU寿命翻倍,直接反映在更换成本上。
第三,无水设计带来的合规红利。WUE≈0,在缺水地区是重要的合规优势。无需冷却塔、无需水处理、无需担心军团菌,运维工作量同步下降。
第四,全年自然冷却的低PUE。两相系统可接受35-45℃的冷却介质温度,干冷器直接散热,全年大部分时间无需开启制冷机。PUE从1.45降至1.18,电费账单立竿见影地变薄。
这四个能力叠加,构成了塔能两相液冷难以被单相方案追赶的经济性壁垒。
六、谁是主要受益者?
两相液冷的高TCO回报,对不同类型的数据中心意义不同。
AI训练集群是主要的受益者。这类集群GPU数量多、功耗高、负载大,降频损失最严重。某互联网公司的AI训练集群从单相升级两相后,训练任务完成时间缩短近20%,算力有效输出大幅提升。对于按算力时收费的IDC服务商,这意味着更高的单位收入。
缺水地区的智算中心是另一类典型受益者。在华北、西北,一个水审批可能卡住项目半年。两相液冷的WUE≈0直接绕开这道坎,时间成本节省巨大。
金融、政务等高可靠性机房也值得关注。这类机房对“水患”零容忍。传统水冷系统的泄漏风险是悬在运维团队头上的达摩克利斯之剑。两相液冷的密闭介电液体循环,即使泄漏也不会损坏服务器,大大降低了业务中断风险。
高频交易、实时推理等对延迟敏感的场景,两相液冷的±1.5℃精准控温,保证FPGA、GPU等核心芯片不会因温度波动而出现时钟抖动或降频。对这类业务来说,算力稳定性直接等同于收益。
两相液冷的经济账,最终归结为一句话:它不是一个“更好的散热方案”,它是一个“更赚钱的散热方案”。当CFO拿起计算器,2-3个月的回收期和近2000万的年节省,不需要任何技术背景也能看懂。
而这,正是两相液冷从工程师的选型清单,走向董事会决策议程的根本原因。
(本文TCO测算基于塔能科技内部模型及多项目验收报告;行业政策数据来源于工信部公开文件及国家标准全文公开系统)