他们用两相液冷赌了一把,结果赢了
来源:塔能 | 作者:小编 | 发布时间: 2026-06-14 20:32:10 | 次浏览


他们用两相液冷赌了一把,结果赢了

半夜三点被温度告警叫醒,是每个数据中心运维主管的噩梦。他们赌了一把,把机房改成了两相液冷——然后发现,自己再也没被叫醒过。

数据中心运维是一条24小时不能下班的战线。最怕的不是故障,而是“狼来了”——半夜三点,温度告警响了,你冲进机房,检查空调、排查冷点、调整风道,折腾两小时,温度降下来了,但也没找到确切原因。这种状态持续了一年多,直到他们做了一个决定:赌一把。

不是换个风扇,不是调个参数,而是把整个机房的散热方案,从风冷改成两相液冷。赌注不小:一次性投入数百万,改造期间不能影响业务,换完之后还不知道效果能不能达到预期。

但账算过之后,不做决定的风险更大。PUE常年1.52,超过当地政策红线,年电费支出比同规模机房多出近百万。这台服务器的风扇已经换了三轮,前两轮都烧坏了——温度太高,风扇长期全速运转,寿命直接腰斩。而真正的刺痛来自某天下午,一台核心训练服务器因温度过高自动关机,AI模型训练中断,三个小时的数据作废,团队复盘到凌晨。

他们问了自己一个问题:如果继续这样下去,下一次宕机会在什么时候?

image.png 

一、试点:从4台机柜开始,赌一个“不可能”

决定不是一蹴而就的。这个团队花了一个月时间调研液冷方案,又用两周时间说服管理层,最后锁定塔能两相液冷 —— 不是因为它最便宜,而是因为它能在不改造服务器的情况下,实现存量机房不停机升级。

第一步只敢试点 4 台机柜。那是一批刚刚服役的高功率 GPU 服务器,单台功率约 700W,单机柜功率 30kW—— 在风冷时代,这个功率密度已经相当高。原方案虽已采用单相水冷板,但这套系统在高负载下暴露了明显的短板。从运维监控数据可见,GPU 温度随训练任务呈周期性波动:业务每两小时一轮训练周期,负载抬升阶段温度攀升、负载瓶颈阶段设备触发降频,温度曲线呈锯齿状起伏,实测峰值 88℃、谷值 65℃,温差波动 23℃。大幅波动带来的交变热应力,持续损耗高价值 GPU 硬件,其中一块 GPU 故障率已显著高于同批次设备。

改造方案用塔能两相液冷的芯片级冷板替换原有的单相水冷头。二者换热原理差异明显:单相依靠介质升温的显热带走热量,冷板进出口温差可达 10-20℃,芯片表面温度分布不均衡;两相依托工质沸腾汽化吸收潜热,换热温度基本保持恒定。

改造安排在周末凌晨窗口期开展,单机柜单次断电约 45 分钟,依次完成旧冷板拆除、新冷板装配、工质加注、设备复电,一个周末完成 4 台机柜试点改造。运维负责人持续跟踪半个月监控数据,原本锯齿状的温度曲线变为平滑直线;原 GPU 运行温度长期在 70~85℃区间波动,改造后整机温度稳定控制在 65±1.5℃。

关键是 —— 这半个月里,没有一次温度告警。接下来,CTO 只问了一个问题:什么时候把剩下的全部改完?

二、全量:40台机柜背后的算账逻辑

第二批改造直接上了40个机柜。决策链条上多了一位CFO,他看重的不是温度曲线有多平直,而是这组数字。

PUE1.45降到1.18,年电费节省约450万元。两相泵耗占比仅5%,年泵耗电费比单相方案节省超100万元。WUE0,年水费节省约17.5万元。运维人员从2人减至0.5人,年节省约18万元。最让人意外的收益来自GPU更换成本的下降——温度波动收窄后,MTBF从约3年延长至6年以上,年更换成本节省超1300万元。四项合计,年运营节省约1950万元。初始投资差价约300-450万元,不到3个月就能收回成本。

CFO看完数字,批复意见写了一句话:需要技术可行性确认,如果可行,按计划执行。

 

项目组需要证明两相液冷不是实验室花拳绣腿,而是能在真实数据中心连续稳定运行的工程方案。他们拿出了塔能两相液冷系统在某智算中心同款方案连续运行6个月的稳定性数据:芯片温度波动≤±1.5℃,冷板温度波动≤±0.01℃,无因散热导致的服务器宕机或降频事件。所有数据均有项目验收报告和动环监控记录可查。

image.png 

三、今天:那个运维负责人的新“烦恼”

一年后回访,运维负责人说了一句耐人回味的话:“显著的变化是——我的手机晚上不响了。”

之前机房空调全靠手调——夏天要调冷机出水温度,冬天又要调回来,每年至少折腾4次,还经常调不对,造成局部热点。新系统用智能控制器按室外温度自动调节干冷器风机转速,室外温度低于15℃时自动切换自然冷却,年制冷机运行不足2000小时。

参数设置不再需要频繁介入,塔能CDU的控制器只需设定目标温度,系统自动维持。日常巡检从每天变成每周,重点从“排查隐患”变成了“优化能效”。运维团队从“救火队”变回了“管理者”。

另外一个显著的改善是机房的听觉环境。风冷时代服务器内部风扇全速运转时噪音达75-80dBA,在机房内说话要靠喊。两相改造后芯片温度稳定,CPU/GPU不再过热,服务器内部风扇转速大幅降低。现有机房噪音已降至约58dBA,接近开放式办公区环境,运维人员的工作压力随之下降。

image.png 

四、两相液冷的产业逻辑:从“被迫改”到“主动改”

这个案例折射出两相液冷市场正在经历的三个结构性变化:

第一,改造动机变了。以前做液冷是为了拿补贴、树标杆,属于 “锦上添花”。现在不做液冷,PUE 过不了红线,差别电价直接吞噬利润,属于 “雪上加霜”。工信部等六部门《关于组织开展 2025 年度国家绿色数据中心推荐工作的通知》明确要求 PUE 不高于 1.30,能效等级需达到 GB 40879-2021 中的 2 级及以上水平。北京自 2026 年起对 PUE 高于 1.35 的数据中心征收差别电价,上海以 1.25 作为新建智算中心硬门槛。合规,第一次跑在了成本前面。

第二,技术验证从 “相信参数” 到 “相信案例”。2023 年液冷改造还要靠厂商提供实验室数据来说服客户;2025 年只需要带客户去看一个同行的机房,听听运维负责人的真实反馈。两相液冷的工程成熟度已从 “有没有问题” 进阶到 “效果有多好”,行业标杆项目的示范效应正在加速技术扩散。

第三,两相液冷正从可选方案走向主流方案。据权威机构行业统计数据,中国液冷服务器渗透率已从 2021 年不足 3% 提升至 2025 年约 20%,预计 2026 年跃升至 37%2027 年有望突破 50%2026 年中国液冷服务器市场规模有望达 257 亿元;全球 AI 数据中心液冷渗透率从 2024 年的 14% 提升至 2025 年的 33%,并在 2026 年继续上行至约 40%,该数据依托头部服务器厂商招标订单、在建算力项目摸排测算得出。

工业和信息化部等四部门联合印发的《节能装备高质量发展实施方案(20262028 年)》明确提出数据中心 PUE 管控目标进一步收紧。在国际层面,欧盟碳边境调节机制(CBAM)已于 2026 1 1 日结束过渡期进入正式实施期,现阶段征税品类仅限六大高耗能工业品,暂未直接将云建站、IDC 托管纳入征税目录,但 CBAM 要求产品全生命周期核算碳排放,制造业出口产品配套 IDC 用电产生的间接碳排放会纳入碳足迹核算,后续 CBAM 扩容落地后影响将进一步加深,数据中心作为上游电力消耗大户,其散热系统的能效将直接影响出口企业的碳足迹核算与合规成本。

政策在逼、碳关税在推、运维团队在用脚投票 —— 两相液冷正在从 “要不要改” 变成 “什么时候改”。决策的早晚,最终会体现在两个数据上:PUE 值和电费账单。

五、结语:信任不是凭空产生的

回到故事开头,运维负责人说:“我最纠结的时候,是做完试点、还没看到数据的那两周。如果赌输了,不止是钱的问题,是整个团队的信誉。”

他没有输。那个机房的温度曲线从曾经的“过山车”变成了一条“平直线”,已经接近半年没有出现过温度告警。运维团队终于可以安心睡觉了。偶尔半夜醒来,下意识摸手机看监控——一切正常,翻个身继续睡。

而这,或许就是两相液冷技术最真实的检验标准。

 

(本文案例素材来源于塔能科技项目报告及匿名客户运维团队访谈,已做脱敏处理。政策数据来源于全国标准信息公共服务平台公开标准文件及各地政府官方网站发布的通知、方案。市场数据来源于中商产业研究院、IDC等公开行业报告。)