业界
国金证券:液冷时代来临 有哪些受益环节值得关注?
国金证券发布研报称,英伟达今年即将发布其专为AI推理时代而打造的AI服务器NVIDIA DGX GB300 NVL72,超高的芯片运算能力使得热设计功耗进一步提升,传统风冷散热技术难以满足较高TDP的散热需求,GB300服务器采用完全液冷式机架设计,引领AI服务器液冷的新潮流。据IDC预计,24-29年,中国液冷服务器市场年复合增长率将达到46.8%,29年市场规模将达到162亿美元。建议关注冷板式、浸没式及喷淋式等产业链环节。
国金证券主要观点如下:
液冷技术的发展路径如何?
随着单芯片及机柜级功率密度提升,传统的风冷方案难以充分冷却设备,一般认为机柜功率密度20 kW以上的人工智能集群不适宜采用风冷方案,英伟达GB300 OEM/ODM厂商均采用全液冷架构。
现有液冷方案众多,主要包括冷板式、浸没式及喷淋式。在这些液冷方案中,冷板式技术较为成熟,应用较为广泛,但是冷却效果上限较低;浸没式和喷淋式液冷的冷却效果优异,但是经济成本较高,同时对使用材料要求较高。
冷板式液冷有哪些重要产业链环节?
冷板式液冷是大规模及存量数据中心改造主流方案,原理即冷却液通过冷板捕获芯片热量后,输入至CDU与一次侧交换热量,最后通过冷却塔等设施输出至外界环境,完成散热;通常由冷量分配单元CDU、冷板、循环管路、快接头UQD和分水器Manifold等组成。
1)冷量分配单元CDU:冷板式液冷系统的“心脏”,工作原理是通过内部的换热器将二次侧吸收的高温冷却液与一次侧的冷冻水等介质进行热交换,机组的主要性能取决于循环泵和热交换器的性能。
2)冷板:直接承担热捕获的组件,将服务器中GPU等高发热部件的热量,通过金属基导热材料传递给流动的冷却液。冷板的底面平整度与微观粗糙度直接影响与芯片接触界面的热阻,内部空心通道结构决定流体力学性能及热量捕获效率,评估冷板性能的核心指标是压降和热阻,两个指标除了与冷板微通道结构设计相关,还可以通过相变技术优化。
3)冷源:热传递至环境的最后一个过程、整体冷量的
浸没式液冷有哪些重要产业链环节?相较于冷板式有哪些变化?
浸没式液冷是将发热的电子元器件完全浸没在绝缘冷却液中,通过液体的高热容量和导热性能实现热量的快速捕获与传导;其通用架构与冷板式一致,二次侧由冷却池、冷却液、热交换器和循环泵组成。
相较于冷板式,浸没式液冷:
1)二次侧结构更加简单,仅依赖一个密封的浸没槽、循环泵与热交换单元即可支撑成百上千节点的统一冷却,不需要为CPU、GPU等高发热部件定制冷板、manifold、快接头等部件。
2)冷却液材料选择更加谨慎,单相浸没液冷需要选择高沸点的油类冷却液,防止冷却液在升温状态下挥发,两相浸没液冷则通常选择低沸点的氟化液。但从国际环保趋势来看,数据中心或将被限制大量使用氟化液作为冷却工质。
3)与数据中心IT设备的兼容要求提高,主要的存储设备包括传统机械硬盘和固态硬盘,目前HDD仍是数据中心主要存储方案,但HDD无法直接置入冷却液中工作,SDD的兼容性更高。
喷淋式液冷有哪些重要产业链环节?相较于冷板式有哪些变化?
喷淋式液冷是冷却液通过重力或系统压力直接喷淋在服务器CPU、GPU等高发热部件表面或相连的导热材料上,实现点对点的高效热量捕获与传导;其二次侧由热交换器、分液管、喷淋液冷机柜和循环泵组成。
相较于冷板式,喷淋式液冷:
1)无相变模式,冷却液始终以液体形式循环,且由于冷却液直接接触芯片,因此需要选择高沸点、绝缘导热、抗氧化的冷却工质。
2)点对点精准布置,可以根据服务器发热体位置和发热量大小,对布液板做精准设计,使冷却液以按需供给且流量可控的方式精准喷淋到发热部件上。
上游有哪些方向值得关注?
1)电子氟化液:浸没式与喷淋式液冷由于冷却液需要直接接触电子器件,因此对于绝缘性、腐蚀性等性能有着较高的要求,当前符合要求的材料主要是电子氟化液,这类材料拥有高绝缘性、不易燃、低毒无腐蚀性、热稳定性及化学稳定性良好等优异的性质,同时可以根据不同的组分占比调节沸点。
2)高效TIM材料液态金属:浸没式的整体高效散热方式对部分低功率的发热组件来说并不经济,预测未来液冷的主流发展方向将会是对于主要高功耗的CPU采用浸没式液冷,对于其他发热元件采用两相冷板进行散热,热界面材料涂敷在散热器件与发热器件之间,可以极大提高两相冷板的散热性能。
由于硅材的可靠性较弱,容易出现相分离现象导致导热性能大打折扣,当前主要电子芯片的导热材料转换成了相变化材料;而在一些高端的电子芯片产品中会使用导热系数最高、较为昂贵的相变化金属片,即铟、镓等液态金属。液态金属TIM材料完美兼容GPU、CPU的导热需求,并且对与冷板式和浸没式液冷均可使用,是当前高端芯片最为理想的导热材料,可以配合几乎所有的散热方式与材料,也是未来主流的芯片导热材料之一。
液冷领域有哪些相关标的值得关注?
算力需求不及预期,芯片供应能力不及预期,国际贸易摩擦风险;下游需求增长不及预期风险,技术发展不及预期风险,AI发展不及预期风险,项目进展不及预期风险,市场竞争加剧风险,安全生产及环境保护风险;AI商业价值不及预期、供应链集中度过高、行业监管加剧。