導語
隨著互聯網、大數據、雲計算、高性能計算的快速發展,數據中心麵臨著嚴峻的挑戰。主要歸結於GPU驅動應用程序推動,使得業務和IT增長需協調一致。隨著數據中心內部溫度升高,運營商正爭先恐後地尋找可行、更節能的散熱解決方案。在此我們將討論其中最可行和最實用的冷卻方法,並對比分析風冷冷卻和液體冷卻。
1 冷卻技術運作原理
風冷冷卻
傳統的風冷數據中心通過空氣處理機上的進氣口將外部空氣帶入。空氣被計算機房空調(CRAC)單元冷卻,然後在高架地板帶動下進入服務器機架"冷過道"。冷空氣通過並冷卻服務器,然後離開"熱通道",通過充氣室排放返回空氣處理器。
液體冷卻
液體冷卻的工作原理是:液體相較於空氣是更好的熱導體。
2 複雜性和前期成本
風冷冷卻
看似簡單的服務器機架係統實際上有很多活動部件:gaojiadiban,tongdaoezhicelve,lengqueqi,kongqichuliqi,shidukongzhi,guolvxitonghezengyashidemouzhongzuhe。weilezhichishangshugongneng,fenglengshujuzhongxinhaibixuyunxingxiangduijiaodadefuzhujichusheshi(特別是備用發電機、UPS和電池)。
這些必要的複雜性等同於相對較大資本支出(CAPEX)。
液體冷卻
自 2009 年開創該技術以來,一直在挖掘液體冷卻的最大價值(簡單性)。
考慮隻需三個活動部件:冷(leng)卻(que)液(ye)泵(beng),水(shui)泵(beng)和(he)冷(leng)卻(que)塔(ta),幹(gan)式(shi)冷(leng)卻(que)風(feng)扇(shan),並(bing)且(qie)不(bu)需(xu)要(yao)高(gao)架(jia)地(di)板(ban),也(ye)不(bu)需(xu)要(yao)通(tong)過(guo)通(tong)道(dao)封(feng)閉(bi)浪(lang)費(fei)空(kong)間(jian)。液(ye)體(ti)冷(leng)卻(que)可(ke)以(yi)將(jiang)數(shu)據(ju)中(zhong)心(xin)的(de)資(zi)本(ben)支(zhi)出(chu)降(jiang)低(di)50%甚至更低。
由於機架可以緊密地間隔在一起,液體冷卻不需要對氣流進行CFD分析,甚至可放置在裸露的混凝土地板上。電氣支持係統縮小尺寸。
在假設簡單性會影響性能之前,補充一點說明GRC ICEraQ™係統可以輕鬆冷卻100 kW /機架(甚至更高),遠遠超過最好的風冷操作能力。
3 效率和運營費用
風冷冷卻
顯而易見空氣是比液體更有效的熱導體(效率低1200倍) 。不僅使風冷數據中心本質上效率降低,而且會產生連鎖反應,對運營費用產生嚴重影響。
風扇占服務器功耗的20%。為提高空氣有效性,需冷卻器和空氣處理器等消耗能源的製冷組件。這些反過來又會影響電力基礎設施規模。
鑒於上述情況,風冷冷卻需要數據中心技術中極高的運營費用,同時大約產出1.35至1.69的PUE。
液體冷卻
用三個移動部件(GRC移除風扇以優化服務器浸入式),零製冷組件,大大降低基礎設施要求,液體冷卻使冷卻能量減少90%,數據中心總能耗降低50%。因此,可以實現<1.03的PUE。
從電力角度來看,風冷冷卻基礎設施不僅增加成本,而且還可能附帶高昂的維護費用。液體冷卻則沒有這些問題。
4 冷卻能力和高密度性能
風冷冷卻
確實,一些風冷數據中心能夠冷卻30-35 kW機架。但實際上,風冷數據中心在15 kW 機架以上非常低效。
行業趨勢使形勢變得更為嚴峻。耗電 GPU 正在進軍,以應對物聯網和 AI 等 HPC 應用。用一個例子說明,英特爾®的新Skylake版本消耗高達250 W的能量。將其中兩個放在1U服務器上,為其他電子設備添加200 W以上,乘以40服務器,基於CPU的係統則有28 kW。添加處理器和加速器,將遠遠超出風冷冷卻的限製。
為滿足以上需求,數據中心運營商傾向於創建混合密度的機架。就風冷而言,不可避免地會導致熱點,從而導致硬件故障。
值得一提的是,硬件演變將為風冷數據中心的運營商(下一次硬件更新)帶來真正的清算時刻。
液體冷卻
GRC ICEraQ™ 和 ICEtank™ 係統通過精心設計突破熱障,將數據中心計算帶入下一次演進,甚至更進一步。任何一種解決方案都可以輕鬆冷卻每個機架高達100 kW的功率,理論上與冷卻液一起使用時可以冷卻高達200 kW的功率。
4 可靠性和位置靈活性
風冷冷卻
任何風冷冷卻技術都注定要麵臨硬件可靠性問題。究其原因在於IT資產暴露於潛在有害的空氣汙染物以及空氣本身的不利影響(主要指腐蝕和氧化)。
風險取決於空氣質量和無調節空氣本身的自然濕度水平。顯然,濕度高、空氣汙染或風吹顆粒物的地方都可能會對數據中心造成嚴重破壞。隨著對遠程邊緣部署的需求增加,這些問題也會凸顯出來。
說到位置靈活性,風冷冷卻固有的複雜性和巨大的基礎設施要求為數據中心的放置帶來重大障礙。
綜上所述,即便采用最佳的通道布置方法,傳統的風冷冷卻也會產生導致硬件故障的熱點。
液體冷卻
三個主要因素使液體冷卻在此類別中得分最高:
市場上最簡單實用冷卻形式。出錯的更少:沒有冷卻器,空氣處理器,濕度控製等;並且沒有服務器風扇來產生可以增加MTBF(平均故障間隔時間)的振動。
沉浸式處理,使IT資產與外部空氣完全隔離,從而消除環境問題。
數據中心中沒有熱點。事實上,ICEraQ或ICEtank係統中的任何兩個點都在兩個溫度範圍內工作。
5 藍海大腦水冷GPU服務器
基於藍海大腦超融合平台的水冷GPU服務器及水冷GPU工作站采用 Gluster 分布式架構設計提供大存儲量,擁有開放融合的特性和超能運算的能力。支持多塊GPU顯卡,提供出色的靜音效果和完美的溫控係統。借助 NVIDIA GPU計算卡可加快神經網絡的訓練和推理速度,更快地創作精準的光照渲染效果,提供高速視頻、圖像、聲音等處理能力,加速AI 並帶來更流暢的交互體驗。
6 總結
zongshangsuoshu,suizheshujuzhongxindeguimoyuelaiyueda,bushudejijiayuelaiyuemiji,duifuwuqifuzaideyaoqiuyuejiakeke,chuantongdefenglenglengquejishubuzaimanzushujuzhongxindezhilengyaoqiu。weijiejuezhegewenti,henduoqiyezaiqishujuzhongxinkaishicaiyongyetilengquejishu。