在深度學習、元宇宙的迅速推動下,大數據分析、高性能計算、人工智能、CAE仿真等領域得到快速發展。
僅2021年上半年,中國新增的人工智能企業就超過30多萬家,一是可見的人工智能公司數量增長,二是越發膨脹的算力需求。
信通院發布的中國算力發展指數白皮書顯示2020年中國智能計算的算力占算力規模的41%。預測到2030年,占比將迅速攀升到70%。
智算中心概念
內涵及功能定位
概念界定
智算中心是基於最新人工智能理論,采用領先的人工智能計算架構,提供人工智能應用所需算力服務、數據服務和算法服務的公共算力新型基礎設施,通過算力的生產、聚合、調度和釋放,高效支撐數據開放共享、智能生態建設、產業創新聚集,有力促進AI產業化、產業AI化及政府治理智能化。
主要內涵
一. 算力公共基礎設施
智算中心麵向政府、行業、企業等多用戶群體提供人工智能應用所需算力服務、數據服務和算法服務,能夠彙聚各行業領域數據資源、支撐各行業領域AI計算需求,智算中心作為公共算力基礎設施,通過提供共性的算力、數據及算法服務,讓算力服務更為易用,使得智慧計算像水電一樣能成為基本公共服務。
二. 計算架構技術領先、生態成熟
智算中心基於AI模型提供高強度的數據處理、智能計算能力,集成先進的智能軟件係統和智能計算編程框架,實現雲端一體化,形成技術領先、可持續發展的高性能、gaokekaojisuanjiagou。zhisuanzhongxinhexinjisuandanyuancaiyongxianjinderengongzhinengxinpian,mianxiangxinxingderengongzhinengchangjing,caiyongyigoujisuan,nengdafutishengduijichusuanlideshiyongxiaolvhesuanfadediedaixiaolv。tongshijichengshengtaichengshudezhinengruanjianxitonghezhinengjisuanbianchengkuangjia,bianyubuduandiedaishengji。
三. 算力、數據和算法的融合平台
智算中心以融合架構計算係統為平台,以數據為資源,以強大算力驅動AI模型對數據進行深度加工,使算力、數據、算法三個基本要素成為一個有機整體和融合平台。智算中心為AI算法研發提供大規模數據處理能力,也為AI產業應用提供充足的計算資源,全麵支撐各類人工智能技術的應用和演進。
四. 以產業創新升級為目標
圍繞智算中心基礎設施建設,以數據流引導技術流、業務流、資金流、人才流聚集,實現以數據驅動產業創新發展新模式是智算中心的核心目標。通過打造人工智能開放服務平台,麵向AI產業、傳統產業提供基於深度學習技術的人工智能算法能力、算法框架和相關接口,全麵彙聚並賦能各產業領域AI應用,助力加速孵化新業態,推進數字經濟與傳統產業深度融合,實現AI與產業的聚合並帶動形成一個多層級的AI產業生態體係,全麵賦能產業創新升級。
功能定位
智算中心是智能時代麵向社會全域多主體的新型公共基礎設施,集算力生產供應、數據開放共享、智慧生態建設和產業創新聚集四大功能於一體,為有海量數據存儲、處理、分析及應用支撐需求的各類場景提供載體支撐。
一. 算力生產供應平台
AI計算是智能時代發展的核心動力。智算中心以數據為資源,以強大算力驅動AI模型對數據進行深度加工,源源不斷產生各種智慧計算服務,麵向全行業領域提供基於深度學習技術的人工智能算法能力、算法框架和相關接口,為政府、企qi業ye及ji科ke研yan院yuan所suo等deng多duo方fang用yong戶hu提ti供gong生sheng產chan生sheng活huo各ge領ling域yu智zhi慧hui服fu務wu,發fa揮hui新xin型xing基ji礎chu設she施shi的de社she會hui價jia值zhi,降jiang低di社she會hui服fu務wu成cheng本ben,讓rang智zhi慧hui計ji算suan服fu務wu更geng快kuai的de普pu及ji到dao每mei個ge人ren、每個企業。
二. 數據開放共享平台
智算中心是新型公共基礎設施,通過全量彙聚各行業領域數據資源,開放共享全麵提升AI算法訓練數據質量。同時,隨著數據彙聚共享能力的提升,通過跨領域數據的多次開發利用,以數據流引領技術流、業務流、資金流、人才流等聚集,深度分析挖掘應用需求,使沉澱的數據資源在各個應用場景中實現價值最大化。
三. 智能生態建設平台
智算中心是集人工智能、大數據、雲計算等多種技術和AI算力服務、數據服務和模型服務於一體的新型IT基礎設施。其廣泛應用將加速推動產業AI化和AI產業化,以智能算力生態聚合帶動形成多層級產業生態體係,賦能多個產業、惠及多類主體,助推數字經濟與傳統產業深度融合,加速孵化新業態。
四. 產業創新聚集平台
以AI算力生產供給為核心的智算中心,麵向政府、企業及科研機構等多主體,圍繞數據、算法和算力三大要素著力構建AI全產業鏈。其通過生產、聚合、調度和釋放算力推動AI 產業要素資源聚集,彙聚不同主體資源優勢打造產業創新聚集平台,在政府主導下,科創企業、科研機構和傳統企業發揮各自在AI方麵的技術優勢、研發優勢和場景優勢,加速AI應用場景落地,助力傳統產業轉型升級,催生經濟新業態新模式,優化公共服務供給。
智算中心基礎設施
隨著旺盛的需求和建設迅速發展,新的問題被提出來。歸納起來為開放、融合、綠色、普惠、服務。
開放
目前,智算中心麵臨的首要問題是開放性。AI應用數量的增加和迭代速度對智算中心的生命力提出挑戰。
智算中心作為一種新型基礎設施,不能僅僅解決材料或基因等某一領域的問題。
同時,智算中心的建設要避免在斥巨資建設智算中心一兩年之後,智算中心的功能就大幅衰減的情況。
關於業界智算中心的建設的兩種思路:
一. 垂直一體化整合模式
每一層由建設者獨立實現,優點是避免不同技術路線之間的適配過程。
二. 多元協作模式
適配難度會大一點,但對開發者更友好,更有利於產業發展。通過芯片、算法、kuangjiahemoxingdequanmiankaifanghejianrong,goujianduoyuanjichengjichujiagou,shixianjisuanjichudezuidayiyongxing,jiangdiqianyichengben,weiweilaikaifazhedailaigenghaodehuanjing,jinertongguojianshezhisuanzhongxin,cujinzhenggechanyeliandejiankangfazhan。
融合
隨著AI技術的不斷發展,各行業對智能化、數字化轉型的認識和需求不斷增強,從產業橫向來看,AI賦能的領域越來越多,從智慧城市到工業製造再到農業生產、科學計算等等。從行業縱向角度來看,AI應用正在從垂直領域逐步向縱深領域發展,以解決行業內部的關鍵問題。
AIyingyongduoyang,duisuanlidexuqiutongyangduoyang。youxieyingyongxuyaogaojingdudesuanli,eryouxiezexuyaodijingdusuanli。hunhejingduheduoyuansuanlichengweizhisuanjichusheshifazhandebiranqushi。
綠色
除了AI的應用越來越多,AI模型的參數和智算中心的算力也在逐年上升。
尤其是現在大模型越來越多,以GTP-3為例,相關數據顯示,如果GPT-3的所有程序都運行一次,該模型產生的碳排放量相當於一輛車行駛70萬公裏,大約是從地球到月球的兩倍距離。
在雙碳目標下,智算中心的節能減排形勢相當嚴峻。
藍海大腦冷板式液態智算中心通過將需要散熱的設備固定在一塊冷板上(通常為銅鋁等導熱金屬構成的封閉腔體),將發熱器件的熱量間接傳遞給循環流動的冷卻液體,液體在通過冷板的時候將設備熱量帶走,以達到散熱的目的。
技術特點
關鍵技術
基於藍海大腦冷板式液態技術已經完全達到了國家要求數據中心碳排放標準,實現從規劃設計、中心建設、到平台運營的完整配套服務,貫穿智算基礎設施的全生命周期。
普惠
目前,智算中心的價格有兩個特點:
一. 貴
作為一種新型的算力基礎設施,如果通過將建設成本轉換為算力單價來計算,算力成本較高。
二. 亂
這是一個新興市場,而算力的價格與智算中心所在地區等多方麵因素有關。
從長遠來看,一定要有非常普惠的算力提供給AI用戶和開發者,讓AI產業持續發展,也能降低各地政府的投資建設壓力。
服務
目前大部分智算中心采用取建、運分離的模式,運營方麵還沒有成熟的商業模式,運營主體普遍處於模糊地帶,有可能出現運營缺乏的情況。
但是,對於要建設智算中心服務區域經濟各地政府來說,智算中心的運營是剛需,是必須要解決的問題。
總結
智算中心的建設仍處於初期階段,要從開放、融合、綠色、普惠、服務五個方麵進行智算基礎設施的建設,提高智算中心的運營效益。
隨著AI產業和產業AI的de不bu斷duan發fa展zhan,智zhi算suan基ji礎chu設she施shi建jian設she熱re度du持chi續xu升sheng高gao。與yu傳chuan統tong的de數shu據ju中zhong心xin相xiang比bi,智zhi算suan中zhong心xin在zai當dang地di產chan業ye經jing濟ji發fa展zhan可ke能neng會hui帶dai來lai更geng明ming顯xian的de作zuo用yong,如ru何he建jian好hao、管好、用好智算中心是一個持續迭代更新的命題。
液冷智算中心案例
隨著數字經濟高速發展,數據量與日俱增,海量的數據處理、存儲、傳輸的過程都離不開智算中心。智算中心作為新基建的重要組成部分,數字經濟的堅實底座,其重要性已上升到國家戰略層麵。
從(cong)需(xu)求(qiu)量(liang)上(shang)看(kan),在(zai)數(shu)字(zi)經(jing)濟(ji)時(shi)代(dai),全(quan)國(guo)的(de)數(shu)據(ju)量(liang)平(ping)均(jun)每(mei)兩(liang)年(nian)翻(fan)一(yi)番(fan),數(shu)據(ju)處(chu)理(li)剛(gang)需(xu)依(yi)然(ran)存(cun)在(zai),可(ke)預(yu)見(jian)智(zhi)算(suan)中(zhong)心(xin)規(gui)模(mo)也(ye)將(jiang)相(xiang)應(ying)地(di)增(zeng)長(chang)。截(jie)止(zhi)至(zhi) 2019 年,全國數據中心產值已達 1,562.5 億元,與 2018 年相比,增長27.2%。預計 2035 年產值將達 6,057.5 億元。
liyonggaoxingnengfuwuqiderengongzhinengjiqunjishu。duogeyelengjiqikeyijujizaiyiqi,yikuodatuntuliang,yijinyibuxunlianhetuilijiasu,bingzhichishushiyizhishuwanyicanshumoxing。daxingshujuzhongxinhegaoxingnengfuwuqitongchangyoushubaidaoshuqiangejiedian,xuyaoshuyuehuoshunianshijiancainengjiancheng,zhanyongshujuzhongxinjiguikongjianjizengjiahaodianliang,bingqietongchangxiyinchaoguo 10MW 的設備。相比之下,每台液冷GPU服務器提供相當於10s-100s傳統節點的計算等價物。此外,冷卻係統、供配電、空調功耗和資源池虛擬化技術的發展和優化,推動PUE 值持續降低,數據中心總體能效水平有所提高。
在以前的20多年裏,大多數智算解決方案都采用行業標準互連的大規模服務器集群。隨著人工智能、dashujudengjishuheyingyongderiyichengshuluodi,shijiyewuduishujuzhongxindengdicengjichusheshidexingnengyaoqiuyuelaiyuegao。xingnengtigaozhijiedaozhifuwuqigonghaobuduanzengjia,youqishixinpianzhichengtishengbianmandaozhigonghaotishengjiasu,tongyong CPU 的 TDP(Thermal Design Power ,散熱設計功耗)持續增加,已從最初的 100W 左右逐步增加到最高可達 400W。單台通用服務器滿載功率已逼近 1 kW,用於 AI 訓練的機器單機功率甚至高達 2.6kW,未來AI 訓練 GPU 單機預計最高可達 10kW。
另一方麵,雲計算數據中心的單體規模越來越大。截止至 2020 年,全國數據中心總機架數約 428.6 萬架。數據中心總機架數增長規律與總產值相似,均以相對穩定地增幅逐步上漲,預計至 2035 年全國數據中心總機架數約 1,491.1 萬(wan)架(jia)。無(wu)論(lun)是(shi)對(dui)於(yu)局(ju)部(bu)散(san)熱(re)還(hai)是(shi)整(zheng)個(ge)數(shu)據(ju)中(zhong)心(xin)散(san)熱(re)而(er)言(yan),風(feng)冷(leng)技(ji)術(shu)均(jun)趨(qu)於(yu)能(neng)力(li)極(ji)限(xian),且(qie)每(mei)年(nian)會(hui)產(chan)生(sheng)大(da)量(liang)的(de)電(dian)力(li)消(xiao)耗(hao),增(zeng)加(jia)了(le)數(shu)據(ju)中(zhong)心(xin)的(de)運(yun)維(wei)成(cheng)本(ben)。
液(ye)冷(leng)技(ji)術(shu)通(tong)過(guo)液(ye)體(ti)作(zuo)為(wei)熱(re)量(liang)傳(chuan)輸(shu)媒(mei)介(jie),達(da)到(dao)降(jiang)低(di)設(she)備(bei)溫(wen)度(du)的(de)目(mu)的(de)。液(ye)體(ti)可(ke)以(yi)直(zhi)接(jie)導(dao)向(xiang)熱(re)源(yuan)帶(dai)走(zou)熱(re)量(liang),不(bu)像(xiang)風(feng)冷(leng)一(yi)樣(yang)間(jian)接(jie)通(tong)過(guo)空(kong)氣(qi)製(zhi)冷(leng)。對(dui)於(yu)密(mi)度(du)高(gao)、規模大、散熱需求高的數據中心優勢明顯。
液冷數據中心解決方案
對於需要最大性能、密mi度du和he效xiao率lv的de大da型xing係xi統tong的de客ke戶hu,高gao性xing能neng服fu務wu器qi提ti供gong液ye冷leng機ji櫃gui,高gao性xing能neng服fu務wu器qi提ti供gong液ye冷leng機ji櫃gui,支zhi持chi高gao性xing能neng計ji算suan配pei置zhi中zhong所suo有you組zu件jian的de液ye體ti冷leng卻que係xi統tong。
這種架構包含許多支持高瓦數CPU和GPU(超過500W)的(de)創(chuang)新(xin)功(gong)能(neng),極(ji)大(da)地(di)減(jian)少(shao)了(le)互(hu)連(lian)布(bu)線(xian)需(xu)求(qiu),降(jiang)低(di)了(le)操(cao)作(zuo)成(cheng)本(ben)。液(ye)冷(leng)式(shi)基(ji)礎(chu)設(she)施(shi)還(hai)帶(dai)來(lai)了(le)更(geng)緊(jin)湊(cou)的(de)係(xi)統(tong)結(jie)構(gou),減(jian)少(shao)使(shi)用(yong)昂(ang)貴(gui)的(de)光(guang)互(hu)連(lian)電(dian)纜(lan)。
此外,其基礎設施經過精心設計,支持多處理器體係結構和加速器選項,至少在未來十年內與下一代CPU、GPU和互連技術保持向前兼容。
機櫃架構
液冷機櫃的計算和交換機基本構件包括:
服務器機櫃:一台機櫃可容納8台機箱,最多支持64個計算刀片和512個處理器。
計算刀片:刀片是機箱中的模塊,包括CPU、結構連接、印刷電路板,以及冷卻和電源組件。預裝四個雙插座節點。從機櫃前部插入機箱。
交換機機箱:可容納8台交換機箱,最多支持64個交換機。從機櫃後部插入機箱。
交換機刀片:包含光纖交換機,電路板,用於連接計算刀片和冷卻所需的所有組件和電源。
每個機櫃包含8個服務器機箱和8個(ge)交(jiao)換(huan)機(ji)機(ji)箱(xiang),直(zhi)接(jie)從(cong)交(jiao)換(huan)機(ji)連(lian)到(dao)刀(dao)片(pian)上(shang),無(wu)需(xu)布(bu)線(xian)。交(jiao)換(huan)機(ji)和(he)交(jiao)換(huan)機(ji)端(duan)口(kou)都(dou)是(shi)直(zhi)接(jie)液(ye)冷(leng)冷(leng)卻(que)。刀(dao)片(pian)垂(chui)直(zhi)放(fang)置(zhi),交(jiao)換(huan)機(ji)水(shui)平(ping)放(fang)置(zhi),交(jiao)換(huan)機(ji)可(ke)以(yi)直(zhi)接(jie)與(yu)刀(dao)片(pian)相(xiang)連(lian)接(jie)。
預裝的液冷計算刀片配備四台雙處理器服務器。所有組件均采用直接液體冷卻方式。機櫃未配置風扇。
網絡
64 口交換機,提供 12.8 Tb/s 帶寬
每個交換機機箱最多支持8個交換機刀片,每個計算刀片最多支持8個光纖連接
每個機箱2個交換機,用於向32個計算節點(8個計算刀片)單點連接 (每個節點一個網絡連接)
每個機櫃有16個交換機,用於向256個計算節點(64個計算刀片)單點連接 (每個節點一個網絡連接)
任何端點間,最多3次連接
電源
液冷機櫃可以支持高達300千瓦的功率。
每麵機櫃都有一係列PDU和整流器,將輸入的480V或400V三相交流電源轉換為380V直流電源,分配給單獨的計算和交換機刀片。計算和交換機刀片上的直流到直流轉換器將輸入的380V直流電源首先轉換為48V直流電源,然後轉換為各種組件的直流電壓。機櫃支持頂部或底部供電。
冷卻
機櫃和所有組件冷卻由貫穿整個計算設施的循環液體完成。冷卻分配單元(CDU)通過數據中心的熱交換器冷卻液體將熱水循環。整個冷卻回路是一個源自CDU的閉環。一個CDU最多可以支持四台液冷機櫃。CDU將冷卻液保持在一定溫度,並通過熱傳遞機製將熱量轉移到數據中心的水裏。
yetilengquetongguoyixilieliuguandaodayelengguizhongdegegedaopianhebujian,zhexieliuguanjianglengqueyecongzhuguandaofenpeidaogegedaopianhejiaohuanji,ranhoujiangredeyetihuiliuguandao。jiguiqianmianpeibeijisuandaopiandelengqueguan,houmianpeibeijiaohuanjidelengqueguan。jisuandaopianhejiaohuanjidaopianzhijiandelianjiekuaisuqiewudilou,kezaibuguanbizhenggexitongdeqingkuangxiaxiexiadaopianduifuwuqijinxingweihu。lengbanzhijiequchuCPU中的熱量。當NIC夾層卡位於CPU上方時,由CPU冷板冷卻。液冷高性能服務器的功率和冷卻預算大大小於風冷裝置。
總結
擴展:機櫃內的無電纜網絡減少外部電纜和光纜。
總體擁有成本TCO:在產品使用壽命內節省電力和水的運營成本。
靈活性:靈活高度集成的液冷基礎設施提供廣泛的計算平台、可升級的網絡解決方案及未來的兼容性。
可靠性:減少電纜使用、無風扇以及高度可靠的電源和冷卻解決方案,有助於提高平台的整體可靠性。
在“marketing@lanhy.cn”獲取完整版《智能計算中心規劃建設指南》完整版。
END