導語
1.“數據、算法、算力”是數字經濟時代的三大核心要素,其中算力是數字經濟的物理承載。
2.目前,算力已經成為全球戰略競爭的新焦點和國家經濟發展的重要引擎。世界各國的算力水平與經濟發展水平呈正相關。
3.xiamiantongguosigemokuai,congweiguandaohongguan,xiangxifenxiyuxingnenghesuanlixiangguandeyinsuyijisuanlipingtai。jinkenengzhimiandangqiansuanlitishengsuomianlindetiaozhanhekunnan,zhanwangweilaisuanlidefazhanqushi。
1 算力綜述
隨sui著zhe數shu字zi經jing濟ji時shi代dai的de到dao來lai,各ge種zhong各ge樣yang的de應ying用yong都dou需xu要yao強qiang大da的de算suan力li支zhi持chi。無wu論lun從cong單dan個ge設she備bei角jiao度du,還hai是shi萬wan千qian設she備bei組zu成cheng的de宏hong觀guan算suan力li角jiao度du,都dou需xu要yao持chi續xu的de算suan力li來lai支zhi撐cheng數shu字zi經jing濟ji的de繁fan榮rong發fa展zhan。
根據馮·諾依曼架構,可以繪製出一個典型服務器模型。一個服務器,由核心的處理邏輯、分層級的寄存器、緩存、內存、本地外存四級的暫存存儲(雲服務器本地存儲也是暫存,關鍵的數據必須存儲到遠程存儲集群)、以及通過網絡的輸入/輸出三部分組成。
站在處理器中處理邏輯部分角度,不管是從各級暫存還是從網絡 I/O,都是數據的輸入/輸出。因此,計算模型可以簡單的分為兩部分:數據處理和數據輸入輸出。並且,係統性能 = 最小值(數據處理能力,數據輸入/輸出能力)。
隨著更大規模計算需求的發展,逐漸形成複雜的存儲分層結構。計算和 I/O 之間的不匹配導致複雜的存儲分層結構,而複雜的存儲分層結構一方麵增加功耗,另一方麵限製性能進一步提升。
影響性能的三個主要因素
這裏說的性能,指的是單位處理器的性能。衡量一個處理器的性能,通常有三個因素:
一、“指令”複雜度,類似於單位時間加工的零件數量,指的是單個指令中計算的密度。
指令是軟件和硬件的媒介,指令的複雜度(單位計算密度)決定係統的軟硬件解耦程度。按照指令的複雜度,典型的處理器平台大致分為CPU、協處理器、GPU、FPGA、DSA、ASIC。任務在CPU運行,則定義為軟件運行;任務在協處理器、GPU、FPGA、DSA或ASIC運行,則定義為硬件加速運行。
魚和熊掌不可兼得,指令複雜度和編程靈活性是兩個互反的特征:指令越簡單,編程靈活性越高,因此才說軟件有更高的靈活性;指令越複雜,性能越高,因此而受到的限製越多,隻能用於特定場景的應用,其軟件靈活性越差。
二、運行速度,即運行頻率,類似於一個小時的單位時間數量,指的是1秒鍾時鍾周期變化的數量。
頻率越高,計算速度越快。不考慮其他因素製約,計算速度和頻率是正比關係。而頻率受電路中的關鍵路徑(延遲最大路徑)約束,兩者呈反比關係:關鍵路徑越短,頻率則越高。頻率受關鍵路徑製約,而關鍵路徑與兩個因素有關:
因此,想要優化頻率,就要優化關鍵路徑:一(yi)個(ge)是(shi)優(you)化(hua)關(guan)鍵(jian)路(lu)徑(jing)的(de)邏(luo)輯(ji)門(men)數(shu)量(liang),另(ling)一(yi)個(ge)則(ze)是(shi)優(you)化(hua)單(dan)個(ge)邏(luo)輯(ji)門(men)延(yan)遲(chi)。當(dang)邏(luo)輯(ji)門(men)延(yan)遲(chi)越(yue)小(xiao),或(huo)兩(liang)級(ji)寄(ji)存(cun)器(qi)之(zhi)間(jian)的(de)邏(luo)輯(ji)門(men)數(shu)量(liang)越(yue)少(shao),則(ze)頻(pin)率(lv)越(yue)高(gao),計(ji)算(suan)速(su)度(du)也(ye)越(yue)快(kuai)。
三、並行度,類似於團隊的成員數量,指的是多個並行的處理。
並行設計在硬件邏輯設計裏非常常見。如:
指令流水線:指令流水線是一種時間並行,在同時有多條指令處理流水線的不同階段,相當於有多條指令在並行處理
指令多發射(Multiple Issue):一條流水線,從指令緩衝區一次發送到譯碼階段就有多條指令,然後在執行階段也是多條指令並行
超線程(Hyper-Thread):在一個處理器核內部,多組不同的指令流處理,分時共享處理器核內部的各種硬件資源,達到更佳的資源利用率,提升整體性能
多總線:如,指令、數據總線分開,多數據總線等設計,進一步增加處理器的數據處理帶寬
多核技術:通過一些內部互聯總線,把多個處理器核集成到一塊芯片內,以此來提升綜合性能
多處理器芯片:受限於芯片工藝、功耗水平、設計架構,單芯片內的多核互聯不能無限製增加下去,也可以通過一些芯片間互聯技術,把多個 CPU Socket 連成一個NUMA係統,當前比較常見的是2-8個 Socket 互聯架構
總線:對並行總線來說,增加數據線的寬度,對增加總線的帶寬是顯而易見的,並行總線一般用於芯片內部邏輯通信;串行總線,例如 PCIe,相比 PCI 並行總線,一方麵可以快速提升頻率,還可以通過很多組串行線組合通信來提升傳輸性能,串行總線一般用於芯片間數據通信。
異構計算單元:CPU 和 GPU、xPU 以及各種硬件加速器組成異構多處理單元共同協作完成工作任務,CPU 更多的是承擔控製和數據交互的角色。
多服務器集群:現在大型的互聯網係統需要成百上千的服務器,分為業務處理、網絡處理、存儲和數據庫處理等不同功能分工的服務器,共同組成一個性能強大並且運行穩定的係統對外提供服務。
通過不同方向、不同層次的並行技術,都可以提升硬件係統的性能。把不同複雜度的單位處理都當作“指令”。那麼,我們就可以通過 IPC(Instruction per Cycle)來評價並行度。對一個 CPU 核來說,IPC 代表每個周期執行的指令數;對一個硬件加速模塊來說,IPC 則代表一個周期所能進行的單位處理的數量。
簡潔明了的用公式表示性能和三者的關係:
(單個處理器)性能 = 指令的複雜度(單位計算密度) x 頻率 x 並行度
宏觀的算力
xingnengshiweiguandegainian,daibiaodangegetijisuannengli。ersuanlizeshihongguandegainian,suanlishihenduogetijisuannenglizonghe。weilebimianhunxiao,womencaiyongzongsuanlidejiaofa。
在前麵已經介紹單個個體的性能(在泛I/O不拖後腿的情況下):
(單個處理器)性能 = 指令的複雜度(單位計算密度) x 頻率 x 並行度
那麼總算力則和單個處理器性能以及處理器的數量成正比:
總算力 = (單個處理器)性能 x 處理器的數量
雖然總算力可以很高,但如果因為各方麵原因,其利用率不高,則也不夠好。因此:
實際總算力 = 總算力 x 利用率
= 指令的複雜度(單位計算密度) x 頻率 x 並行度 x 處理器的數量 x 利用率
相關的若幹因素總結一下,要提高宏觀的實際總算力,就必須要:
1.提高指令的複雜度(單位計算密度)。新的 DSA 架構創新,均衡考慮不同的算力平台,以及通過異構和超異構計算,融合多種平台一起協作,完成係統級計算。
2.提高運行頻率。優化設計,選擇最優的流水線級數以及工藝等的持續進步,優化係統的運行頻率。
3.提高並行度。更高的擴展性(Scalibility),更高性能的各層級互聯總線,並行更多處理引擎。
4.優化 I/O 和處理的匹配度。通過工藝和封裝優化,實現更加匹配計算和 I/O 匹配。
5.實現處理器芯片更大規模落地。均衡芯片整體性能和靈活可編程能力,實現宏觀總算力最大化。
6.進一步優化宏觀算力利用率。算力上規模後,通過雲計算、邊緣計算、超雲、雲網融合等手段,持續優化算力利用率,降低算力成本。
簡單來說說,算力提升核心就兩個方麵:
1.增大規模(Scale out),通過擴大算力基礎設施建設,以及“東數西算”等方式,構建更大規模並且低能耗的現代化數據中心。
2.提升單個計算節點性能(Scale up),構建新一代創新計算範式,要把算力再持續提升1-2個數量級,並且能夠提供非常好的易用編程能力,來持續應對未來10年更加複雜係統的算力需求爆炸挑戰。
藍海大腦作為領先的數字基建提供商,將積極發揮產品和技術優勢,提供先進算力支持。
2 三大主流計算平台CPU、GPU和DSA
CPU
在手機端已經非常成熟的SOC實現,為什麼在數據中心端沒有大規模應用?為什麼直到現在,數據中心依然是以CPU為主的計算平台?這主要源於越是複雜的場景,對軟件靈活性的要求越高,而隻有CPU能夠提供雲場景所需的靈活性。
超大規模複雜計算場景對硬件靈活性的要求,主要體現在四個方麵:
靈活性。硬件處理引擎要能夠很好地支持軟件快速迭代。CPU 其靈活基礎指令編程的特點,可以認為是最適合雲計算的處理引擎。
通用性。廠家購買服務器,很難預測服務器會運行哪類任務。最好的辦法是采用完全通用服務器。CPU 其通用性,成為雲計算場景最優選擇。
利用率。雲計算通過虛擬化把資源切分,實現資源共享,以此提高資源利用並降低成本。而目前,隻有 CPU 能夠實現非常友好的硬件級別的虛擬化支持。
一致性。雲計算場景,軟硬件相互脫離。同一軟件實體會在不同的硬件實體遷移,同一硬件實體也需要運行不同的軟件實體。而 CPU,是一致性最好的硬件平台。
GPU與NP
網絡處理器(Network Processor,簡稱NP)跟 GPU 在技術理念上有很多相似之處:都是通過特定優化的、高效能的小 CPU 核組成的眾核係統,並行的完成計算任務。根據“指令”複雜度,從 CPU 到 ASIC 的劃分,NP 和 GPU 處於相同的位置。
NP 具有如下的一些不足:
性能。雖然相比 GPU,性能是在同一層級,但相比 ASIC/DSA 性能不夠。
場景。NP主要用於網絡場景的處理,沒有像 GPU 那樣作為通用並行計算,GPU可以用於非常多的高性能場景。
開發和生態。GPU 由於 NVIDIA CUDA 的強大生態,框架、工具鏈、開發庫都非常成熟。而 NP 由於生態的不成熟,以及各家 NP 之間也基本互不兼容,開發者需要了解底層的硬件細節,致使編程難度很大。
NP 在網絡領域有一定範圍采用,但網絡領域更主要的處理引擎是網絡 ASIC,這些年還興起網絡數據麵可編程的網絡 DSA,都是相比 NP 架構具有更極致的性能。正因為 NP相比 ASIC/DSA 的性能不足,以及相比 GPU 覆蓋的場景有限,這樣的 “高不成,低不就”,導致其一直沒能成為(相比 GPU 而言)主流的通用計算平台。
DSA
DSA 針對特定應用場景定製處理引擎甚至芯片,支持部分軟件可編程。DSA 與 ASIC 在同等晶體管資源下性能接近,兩者最大的不同在於是否可軟件編程。ASIC 由於其功能確定,軟件隻能通過一些簡單的配置控製硬件運行,其功能比較單一。而 DSA 則支持一些可編程能力,使得其功能覆蓋的領域範圍相比 ASIC 要大很多。
DSA,一方麵可以實現 ASIC 一樣的極致性能,另一方麵,可以像通用 CPU 一樣執行軟件程序。當然,DSA 隻會加速某些特定領域應用程序。例如:用於深度學習的神經網絡處理器以及用於 SDN 網絡可編程處理器。
CPU、GPU和DSA的優劣勢分析
藍海大腦液冷GPU服務器搭載於 NVIDIA 4 × A100 / 3090 / P6000 / RTX6000;使用 NVLink + NVSwitch 的最高GPU通信;4個用於 GPU Direct RDMA 的 NIC(1:1 GPU比率);最高4 x NVMe 用於 GPU 係統盤,帶有 AIOM;雙電源冗餘供電係統、防雷擊、防浪湧保護。
3 麵向未來十年的新一代計算架構
未來十年的新一代計算架構的一些設計目標——基於軟硬件融合架構(CASH,Converged Architecture of Software and Hardware)的超異構計算:
1.性能。讓摩爾定律繼續,性能持續不斷地提升。相比 GPU,性能再提升100+倍;相比 DSA,性能再提升10+倍。
2.資源效率。實現單位晶體管資源消耗下的最極致性能,極限接近於 DSA/ASIC 架構的資源效率。
3.靈活性。給開發者呈現出的是極限接近於 CPU 的靈活性、通用性及軟件可編程性。
4.設計規模。通過軟硬件融合的設計理念和係統架構,駕馭 10+ 倍並且仍持續擴大的更大規模設計。
5.架構。基於軟硬件融合的超異構計算:CPU + GPU + DSA + 其他各類可能的處理引擎。
6.生態。開放的平台及生態,開放、標準的編程模型和訪問接口,融合主流開源軟件。
4 宏觀算力建設
數字經濟時代,不斷增強算力,不斷降低算力成本。一方麵,我們可以以相同的價格,可以獲得更多更豐富的算力;另一方麵,是降低算力獲取門檻,實現算力普惠。
持續不斷的提升算力,降低成本,實現算力普惠
suizheshuzijingjijianshezhubushenru,duisuanlixuqiubuduantigao。zaigonghaohechengbenbubianqingkuangxia,tongguojiagouchuangxin,tishengxinpianxingneng。ruguowomennenggoubaxinpianxingnengtisheng10倍,在同樣規模下,意味著10倍的宏觀算力提升,也意味著單位算力成本和功耗均降低到1/10。也就意味著,對用戶來說,可以以同樣價格獲得更多更豐富算力資源。
xinpianyicixingchengbenjigao,xinpiantongyongxingkeyiquebaoxinpiandaguimofuzhi。erdaguimofuzhidexinpian,jiuyiweizhewuxiantanboxinpiandeyanfachengben。xingnengtisheng,chengbenjiangdi,yiliyiwaideyoushi,quebaoxinpianhexinjingzhengli。
並bing且qie,通tong過guo算suan力li提ti升sheng,以yi及ji成cheng本ben和he功gong耗hao降jiang低di,可ke以yi降jiang低di算suan力li使shi用yong門men檻kan,使shi得de更geng多duo用yong戶hu能neng夠gou享xiang受shou算suan力li的de便bian捷jie。在zai數shu字zi經jing濟ji世shi界jie裏li,大da家jia共gong享xiang技ji術shu發fa展zhan帶dai來lai價jia值zhi紅hong利li。
建設宏觀經濟,首先需要的是IT基礎設施。藍海大腦作為中國領先的IT基礎設施提供商,可以提供服務器、存儲、網絡、5G雲網融合產品等IT基礎設施。