工控自動化技術文摘：誰能在第四代算力革命中脫穎而出?CPU?GPU?算法？數據？

Warning: file_put_contents(Tpl/kadhoai.com.cn//cache_html/7db26f576db8fc0a4da020fbfed95fcd): Failed to open stream: No space left on device in /www/wwwroot/www.Jx.com/index.php on line 151
工控自動化技術文摘：誰能在第四代算力革命中脫穎而出?CPU?GPU?算法？數據？

首頁新聞工控搜論壇廠商論壇產品方案廠商人才文摘下載展覽


P L C \| 變頻器與傳動 \| 傳感器 \| 現場檢測儀表 \| 工控軟件 \| 人機界麵 \| 運動控製 D C S \| 工業以太網 \| 現場總線 \| 顯示調節儀表 \| 數據采集 \| 數傳測控 \| 工業安全電源 \| 嵌入式係統 \| PC based \| 機櫃箱體殼體 \| 低壓電器 \| 機器視覺	工控搜索快.專.準

誰能在第四代算力革命中脫穎而出?CPU?GPU?算法？數據？
金藍海科技有限公司

導語

1.“數據、算法、算力”是數字經濟時代的三大核心要素，其中算力是數字經濟的物理承載。

2.目前，算力已經成為全球戰略競爭的新焦點和國家經濟發展的重要引擎。世界各國的算力水平與經濟發展水平呈正相關。

3.xiamiantongguosigemokuai，congweiguandaohongguan，xiangxifenxiyuxingnenghesuanlixiangguandeyinsuyijisuanlipingtai。jinkenengzhimiandangqiansuanlitishengsuomianlindetiaozhanhekunnan，zhanwangweilaisuanlidefazhanqushi。

1 算力綜述

隨sui著zhe數shu字zi經jing濟ji時shi代dai的de到dao來lai，各ge種zhong各ge樣yang的de應ying用yong都dou需xu要yao強qiang大da的de算suan力li支zhi持chi。無wu論lun從cong單dan個ge設she備bei角jiao度du，還hai是shi萬wan千qian設she備bei組zu成cheng的de宏hong觀guan算suan力li角jiao度du，都dou需xu要yao持chi續xu的de算suan力li來lai支zhi撐cheng數shu字zi經jing濟ji的de繁fan榮rong發fa展zhan。

微信圖片_20220303094118.jpg

根據馮·諾依曼架構，可以繪製出一個典型服務器模型。一個服務器，由核心的處理邏輯、分層級的寄存器、緩存、內存、本地外存四級的暫存存儲（雲服務器本地存儲也是暫存，關鍵的數據必須存儲到遠程存儲集群）、以及通過網絡的輸入/輸出三部分組成。

站在處理器中處理邏輯部分角度，不管是從各級暫存還是從網絡 I/O，都是數據的輸入/輸出。因此，計算模型可以簡單的分為兩部分：數據處理和數據輸入輸出。並且，係統性能 = 最小值(數據處理能力，數據輸入/輸出能力)。

隨著更大規模計算需求的發展，逐漸形成複雜的存儲分層結構。計算和 I/O 之間的不匹配導致複雜的存儲分層結構，而複雜的存儲分層結構一方麵增加功耗，另一方麵限製性能進一步提升。

微信圖片_20220303094122.jpg

影響性能的三個主要因素

這裏說的性能，指的是單位處理器的性能。衡量一個處理器的性能，通常有三個因素：

一、“指令”複雜度，類似於單位時間加工的零件數量，指的是單個指令中計算的密度。

指令是軟件和硬件的媒介，指令的複雜度（單位計算密度）決定係統的軟硬件解耦程度。按照指令的複雜度，典型的處理器平台大致分為CPU、協處理器、GPU、FPGA、DSA、ASIC。任務在CPU運行，則定義為軟件運行；任務在協處理器、GPU、FPGA、DSA或ASIC運行，則定義為硬件加速運行。

魚和熊掌不可兼得，指令複雜度和編程靈活性是兩個互反的特征：指令越簡單，編程靈活性越高，因此才說軟件有更高的靈活性；指令越複雜，性能越高，因此而受到的限製越多，隻能用於特定場景的應用，其軟件靈活性越差。

微信圖片_20220303094127.jpg

二、運行速度，即運行頻率，類似於一個小時的單位時間數量，指的是1秒鍾時鍾周期變化的數量。

頻率越高，計算速度越快。不考慮其他因素製約，計算速度和頻率是正比關係。而頻率受電路中的關鍵路徑（延遲最大路徑）約束，兩者呈反比關係：關鍵路徑越短，頻率則越高。頻率受關鍵路徑製約，而關鍵路徑與兩個因素有關：

關鍵路徑所包含門的數量，即從前一級寄存器到後一級寄存器之間的最長路徑所包含的邏輯門數量
單個邏輯門延遲時間，邏輯門延遲時間跟半導體生產工藝相關，一般情況下，工藝尺寸越小，單個邏輯門延遲越小

因此，想要優化頻率，就要優化關鍵路徑：一(yi)個(ge)是(shi)優(you)化(hua)關(guan)鍵(jian)路(lu)徑(jing)的(de)邏(luo)輯(ji)門(men)數(shu)量(liang)，另(ling)一(yi)個(ge)則(ze)是(shi)優(you)化(hua)單(dan)個(ge)邏(luo)輯(ji)門(men)延(yan)遲(chi)。當(dang)邏(luo)輯(ji)門(men)延(yan)遲(chi)越(yue)小(xiao)，或(huo)兩(liang)級(ji)寄(ji)存(cun)器(qi)之(zhi)間(jian)的(de)邏(luo)輯(ji)門(men)數(shu)量(liang)越(yue)少(shao)，則(ze)頻(pin)率(lv)越(yue)高(gao)，計(ji)算(suan)速(su)度(du)也(ye)越(yue)快(kuai)。

微信圖片_20220303094132.jpg

三、並行度，類似於團隊的成員數量，指的是多個並行的處理。

並行設計在硬件邏輯設計裏非常常見。如：

指令流水線：指令流水線是一種時間並行，在同時有多條指令處理流水線的不同階段，相當於有多條指令在並行處理
指令多發射（Multiple Issue）：一條流水線，從指令緩衝區一次發送到譯碼階段就有多條指令，然後在執行階段也是多條指令並行
超線程（Hyper-Thread）：在一個處理器核內部，多組不同的指令流處理，分時共享處理器核內部的各種硬件資源，達到更佳的資源利用率，提升整體性能
多總線：如，指令、數據總線分開，多數據總線等設計，進一步增加處理器的數據處理帶寬
多核技術：通過一些內部互聯總線，把多個處理器核集成到一塊芯片內，以此來提升綜合性能
多處理器芯片：受限於芯片工藝、功耗水平、設計架構，單芯片內的多核互聯不能無限製增加下去，也可以通過一些芯片間互聯技術，把多個 CPU Socket 連成一個NUMA係統，當前比較常見的是2-8個 Socket 互聯架構
總線：對並行總線來說，增加數據線的寬度，對增加總線的帶寬是顯而易見的，並行總線一般用於芯片內部邏輯通信；串行總線，例如 PCIe，相比 PCI 並行總線，一方麵可以快速提升頻率，還可以通過很多組串行線組合通信來提升傳輸性能，串行總線一般用於芯片間數據通信。
異構計算單元：CPU 和 GPU、xPU 以及各種硬件加速器組成異構多處理單元共同協作完成工作任務，CPU 更多的是承擔控製和數據交互的角色。
多服務器集群：現在大型的互聯網係統需要成百上千的服務器，分為業務處理、網絡處理、存儲和數據庫處理等不同功能分工的服務器，共同組成一個性能強大並且運行穩定的係統對外提供服務。

通過不同方向、不同層次的並行技術，都可以提升硬件係統的性能。把不同複雜度的單位處理都當作“指令”。那麼，我們就可以通過 IPC（Instruction per Cycle）來評價並行度。對一個 CPU 核來說，IPC 代表每個周期執行的指令數；對一個硬件加速模塊來說，IPC 則代表一個周期所能進行的單位處理的數量。

簡潔明了的用公式表示性能和三者的關係：

（單個處理器）性能 = 指令的複雜度（單位計算密度） x 頻率 x 並行度

微信圖片_20220303094138.jpg

宏觀的算力

xingnengshiweiguandegainian，daibiaodangegetijisuannengli。ersuanlizeshihongguandegainian，suanlishihenduogetijisuannenglizonghe。weilebimianhunxiao，womencaiyongzongsuanlidejiaofa。

在前麵已經介紹單個個體的性能（在泛I/O不拖後腿的情況下）：

（單個處理器）性能 = 指令的複雜度（單位計算密度） x 頻率 x 並行度

那麼總算力則和單個處理器性能以及處理器的數量成正比：

總算力 = （單個處理器）性能 x 處理器的數量

雖然總算力可以很高，但如果因為各方麵原因，其利用率不高，則也不夠好。因此：

實際總算力 = 總算力 x 利用率

= 指令的複雜度（單位計算密度） x 頻率 x 並行度 x 處理器的數量 x 利用率

相關的若幹因素總結一下，要提高宏觀的實際總算力，就必須要：

1.提高指令的複雜度（單位計算密度）。新的 DSA 架構創新，均衡考慮不同的算力平台，以及通過異構和超異構計算，融合多種平台一起協作，完成係統級計算。

2.提高運行頻率。優化設計，選擇最優的流水線級數以及工藝等的持續進步，優化係統的運行頻率。

3.提高並行度。更高的擴展性（Scalibility），更高性能的各層級互聯總線，並行更多處理引擎。

4.優化 I/O 和處理的匹配度。通過工藝和封裝優化，實現更加匹配計算和 I/O 匹配。

5.實現處理器芯片更大規模落地。均衡芯片整體性能和靈活可編程能力，實現宏觀總算力最大化。

6.進一步優化宏觀算力利用率。算力上規模後，通過雲計算、邊緣計算、超雲、雲網融合等手段，持續優化算力利用率，降低算力成本。

簡單來說說，算力提升核心就兩個方麵：

1.增大規模（Scale out），通過擴大算力基礎設施建設，以及“東數西算”等方式，構建更大規模並且低能耗的現代化數據中心。

2.提升單個計算節點性能（Scale up），構建新一代創新計算範式，要把算力再持續提升1-2個數量級，並且能夠提供非常好的易用編程能力，來持續應對未來10年更加複雜係統的算力需求爆炸挑戰。

藍海大腦作為領先的數字基建提供商，將積極發揮產品和技術優勢，提供先進算力支持。

微信圖片_20220303094146.png

2 三大主流計算平台CPU、GPU和DSA

CPU

在手機端已經非常成熟的SOC實現，為什麼在數據中心端沒有大規模應用？為什麼直到現在，數據中心依然是以CPU為主的計算平台？這主要源於越是複雜的場景，對軟件靈活性的要求越高，而隻有CPU能夠提供雲場景所需的靈活性。

超大規模複雜計算場景對硬件靈活性的要求，主要體現在四個方麵：

靈活性。硬件處理引擎要能夠很好地支持軟件快速迭代。CPU 其靈活基礎指令編程的特點，可以認為是最適合雲計算的處理引擎。
通用性。廠家購買服務器，很難預測服務器會運行哪類任務。最好的辦法是采用完全通用服務器。CPU 其通用性，成為雲計算場景最優選擇。
利用率。雲計算通過虛擬化把資源切分，實現資源共享，以此提高資源利用並降低成本。而目前，隻有 CPU 能夠實現非常友好的硬件級別的虛擬化支持。
一致性。雲計算場景，軟硬件相互脫離。同一軟件實體會在不同的硬件實體遷移，同一硬件實體也需要運行不同的軟件實體。而 CPU，是一致性最好的硬件平台。

GPU與NP

網絡處理器（Network Processor，簡稱NP）跟 GPU 在技術理念上有很多相似之處：都是通過特定優化的、高效能的小 CPU 核組成的眾核係統，並行的完成計算任務。根據“指令”複雜度，從 CPU 到 ASIC 的劃分，NP 和 GPU 處於相同的位置。

NP 具有如下的一些不足：

性能。雖然相比 GPU，性能是在同一層級，但相比 ASIC/DSA 性能不夠。
場景。NP主要用於網絡場景的處理，沒有像 GPU 那樣作為通用並行計算，GPU可以用於非常多的高性能場景。
開發和生態。GPU 由於 NVIDIA CUDA 的強大生態，框架、工具鏈、開發庫都非常成熟。而 NP 由於生態的不成熟，以及各家 NP 之間也基本互不兼容，開發者需要了解底層的硬件細節，致使編程難度很大。

NP 在網絡領域有一定範圍采用，但網絡領域更主要的處理引擎是網絡 ASIC，這些年還興起網絡數據麵可編程的網絡 DSA，都是相比 NP 架構具有更極致的性能。正因為 NP相比 ASIC/DSA 的性能不足，以及相比 GPU 覆蓋的場景有限，這樣的 “高不成，低不就”，導致其一直沒能成為（相比 GPU 而言）主流的通用計算平台。

微信圖片_20220303094201.jpg

DSA

DSA 針對特定應用場景定製處理引擎甚至芯片，支持部分軟件可編程。DSA 與 ASIC 在同等晶體管資源下性能接近，兩者最大的不同在於是否可軟件編程。ASIC 由於其功能確定，軟件隻能通過一些簡單的配置控製硬件運行，其功能比較單一。而 DSA 則支持一些可編程能力，使得其功能覆蓋的領域範圍相比 ASIC 要大很多。

DSA，一方麵可以實現 ASIC 一樣的極致性能，另一方麵，可以像通用 CPU 一樣執行軟件程序。當然，DSA 隻會加速某些特定領域應用程序。例如：用於深度學習的神經網絡處理器以及用於 SDN 網絡可編程處理器。

CPU、GPU和DSA的優劣勢分析

微信圖片_20220303094207.png

藍海大腦液冷GPU服務器搭載於 NVIDIA 4 × A100 / 3090 / P6000 / RTX6000；使用 NVLink + NVSwitch 的最高GPU通信；4個用於 GPU Direct RDMA 的 NIC（1：1 GPU比率）；最高4 x NVMe 用於 GPU 係統盤，帶有 AIOM；雙電源冗餘供電係統、防雷擊、防浪湧保護。

3 麵向未來十年的新一代計算架構

未來十年的新一代計算架構的一些設計目標——基於軟硬件融合架構（CASH，Converged Architecture of Software and Hardware）的超異構計算：

1.性能。讓摩爾定律繼續，性能持續不斷地提升。相比 GPU，性能再提升100+倍；相比 DSA，性能再提升10+倍。

2.資源效率。實現單位晶體管資源消耗下的最極致性能，極限接近於 DSA/ASIC 架構的資源效率。

3.靈活性。給開發者呈現出的是極限接近於 CPU 的靈活性、通用性及軟件可編程性。

4.設計規模。通過軟硬件融合的設計理念和係統架構，駕馭 10+ 倍並且仍持續擴大的更大規模設計。

5.架構。基於軟硬件融合的超異構計算：CPU + GPU + DSA + 其他各類可能的處理引擎。

6.生態。開放的平台及生態，開放、標準的編程模型和訪問接口，融合主流開源軟件。

微信圖片_20220303094215.png

4 宏觀算力建設

數字經濟時代，不斷增強算力，不斷降低算力成本。一方麵，我們可以以相同的價格，可以獲得更多更豐富的算力；另一方麵，是降低算力獲取門檻，實現算力普惠。

持續不斷的提升算力，降低成本，實現算力普惠

suizheshuzijingjijianshezhubushenru，duisuanlixuqiubuduantigao。zaigonghaohechengbenbubianqingkuangxia，tongguojiagouchuangxin，tishengxinpianxingneng。ruguowomennenggoubaxinpianxingnengtisheng10倍，在同樣規模下，意味著10倍的宏觀算力提升，也意味著單位算力成本和功耗均降低到1/10。也就意味著，對用戶來說，可以以同樣價格獲得更多更豐富算力資源。

xinpianyicixingchengbenjigao，xinpiantongyongxingkeyiquebaoxinpiandaguimofuzhi。erdaguimofuzhidexinpian，jiuyiweizhewuxiantanboxinpiandeyanfachengben。xingnengtisheng，chengbenjiangdi，yiliyiwaideyoushi，quebaoxinpianhexinjingzhengli。

並bing且qie，通tong過guo算suan力li提ti升sheng，以yi及ji成cheng本ben和he功gong耗hao降jiang低di，可ke以yi降jiang低di算suan力li使shi用yong門men檻kan，使shi得de更geng多duo用yong戶hu能neng夠gou享xiang受shou算suan力li的de便bian捷jie。在zai數shu字zi經jing濟ji世shi界jie裏li，大da家jia共gong享xiang技ji術shu發fa展zhan帶dai來lai價jia值zhi紅hong利li。

建設宏觀經濟，首先需要的是IT基礎設施。藍海大腦作為中國領先的IT基礎設施提供商，可以提供服務器、存儲、網絡、5G雲網融合產品等IT基礎設施。

狀　態：離線

公司簡介
 產品目錄

公司名稱：	金藍海科技有限公司
聯係人：	楊峰
電　　話：	010-82770520
傳　　真：
地　　址：	北京市海澱區西二旗
郵　　編：	100000
主　　頁：	www.lanhy.cn