- +1
從二分天下到三分天下,計算體系正變革
文/陳根
很長一段時間以來,算力的天下都由中央處理器(CPU)和圖形處理單元(GPU)平分,也是因為CPU和GPU為龐大的新超大規(guī)模數(shù)據(jù)中心提供了動力,才使得計算得以擺脫PC和服務(wù)器的繁瑣局限。
然而,近幾年,隨著系統(tǒng)中的CPU承受越來越多的網(wǎng)絡(luò)和存儲工作負載,已有的通用CPU和GPU開始不能完全滿足快速變化的應(yīng)用需求,而性能更強大,更加專用,更加異構(gòu)的數(shù)據(jù)處理單元(DPU)登上了歷史的舞臺。
當(dāng)前,DPU已成為以數(shù)據(jù)為中心的加速計算模型的三大支柱之一。其改變計算體系的端倪也正在浮現(xiàn)。

從二分天下到三分天下
自1950年代以來,中央處理器(CPU)就一直是每臺計算機或智能設(shè)備的核心,是大多數(shù)計算機中唯一的可編程元件。并且,CPU誕生后,工程師也一直沒放棄讓CPU以消耗最少的能源實現(xiàn)最快的計算速度的努力。即便如此,人們還是發(fā)現(xiàn)CPU做圖形計算太慢。在這樣的背景下,圖形處理單元(GPU)應(yīng)運而生。
英偉達提出了GPU的概念,將GPU提升到了一個單獨的計算單元的地位。GPU是在緩沖區(qū)中快速操作和修改內(nèi)存的專用電路,因為可以加速圖片的創(chuàng)建和渲染,所以得以在嵌入式系統(tǒng)、移動設(shè)備、個人電腦以及工作站等設(shè)備上廣泛應(yīng)用。1990年代以來,GPU則逐漸成為了計算的中心。
事實上,最初的GPU還只是用來做功能強大的實時圖形處理。后來,憑借其優(yōu)秀的并行處理能力,GPU已經(jīng)成為各種加速計算任務(wù)的理想選擇。隨著機器學(xué)習(xí)和大數(shù)據(jù)的發(fā)展,很多公司都會使用GPU加速訓(xùn)練任務(wù)的執(zhí)行,這也是今天數(shù)據(jù)中心中比較常見的用例。
相較于CPU,大多數(shù)的CPU不僅期望在盡可能短的時間內(nèi)更快地完成任務(wù)以降低系統(tǒng)的延遲,還需要在不同任務(wù)之間快速切換保證實時性。正是因為這樣的需求,CPU往往都會串行地執(zhí)行任務(wù)。而GPU的設(shè)計則與CPU完全不同,它期望提高系統(tǒng)的吞吐量,在同一時間竭盡全力處理更多的任務(wù)。
設(shè)計理念上的差異也最終反映到了CPU和GPU的核心數(shù)量上,GPU往往具有更多的核心數(shù)量。當(dāng)然,CPU和GPU的差異也很好地形成了互補,其組合搭配在過去的幾十年里,也為龐大的新超大規(guī)模數(shù)據(jù)中心提供了的動力,使得計算得以擺脫PC和服務(wù)器的繁瑣局限。
然而,近幾年,隨著系統(tǒng)中的CPU承受越來越多的網(wǎng)絡(luò)和存儲工作負載,已有的通用CPU和GPU開始不能完全滿足快速變化的應(yīng)用需求。據(jù)IDC統(tǒng)計,近10年來全球算力增長明顯滯后于數(shù)據(jù)的增長。每3.5個月全球算力的需求就會翻一倍,遠遠超過了當(dāng)前算力的增長速度。
在此驅(qū)動下,全球計算、存儲和網(wǎng)絡(luò)基礎(chǔ)設(shè)施也在發(fā)生根本轉(zhuǎn)變,一些復(fù)雜的工作負載,在通用的CPU上不能很好的處理。或者說,以CPU為中心的數(shù)據(jù)中心架構(gòu)已經(jīng)不能滿足需求,以數(shù)據(jù)為中心才能更好滿足市場和應(yīng)用需求。
英偉達網(wǎng)絡(luò)事業(yè)部亞太區(qū)市場開發(fā)高級總監(jiān)宋慶春此前就表示:“以前計算規(guī)模和數(shù)據(jù)量沒那么大,馮諾依曼架構(gòu)很好地解決了提高計算性能的問題。隨著數(shù)據(jù)量越來越大,以及AI技術(shù)的發(fā)展,傳統(tǒng)的計算模型會造成網(wǎng)絡(luò)擁塞,繼續(xù)提升數(shù)據(jù)中心的性能面臨挑戰(zhàn)。”
數(shù)據(jù)處理單元(DPU)的出現(xiàn)或?qū)⒔饩冗@一困境,作為最新發(fā)展起來的專用處理器的一個大類,DPU為高帶寬、低延遲、數(shù)據(jù)密集的計算場景提供計算引擎。當(dāng)前,DPU已成為以數(shù)據(jù)為中心的加速計算模型的三大支柱之一,其還將成為CPU的卸載引擎,釋放CPU算力到上層。

DPU蔚然成風(fēng)
按照技術(shù)出現(xiàn)的時間順序和特點,DPU的發(fā)展則可以分為三個階段。
第一階段即智能設(shè)備階段,這一階段也可以稱為DPU的史前時代。在這一階段,解決節(jié)點間流量問題的最簡單的方式是增加網(wǎng)卡的處理能力,通過在網(wǎng)卡上面引入SoC或者FPGA的方式加速某些特定流量應(yīng)用,從而加強網(wǎng)絡(luò)的可靠性,降低網(wǎng)絡(luò)延遲,提升網(wǎng)絡(luò)性能。
其中,Xilinx和Mellanox在這個領(lǐng)域進行的比較早,可惜由于戰(zhàn)略能力不足,錯失了進一步發(fā)展的機會,逐漸被DPU取代,最終被淘汰。其中Mellanox被Nvidia收購,Xilinx被AMD拿下。智能網(wǎng)卡成為DPU的應(yīng)用產(chǎn)品而存在。
第二階段是數(shù)據(jù)處理芯片階段,這個階段也是數(shù)據(jù)芯片真正開始被重視的階段。最開始由Fungible在2019年提出,但沒有引起太多反響英偉達將收購來的Mellanox重新包裝之后,2020年10月又重新定義了DPU這個概念,這一次的重新定義使得DPU這個概念一炮而紅。
具體來看,DPU被定義為一種新型可編程處理器,集三個關(guān)鍵要素于一身,包括:行業(yè)標(biāo)準(zhǔn)的、高性能及軟件可編程的多核CPU,通常基于已應(yīng)用廣泛的Arm架構(gòu),與其的SOC組件密切配合;高性能網(wǎng)絡(luò)接口,能以線速或網(wǎng)絡(luò)中的可用速度解析、處理數(shù)據(jù),并高效地將數(shù)據(jù)傳輸?shù)紾PU和CPU;以及各種靈活和可編程的加速引擎,可以卸載AI、機器學(xué)習(xí)、安全、電信和存儲等應(yīng)用,并提升性能。
第三階段則是基礎(chǔ)設(shè)施芯片階段。第三階段的方案由Intel提出,變成了FPGA+Xeon-D的模式,通過PCB版的方式放在一個智能網(wǎng)卡上。不難發(fā)現(xiàn),Intel將IPU定位成host CPU上面一個“外掛”的小CPU。并且,未來這個“外掛”CPU和FPGA會封裝到一個芯片中,形成一個通過PCIe總線互聯(lián)的兩個CPU系統(tǒng)。
當(dāng)然,無論處于哪個階段,所有這些DPU功能對于實現(xiàn)安全的、裸性能的、原生云計算的下一代云上大規(guī)模計算都具有重要意義。正如英偉達首席執(zhí)行官黃仁勛此前在演講中表示,“它將成為未來計算的三大支柱之一”,“CPU用于通用計算,GPU用于加速計算,而數(shù)據(jù)中心中傳輸數(shù)據(jù)的DPU則進行數(shù)據(jù)處理”。
一方面,GPU更安全,因為控制平面可以在系統(tǒng)內(nèi)和系統(tǒng)集群之間與數(shù)據(jù)平面分離。DPU可以執(zhí)行原本需要CPU處理的網(wǎng)絡(luò)、存儲和安全等任務(wù)。這就意味著如果在數(shù)據(jù)中心中采用了DPU,那么CPU的不少運算能力可以被釋放出來,去執(zhí)行廣泛的企業(yè)應(yīng)用。
另一方面,DPU還釋放了服務(wù)器的容量,以便它們可以恢復(fù)到應(yīng)用程序計算。在一些具有大量I / O和沉重虛擬化的系統(tǒng)上內(nèi)核成本縮減一半,因此吞吐量提高了2倍。除了內(nèi)核的成本,還要計算整個機器的成本,包括其內(nèi)存和I / O以及所釋放的工作量。
此外,DPU豐富的、靈活和可編程的加速引擎可減輕和改善AI和機器學(xué)習(xí)應(yīng)用的性能。所有的這些DPU功能對于實現(xiàn)隔離的裸機云原生計算至關(guān)重要,它將定義下一代云規(guī)模計算,其改變存儲行業(yè)的端倪也正在浮現(xiàn)。

以數(shù)據(jù)為中心
DPU廣闊的市場空間,也讓國際巨頭開始紛紛提前布局。目前DPU主要廠商有Intel (收購Bearfoot), Mellanox(已被Nvidia收購),Marvell(收購了Cavium),Broadcom, Fungible(初創(chuàng)),Pensando(初創(chuàng))等。
其中,Intel是基于FPGA實現(xiàn)的,主要面向交換機、路由器芯片;Broadcom基于Arm實現(xiàn),也是主要面向交換機、路由器芯片;Marvell通過收購Cavium,基于Arm實現(xiàn),主要面向5G的基帶;初創(chuàng)公司Pensando通過軟件定義網(wǎng)絡(luò)處理器,主要面向支持 P4的SDN。
中科馭數(shù)的創(chuàng)始團隊是國內(nèi)較早進行DPU芯片研發(fā)的先行者。他們創(chuàng)新性提出了軟件定義加速器技術(shù)(Software Defined Accelerator),自主研發(fā)了KPU(Kernel Processing Unit)芯片架構(gòu),2019年設(shè)計了業(yè)界首顆數(shù)據(jù)庫與時序數(shù)據(jù)處理融合加速芯片,已經(jīng)成功流片。
此外,以KPU架構(gòu)為核心,在2019年流片第一顆芯片的基礎(chǔ)上,中科馭數(shù)宣布了其下一顆DPU芯片研發(fā)計劃,功能層面包括完善的L2/ L3/L4層的網(wǎng)絡(luò)協(xié)議處理,可處理高達200G網(wǎng)絡(luò)帶寬數(shù)據(jù)。其次融合數(shù)據(jù)庫、大數(shù)據(jù)處理能力,直接面向OLAP、OLTP及大數(shù)據(jù)處理平臺,如Spark等。另外還囊括機器學(xué)習(xí)計算核以及安全加密運算核。該芯片預(yù)計將于2021年底流片。
幾乎可以確定,DPU已成為未來以數(shù)據(jù)為中心的必須。但DPU依然面臨其本身需要克服的關(guān)卡。現(xiàn)在,DPU最大的問題就是“過熱”,即功耗太高。以前一個網(wǎng)絡(luò)DMA芯片功耗才5瓦左右,現(xiàn)在一個DPU動則100瓦以上(Fungible F1 120瓦)。
這意味著,大部分應(yīng)用場景將無法用承受這么大功耗的網(wǎng)絡(luò)設(shè)備。尤其是在100/200G以上,光模塊功耗已經(jīng)超過網(wǎng)絡(luò)設(shè)備的情況下,再增加一個100瓦的網(wǎng)絡(luò)DPU,會極大的提升網(wǎng)絡(luò)的能源消耗,所以必須解決DPU功耗問題。
和功耗一樣,當(dāng)前的的DPU還面臨成本太高的問題,基于DPU的解決方案變沒有降低網(wǎng)絡(luò)互聯(lián)的成本。此外,目前DPU都是面向數(shù)據(jù)中心的應(yīng)用場景。但服務(wù)器增長空間更多在邊緣計算中心,而且未來邊緣計算互聯(lián)將成為網(wǎng)絡(luò)技術(shù)趨勢。因此,DPU還必須考慮邊緣計算場景。
當(dāng)然,無論如何,DPU的出現(xiàn)并非要替代CPU和GPU,而是更好地滿足數(shù)據(jù)中心市場的需求。可以預(yù)見,從CPU、GPU再到DPU的一體的架構(gòu)將會讓管理程序、調(diào)度程序都會變得更加容易。從邊緣到核心數(shù)據(jù)中心,統(tǒng)一架構(gòu)、統(tǒng)一管理、統(tǒng)一調(diào)度或?qū)⒃诓痪弥蟮靡詫崿F(xiàn)。
本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報業(yè)有限公司