- +1
黃仁勛2022 GTC演講速遞:將數(shù)據(jù)中心變?yōu)锳I工廠
“數(shù)據(jù)中心正在轉(zhuǎn)變成‘AI工廠’,它們處理大量數(shù)據(jù),以實(shí)現(xiàn)智能?!?月22日晚,NVIDIA創(chuàng)始人兼CEO黃仁勛在2022 NVIDIA GTC大會(huì)上表示。

在GTC大會(huì)的主題演講中,黃仁勛多次提到“AI工廠”(AI factory)這個(gè)詞,“AI數(shù)據(jù)中心處理海量且連續(xù)的數(shù)據(jù)以訓(xùn)練和完善AI模型,原始數(shù)據(jù)進(jìn)來(lái),經(jīng)過(guò)提煉,然后智能輸出——企業(yè)正在制造智能并運(yùn)營(yíng)大型AI工廠?!?/p>
從曾經(jīng)介紹Omniverse時(shí)說(shuō)的“數(shù)字蟲(chóng)洞”,到現(xiàn)在描述“新數(shù)據(jù)中心”的“AI工廠”, 黃仁勛似乎一直長(zhǎng)于用隱喻集合自己的思考。
所以,什么是“AI工廠”?
在3月23日的媒體交流會(huì)上,記者提問(wèn)演講中提到的“AI工廠”是否真的存在時(shí),黃仁勛表示,“事實(shí)上,它們是隱藏的,同時(shí)也是顯而易見(jiàn)的。它們就在你的眼前,只是你沒(méi)有意識(shí)到它?!?/p>
似乎非常玄學(xué),但聽(tīng)了黃仁勛接下來(lái)的解釋好像也就可以理解為什么這么說(shuō)。
黃仁勛首先提出,讓我們定義一下什么是工廠。在他看來(lái),工廠是一個(gè)‘大盒子’,輸入進(jìn)去原材料,使用一些能量,于是將原材料轉(zhuǎn)化成一些有價(jià)值的商品輸出,“食品用這種方式加工,汽車(chē)是這樣制造的,芯片也是這樣制造的”。
“就世界上最大的互聯(lián)網(wǎng)公司而言,無(wú)論他是誰(shuí),他都是數(shù)據(jù)進(jìn)來(lái),通電,然后出來(lái)智能——一個(gè)可以識(shí)別語(yǔ)言的模型抑或一個(gè)可以預(yù)測(cè)和向用戶推薦其可能喜歡的內(nèi)容的模型。”黃仁勛表示。
進(jìn)一步而言,黃仁勛認(rèn)為在未來(lái),它可能是一個(gè)了解你,能幫你推薦藥物、讀物、治療方案等的模型,這個(gè)必須在輸入數(shù)據(jù)和輸出模型之間反復(fù)訓(xùn)練?!八阅阋呀?jīng)可以看到很多這樣的AI工廠,它們非常顯而易見(jiàn)。在未來(lái),每家公司都會(huì)有AI工廠,因?yàn)槊考夜緩母旧险f(shuō)所做的都是智能。對(duì)于世界上大多數(shù)地區(qū)來(lái)說(shuō),這是一種新型的數(shù)據(jù)中心。它已經(jīng)無(wú)處不在,但這只是開(kāi)始?!?/p>
理解這一點(diǎn),似乎就能理解NVIDIA的很多動(dòng)作,比如在最新發(fā)布的H100 GPU中首次配備Transformer引擎,比如瞄準(zhǔn)圖形處理和人工智能兩大賽道。市場(chǎng)也給這個(gè)判斷帶來(lái)了實(shí)際的成績(jī)——英偉達(dá)的市值為6631億,高出全球半導(dǎo)體市值第二名臺(tái)積電1080億(截至發(fā)稿,臺(tái)積電市值為5551億)。
“只有自己才能戰(zhàn)勝自己”:性能怪獸H100 CPU
Transformer是現(xiàn)在自然語(yǔ)言處理的標(biāo)準(zhǔn)模型方案,也是深度學(xué)習(xí)模型領(lǐng)域最重要的模型之一。H100 GPU配備的Transformer引擎可以讓這類模型在訓(xùn)練時(shí)保持精度不變、性能提升6倍,這意味著將原本需要幾周的訓(xùn)練時(shí)間縮短至幾天。
具體而言,無(wú)論是GPT-3(1750億參數(shù)),還是“對(duì)于大型Transformer模型訓(xùn)練,H100將提供高達(dá)9倍的性能,過(guò)去需要數(shù)周時(shí)間才能完成的訓(xùn)練可以減少到幾天內(nèi),”NVIDIA產(chǎn)品管理高級(jí)總監(jiān)Paresh Kharya在發(fā)布會(huì)上表示。

對(duì)于為何鐘情T(mén)ransformer,黃仁勛解釋道,Transformers使自我監(jiān)督學(xué)習(xí)成為可能,并無(wú)需人類標(biāo)記數(shù)據(jù),AI領(lǐng)域出現(xiàn)了“驚人的進(jìn)展”。因此,Transformer正在越來(lái)越多的領(lǐng)域中發(fā)揮作用。比如用于語(yǔ)言理解的Google BERT,用于藥物發(fā)現(xiàn)的NVIDIA MegaMolBART以及DeepMind的AlphaFold2都要追溯到Transformer的突破。”
除此之外,H100推理性能也大幅提升。英偉達(dá)推出的Megatron-Turing模型(5300億參數(shù))在H100上推理時(shí)的吞吐量比上一代A100高出30倍,響應(yīng)延遲降低到1秒。在FP16、FP32和FP64張量運(yùn)算方面,H100比上一代A100快三倍,在8位浮點(diǎn)數(shù)學(xué)運(yùn)算方面快六倍。

NVIDIA H100戰(zhàn)勝NVIDIA A100,接棒全球最大AI加速芯片(H100集成了800億個(gè)晶體管,比上一代A100多了260億個(gè);CUDA核心飆升至16896個(gè),為A100的近2.5倍),這可能就是傳說(shuō)中的“只有自己才能戰(zhàn)勝自己”。
無(wú)獨(dú)有偶,“自己戰(zhàn)勝自己” 的還有Hopper架構(gòu)。NVIDIA宣布Hopper新一代加速計(jì)算平臺(tái)將取代兩年前推出的Ampere架構(gòu),Ampere是NVIDIA迄今為止最成功的GPU架構(gòu)。
H100就是NVIDIA首款基于Hopper架構(gòu)的GPU。據(jù)黃仁勛介紹,H100采用臺(tái)積電最新的4nm工藝,而非之前流傳很久的5nm。同時(shí),H100配備第四代NVLink高速GPU互連技術(shù),最多可連接256個(gè)H100 GPU,帶寬速度擴(kuò)展至900GB/s。

同時(shí),H100數(shù)學(xué)計(jì)算能力也提升了,Hopper引入了名為DPX的新指令集,可以加速動(dòng)態(tài)規(guī)劃,在運(yùn)算路徑優(yōu)化和基因組學(xué)等動(dòng)態(tài)規(guī)劃算法優(yōu)化問(wèn)題,與CPU和上一代GPU相比,其速度提升分別達(dá)40倍和7倍。
“20張H100即可承載全球互聯(lián)網(wǎng)流量”,黃仁勛在GTC大會(huì)上表示,“Hopper H100是有史以來(lái)最大的一次性能飛躍——其大規(guī)模訓(xùn)練性能是A100的9倍大型語(yǔ)言模型推理吞吐量是A100的30倍”。據(jù)介紹,H100將會(huì)在今年第三季度開(kāi)始供貨。
目前,H100有兩個(gè)版本可選:一個(gè)是熱功耗達(dá)前所未有的700W(專業(yè)領(lǐng)域自媒體稱英偉達(dá)“核彈工廠”)的SXM,用于高性能服務(wù)器;另一個(gè)是適用于更主流的服務(wù)器PCIe,功耗比上一代A100的300W多了50W。
基于H100推出的最新DGX H100計(jì)算系統(tǒng),是常見(jiàn)的配備8塊GPU。但DGX H100系統(tǒng)在FP8精度下達(dá)到32 Petaflop的AI性能,比上一代DGX A100系統(tǒng)高了6倍,900GB/s的GPU連接速度接近上一代的1.5倍。
在GTC大會(huì)上,黃仁勛還介紹了在DGX H100基礎(chǔ)上搭建的Eos超級(jí)計(jì)算機(jī),又創(chuàng)造了AI超算性能世界第一(其18.4 Exaflops的AI計(jì)算性能比日本“富岳”(Fugaku)超級(jí)計(jì)算機(jī)快了4倍)。Eos配備了576個(gè)DGX H100系統(tǒng),用了4608塊H100。在傳統(tǒng)科學(xué)計(jì)算,算力能達(dá)275Petaflops ,第一名富岳是442 Petaflops。
H100的新一代Hopper架構(gòu)以“計(jì)算機(jī)軟件工程第一夫人”Grace Hopper命名。Grace Hopper是計(jì)算機(jī)科學(xué)的先驅(qū)之一,發(fā)明了世界上第一個(gè)編譯器——A-0 系統(tǒng)。1945年,Grace Hopper在 Mark Ⅱ中發(fā)現(xiàn)了一只導(dǎo)致機(jī)器故障的飛蛾,從此“bug” 和 “debug” (除蟲(chóng)) 便成為計(jì)算機(jī)領(lǐng)域的專用詞匯。

有“Hopper”也有“Grace”,在GTC大會(huì)上,黃仁勛也介紹了超級(jí)服務(wù)器芯片Grace的最新進(jìn)展:Grace Hopper超級(jí)芯片和Grace CPU超級(jí)芯片,前者由由一個(gè)Grace CPU和一個(gè)Hopper架構(gòu)的GPU組成;后者由兩個(gè)Grace CPU組成,通過(guò)NVIDIA NVLink-C2C技術(shù)互連,包括144個(gè)Arm核心,內(nèi)存帶寬高達(dá)1TB/s,能耗500w。
黃仁勛現(xiàn)場(chǎng)也秀出一個(gè)數(shù)據(jù)——Grace超級(jí)芯片在SPECrate2017_int_base基準(zhǔn)測(cè)試中模擬性能達(dá)到740分,是當(dāng)前DGX A100搭載的CPU的1.5倍(460分)。
“性能怪獸”用來(lái)干點(diǎn)什么?黃仁勛:造世界/元宇宙
NVIDIA近幾年持續(xù)在建設(shè)的Omniverse現(xiàn)在看起來(lái)已經(jīng)像是個(gè)“元宇宙基建”工具,數(shù)字孿生也可以理解為在虛擬空間重現(xiàn)物理世界,簡(jiǎn)稱“造世界”。
但這不是一個(gè)娛樂(lè)項(xiàng)目,黃仁勛為Omniverse描述的未來(lái)圖景是成為“以行動(dòng)為導(dǎo)向的AI”的組成成分。什么意思呢,黃仁勛以NASA舉例,“半個(gè)世紀(jì)前,阿波羅13號(hào)登月任務(wù)遇到了麻煩。為了拯救船員,NASA的工程師們?cè)诘厍蛏蟿?chuàng)建了一個(gè)船員艙模型來(lái)幫助解決宇航員在太空遇到的問(wèn)題。
亞馬遜用Omniverse Enterprise建立虛擬“訂單履行中心”尋找最高效方式,百事可樂(lè)用Metropolis和Omniverse建立數(shù)字孿生工廠模擬運(yùn)行以低成本排查問(wèn)題,以及利用仿真數(shù)據(jù)讓AI智能體在虛擬但符合現(xiàn)實(shí)世界物理規(guī)律的環(huán)境中“練車(chē)”等等都是同樣的邏輯。

Omniverse中建立數(shù)字孿生工廠

Omniverse中練功夫
“AI正在各個(gè)領(lǐng)域‘全面開(kāi)花’,包括新的架構(gòu)、新的學(xué)習(xí)策略、規(guī)模更大、性能更強(qiáng)的模型、新的科學(xué)領(lǐng)域、新的應(yīng)用、新的行業(yè)等,而且所有這些領(lǐng)域都在發(fā)展”,黃仁勛表示,“NVIDIA全力投入于加速AI領(lǐng)域的新突破以及AI和機(jī)器學(xué)習(xí)在每個(gè)行業(yè)的應(yīng)用。
這個(gè)判斷也基于黃仁勛對(duì)影響行業(yè)發(fā)展的五個(gè)趨勢(shì)的看法:million-X百萬(wàn)倍計(jì)算速度飛躍,大幅加快AI速度的Tranformers,成為AI工廠的數(shù)據(jù)中心,對(duì)機(jī)器人系統(tǒng)的需求呈指數(shù)級(jí)增長(zhǎng),以及下一個(gè)AI時(shí)代的數(shù)字孿生。
“我們將在未來(lái)十年以數(shù)據(jù)中心規(guī)模加速整個(gè)堆棧,再次實(shí)現(xiàn)million-X百萬(wàn)倍性能飛躍?!?,黃仁勛在演講末尾說(shuō)道,“我已經(jīng)迫不及待地想看到下一次百萬(wàn)倍性能飛躍將帶來(lái)什么。”





- 澎湃新聞微博
- 澎湃新聞公眾號(hào)
- 澎湃新聞抖音號(hào)
- IP SHANGHAI
- SIXTH TONE
- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2025 上海東方報(bào)業(yè)有限公司