黃仁勛2022 GTC演講速遞：將數(shù)據(jù)中心變?yōu)锳I工廠

澎湃新聞?dòng)浾?邵文

2022-03-23 21:25

來(lái)源：澎湃新聞

“數(shù)據(jù)中心正在轉(zhuǎn)變成‘AI工廠’，它們處理大量數(shù)據(jù)，以實(shí)現(xiàn)智能?！?月22日晚，NVIDIA創(chuàng)始人兼CEO黃仁勛在2022 NVIDIA GTC大會(huì)上表示。

在GTC大會(huì)的主題演講中，黃仁勛多次提到“AI工廠”（AI factory）這個(gè)詞，“AI數(shù)據(jù)中心處理海量且連續(xù)的數(shù)據(jù)以訓(xùn)練和完善AI模型，原始數(shù)據(jù)進(jìn)來(lái)，經(jīng)過(guò)提煉，然后智能輸出——企業(yè)正在制造智能并運(yùn)營(yíng)大型AI工廠?！?/p>

從曾經(jīng)介紹Omniverse時(shí)說(shuō)的“數(shù)字蟲(chóng)洞”，到現(xiàn)在描述“新數(shù)據(jù)中心”的“AI工廠”，黃仁勛似乎一直長(zhǎng)于用隱喻集合自己的思考。

所以，什么是“AI工廠”？

在3月23日的媒體交流會(huì)上，記者提問(wèn)演講中提到的“AI工廠”是否真的存在時(shí)，黃仁勛表示，“事實(shí)上，它們是隱藏的，同時(shí)也是顯而易見(jiàn)的。它們就在你的眼前，只是你沒(méi)有意識(shí)到它?！?/p>

似乎非常玄學(xué)，但聽(tīng)了黃仁勛接下來(lái)的解釋好像也就可以理解為什么這么說(shuō)。

黃仁勛首先提出，讓我們定義一下什么是工廠。在他看來(lái)，工廠是一個(gè)‘大盒子’，輸入進(jìn)去原材料，使用一些能量，于是將原材料轉(zhuǎn)化成一些有價(jià)值的商品輸出，“食品用這種方式加工，汽車(chē)是這樣制造的，芯片也是這樣制造的”。

“就世界上最大的互聯(lián)網(wǎng)公司而言，無(wú)論他是誰(shuí)，他都是數(shù)據(jù)進(jìn)來(lái)，通電，然后出來(lái)智能——一個(gè)可以識(shí)別語(yǔ)言的模型抑或一個(gè)可以預(yù)測(cè)和向用戶推薦其可能喜歡的內(nèi)容的模型。”黃仁勛表示。

進(jìn)一步而言，黃仁勛認(rèn)為在未來(lái)，它可能是一個(gè)了解你，能幫你推薦藥物、讀物、治療方案等的模型，這個(gè)必須在輸入數(shù)據(jù)和輸出模型之間反復(fù)訓(xùn)練?！八阅阋呀?jīng)可以看到很多這樣的AI工廠，它們非常顯而易見(jiàn)。在未來(lái)，每家公司都會(huì)有AI工廠，因?yàn)槊考夜緩母旧险f(shuō)所做的都是智能。對(duì)于世界上大多數(shù)地區(qū)來(lái)說(shuō)，這是一種新型的數(shù)據(jù)中心。它已經(jīng)無(wú)處不在，但這只是開(kāi)始?！?/p>

理解這一點(diǎn)，似乎就能理解NVIDIA的很多動(dòng)作，比如在最新發(fā)布的H100 GPU中首次配備Transformer引擎，比如瞄準(zhǔn)圖形處理和人工智能兩大賽道。市場(chǎng)也給這個(gè)判斷帶來(lái)了實(shí)際的成績(jī)——英偉達(dá)的市值為6631億，高出全球半導(dǎo)體市值第二名臺(tái)積電1080億（截至發(fā)稿，臺(tái)積電市值為5551億）。

“只有自己才能戰(zhàn)勝自己”：性能怪獸H100 CPU

Transformer是現(xiàn)在自然語(yǔ)言處理的標(biāo)準(zhǔn)模型方案，也是深度學(xué)習(xí)模型領(lǐng)域最重要的模型之一。H100 GPU配備的Transformer引擎可以讓這類模型在訓(xùn)練時(shí)保持精度不變、性能提升6倍，這意味著將原本需要幾周的訓(xùn)練時(shí)間縮短至幾天。

具體而言，無(wú)論是GPT-3（1750億參數(shù)），還是“對(duì)于大型Transformer模型訓(xùn)練，H100將提供高達(dá)9倍的性能，過(guò)去需要數(shù)周時(shí)間才能完成的訓(xùn)練可以減少到幾天內(nèi)，”NVIDIA產(chǎn)品管理高級(jí)總監(jiān)Paresh Kharya在發(fā)布會(huì)上表示。

對(duì)于為何鐘情T(mén)ransformer，黃仁勛解釋道，Transformers使自我監(jiān)督學(xué)習(xí)成為可能，并無(wú)需人類標(biāo)記數(shù)據(jù)，AI領(lǐng)域出現(xiàn)了“驚人的進(jìn)展”。因此，Transformer正在越來(lái)越多的領(lǐng)域中發(fā)揮作用。比如用于語(yǔ)言理解的Google BERT，用于藥物發(fā)現(xiàn)的NVIDIA MegaMolBART以及DeepMind的AlphaFold2都要追溯到Transformer的突破。”

除此之外，H100推理性能也大幅提升。英偉達(dá)推出的Megatron-Turing模型（5300億參數(shù)）在H100上推理時(shí)的吞吐量比上一代A100高出30倍，響應(yīng)延遲降低到1秒。在FP16、FP32和FP64張量運(yùn)算方面，H100比上一代A100快三倍，在8位浮點(diǎn)數(shù)學(xué)運(yùn)算方面快六倍。

NVIDIA H100戰(zhàn)勝NVIDIA A100，接棒全球最大AI加速芯片（H100集成了800億個(gè)晶體管，比上一代A100多了260億個(gè)；CUDA核心飆升至16896個(gè)，為A100的近2.5倍），這可能就是傳說(shuō)中的“只有自己才能戰(zhàn)勝自己”。

無(wú)獨(dú)有偶，“自己戰(zhàn)勝自己” 的還有Hopper架構(gòu)。NVIDIA宣布Hopper新一代加速計(jì)算平臺(tái)將取代兩年前推出的Ampere架構(gòu)，Ampere是NVIDIA迄今為止最成功的GPU架構(gòu)。

H100就是NVIDIA首款基于Hopper架構(gòu)的GPU。據(jù)黃仁勛介紹，H100采用臺(tái)積電最新的4nm工藝，而非之前流傳很久的5nm。同時(shí)，H100配備第四代NVLink高速GPU互連技術(shù)，最多可連接256個(gè)H100 GPU，帶寬速度擴(kuò)展至900GB/s。

同時(shí)，H100數(shù)學(xué)計(jì)算能力也提升了，Hopper引入了名為DPX的新指令集，可以加速動(dòng)態(tài)規(guī)劃，在運(yùn)算路徑優(yōu)化和基因組學(xué)等動(dòng)態(tài)規(guī)劃算法優(yōu)化問(wèn)題，與CPU和上一代GPU相比，其速度提升分別達(dá)40倍和7倍。

“20張H100即可承載全球互聯(lián)網(wǎng)流量”，黃仁勛在GTC大會(huì)上表示，“Hopper H100是有史以來(lái)最大的一次性能飛躍——其大規(guī)模訓(xùn)練性能是A100的9倍大型語(yǔ)言模型推理吞吐量是A100的30倍”。據(jù)介紹，H100將會(huì)在今年第三季度開(kāi)始供貨。

目前，H100有兩個(gè)版本可選：一個(gè)是熱功耗達(dá)前所未有的700W（專業(yè)領(lǐng)域自媒體稱英偉達(dá)“核彈工廠”）的SXM，用于高性能服務(wù)器；另一個(gè)是適用于更主流的服務(wù)器PCIe，功耗比上一代A100的300W多了50W。

基于H100推出的最新DGX H100計(jì)算系統(tǒng)，是常見(jiàn)的配備8塊GPU。但DGX H100系統(tǒng)在FP8精度下達(dá)到32 Petaflop的AI性能，比上一代DGX A100系統(tǒng)高了6倍，900GB/s的GPU連接速度接近上一代的1.5倍。

在GTC大會(huì)上，黃仁勛還介紹了在DGX H100基礎(chǔ)上搭建的Eos超級(jí)計(jì)算機(jī)，又創(chuàng)造了AI超算性能世界第一（其18.4 Exaflops的AI計(jì)算性能比日本“富岳”（Fugaku）超級(jí)計(jì)算機(jī)快了4倍）。Eos配備了576個(gè)DGX H100系統(tǒng)，用了4608塊H100。在傳統(tǒng)科學(xué)計(jì)算，算力能達(dá)275Petaflops ，第一名富岳是442 Petaflops。

H100的新一代Hopper架構(gòu)以“計(jì)算機(jī)軟件工程第一夫人”Grace Hopper命名。Grace Hopper是計(jì)算機(jī)科學(xué)的先驅(qū)之一，發(fā)明了世界上第一個(gè)編譯器——A-0 系統(tǒng)。1945年，Grace Hopper在 Mark Ⅱ中發(fā)現(xiàn)了一只導(dǎo)致機(jī)器故障的飛蛾，從此“bug” 和 “debug” (除蟲(chóng)) 便成為計(jì)算機(jī)領(lǐng)域的專用詞匯。

有“Hopper”也有“Grace”，在GTC大會(huì)上，黃仁勛也介紹了超級(jí)服務(wù)器芯片Grace的最新進(jìn)展：Grace Hopper超級(jí)芯片和Grace CPU超級(jí)芯片，前者由由一個(gè)Grace CPU和一個(gè)Hopper架構(gòu)的GPU組成；后者由兩個(gè)Grace CPU組成，通過(guò)NVIDIA NVLink-C2C技術(shù)互連，包括144個(gè)Arm核心，內(nèi)存帶寬高達(dá)1TB/s，能耗500w。

黃仁勛現(xiàn)場(chǎng)也秀出一個(gè)數(shù)據(jù)——Grace超級(jí)芯片在SPECrate2017_int_base基準(zhǔn)測(cè)試中模擬性能達(dá)到740分，是當(dāng)前DGX A100搭載的CPU的1.5倍（460分）。

“性能怪獸”用來(lái)干點(diǎn)什么？黃仁勛：造世界/元宇宙

NVIDIA近幾年持續(xù)在建設(shè)的Omniverse現(xiàn)在看起來(lái)已經(jīng)像是個(gè)“元宇宙基建”工具，數(shù)字孿生也可以理解為在虛擬空間重現(xiàn)物理世界，簡(jiǎn)稱“造世界”。

但這不是一個(gè)娛樂(lè)項(xiàng)目，黃仁勛為Omniverse描述的未來(lái)圖景是成為“以行動(dòng)為導(dǎo)向的AI”的組成成分。什么意思呢，黃仁勛以NASA舉例，“半個(gè)世紀(jì)前，阿波羅13號(hào)登月任務(wù)遇到了麻煩。為了拯救船員，NASA的工程師們?cè)诘厍蛏蟿?chuàng)建了一個(gè)船員艙模型來(lái)幫助解決宇航員在太空遇到的問(wèn)題。

亞馬遜用Omniverse Enterprise建立虛擬“訂單履行中心”尋找最高效方式，百事可樂(lè)用Metropolis和Omniverse建立數(shù)字孿生工廠模擬運(yùn)行以低成本排查問(wèn)題，以及利用仿真數(shù)據(jù)讓AI智能體在虛擬但符合現(xiàn)實(shí)世界物理規(guī)律的環(huán)境中“練車(chē)”等等都是同樣的邏輯。

Omniverse中建立數(shù)字孿生工廠

Omniverse中練功夫

“AI正在各個(gè)領(lǐng)域‘全面開(kāi)花’，包括新的架構(gòu)、新的學(xué)習(xí)策略、規(guī)模更大、性能更強(qiáng)的模型、新的科學(xué)領(lǐng)域、新的應(yīng)用、新的行業(yè)等，而且所有這些領(lǐng)域都在發(fā)展”，黃仁勛表示，“NVIDIA全力投入于加速AI領(lǐng)域的新突破以及AI和機(jī)器學(xué)習(xí)在每個(gè)行業(yè)的應(yīng)用。

這個(gè)判斷也基于黃仁勛對(duì)影響行業(yè)發(fā)展的五個(gè)趨勢(shì)的看法：million-X百萬(wàn)倍計(jì)算速度飛躍，大幅加快AI速度的Tranformers，成為AI工廠的數(shù)據(jù)中心，對(duì)機(jī)器人系統(tǒng)的需求呈指數(shù)級(jí)增長(zhǎng)，以及下一個(gè)AI時(shí)代的數(shù)字孿生。

“我們將在未來(lái)十年以數(shù)據(jù)中心規(guī)模加速整個(gè)堆棧，再次實(shí)現(xiàn)million-X百萬(wàn)倍性能飛躍?！?，黃仁勛在演講末尾說(shuō)道，“我已經(jīng)迫不及待地想看到下一次百萬(wàn)倍性能飛躍將帶來(lái)什么。”

責(zé)任編輯：李躍群

校對(duì)：欒夢(mèng)

澎湃新聞報(bào)料：021-962866

澎湃新聞，未經(jīng)授權(quán)不得轉(zhuǎn)載

我要舉報(bào)

#GTC #數(shù)據(jù)中心 #AI工廠 #黃仁勛