Google Cloud發布下一代TPU和GPU集群，增強AI Hypercomputer堆棧

2024-10-31 13:26

來源：澎湃新聞·澎湃號·湃客

Google Cloud正在更新面向AI工作負載的AI Hypercomputer堆棧，并宣布推出了一系列新處理器和基礎設施軟件產品。

Google宣布推出了第六代張量處理單元Trillium TPU，以及即將推出由Nvidia H200 GPU驅動的新型A3 Ultra虛擬機，此外還有基于Axion Arm架構的C4A VM，從今天正式面世。

谷歌還推出了新的軟件，包括一個名為Hypercompute Cluster的高度可擴展集群系統，以及Hyperdisk ML塊存儲和并行文件系統。

Google Cloud副總裁、計算和AI基礎設施總經理Mark Lohmeyer在一篇博文中表示，AI Hypercomputer堆棧為企業提供了一種方法，可以把工作負載優化的硬件（例如谷歌的TPU和GPU）與一系列開源軟件集成在一起，以支持廣泛的AI工作負載。

他表示：“這種整體方法優化了堆棧的每一層，在最廣泛的模型和應用中實現了無與倫比的規模、性能和效率。”

Lohmeyer表示，谷歌希望提高AI Hypercomputer堆棧的性能，同時使其更易于使用，且運行成本更低。要做到這一點，就需要一套先進的新功能，這正是谷歌今天推出的。

這次最重要的發布是Trillium TPU，它為客戶提供了Nvidia主流GPU的一個強大替代品，并且已經被谷歌用于支持高級AI應用，例如Gemini系列大型語言模型。Trillium TPU現已面向所有客戶推出預覽版，與谷歌第五代TPU相比，Trillium TPU有了顯著改進。

例如，它在AI訓練方面的性能提升了4倍，推理吞吐量方面提升了3倍，能源效率方面提升了67%，峰值計算性能提高了4.7倍，同時高帶寬內存容量增加了1倍，芯片間互連帶寬也增加了1倍。

內存和帶寬的增加，意味著Trillium可以運行更大的大型語言模型，具有更多的權重和更大的鍵值緩存。此外，它還允許芯片在訓練和推理方面支持更廣泛的模型架構，成為訓練Gemma 2和Llama等大型語言模型以及“Mixture-of-Experts”（MoE）機器學習技術的理想選擇。

Lohmeyer表示，Trillium可以擴展到一個配置了256個芯片的集群容納在一個高帶寬、低延遲的pod中，可以使用最先進的芯片間互連技術將其鏈接到其他pod，這就意味著客戶擁有無限的可能性，他們可以靈活地連接數百個pod和數萬個Trillium TPU，以打造“建筑規模”的超級計算機，并由每秒13千兆比特的Jupiter數據中心網絡提供支持。

“我們設計TPU是為了優化性價比，Trillium也不例外，與v5e TPU相比，它的性能提高了1.8倍，與v5p相比，性能提高了約2倍，這使Trillium成為我們迄今為止性價比最高的TPU。”

采用Nvidia H100 GPU的A3 Ultra VM

當然，Google Cloud的客戶并不局限于使用Trillium TPU，因為谷歌還是繼續大量購買Nvidia最強大的GPU。谷歌已經使用Nvidia H100 GPU打造了最新的A3 Ultra VM，據說與現有的A3和A3 Mega VM相比，性能上有了顯著的提升。

Lohmeyer表示，A3 Ultra VM將于下個月登陸Google Cloud，利用谷歌新的Titanium ML網絡適配器和數據中心范圍的四向軌道對齊網絡，提供高達每秒3.2兆比特的GPU到GPU傳輸流量。

因此，GPU到GPU帶寬的帶寬將提高2倍，大型語言模型推理工作負載性能提高2倍，內存容量增加近2倍，帶寬增加1.4倍，這些都將讓客戶從中受益。就像TPU一樣，客戶可以選擇將數萬個GPU連接到一個密集的高性能集群中，以處理那些要求最苛刻的AI工作負載，從而擴展部署規模。

A3 Ultra VM可以被作為獨立的計算選項使用，也可通過Google Kubernetes Engine使用，后者為客戶提供了一個開放的、便攜的、可延伸和可擴展的AI訓練和服務平臺。

基于Google Axion CPU的C4A VM

當然谷歌承認，并非每個AI用例都需要如此強大的馬力，因為有很多類型的通用AI工作負載用較低的功率就可以運行起來。在這種情況下，優化堆棧以降低成本是有意義的，而這時候新C4A VM就能派上用場了。

C4A VM是由Google Axion CPU提供支持的，后者是谷歌首款基于Arm架構的數據中心CPU。

谷歌給出了一些有趣的說法，稱C4A VM的性價比比競爭對手云平臺上最新基于Arm的實例要高出10%，而且和當前一代基于x86的實例相比也非常出色，性價比高出65%，對于通用工作負載（例如Web和應用服務器、數據庫工作負載和容器化微服務）而言，能效高出60%。

Constellation Research分析師Holger Mueller表示，這款新硬件進一步鞏固了Google Cloud作為AI開發者最佳云基礎設施平臺的地位。谷歌借助Trillium TPU在把TensorFlow等客戶算法應用到客戶硬件方面，領先競爭對手三到四年。

Mueller表示：“除了性能改進之外，Trillium在能效方面提升67%，這看起來也非常重要，因為功耗因素對每個組織都變得越來越重要，看到網絡速度和帶寬的提高也令人欣喜，這可以滿足更大模型的需求。”

此外Mueller表示，Google Cloud的客戶會很高興知道谷歌正準備支持Nvidia最強大的GPU，包括定于明年推出的Blackwell GPU。

“現在是成為Google Cloud客戶的一個好時機，而且有很多這樣的客戶，因為越來越多的企業已經意識到這是一個值得使用的平臺，一旦這些更新的影響開始顯現，我們可以期待看到Google Cloud在AI領域的領導地位得到進一步確認。”

支持堆棧

除了新硬件之外，谷歌還對組成AI Hypercomputer的底層存儲和網絡組件、以及將一切連接一起的軟件進行了重大改進。

谷歌通過最新的Hypercompute Cluster來簡化基礎設施和工作負載配置，這樣客戶就可以把數千個加速器作為一個單元部署和管理。這款軟件將在下個月推出，提供諸如支持密集的資源共置、有針對性的工作負載放置、高級維護以最大限度地減少工作負載中斷和超低延遲網絡等。

“Hypercompute Cluster旨在提供卓越的性能和彈性，因此您可以放心地運行那些最苛刻的AI和HPC工作負載，”Lohmeyer說。

與此同時，谷歌的Cloud Interconnect網絡服務正在更新一項圍繞“應用感知”的新功能，旨在解決流量優先級方面的難題。具體來說，它可以確保在網絡流量擁堵時，從Google Cloud流出的低優先級流量不會對高優先級流量產生不利的影響。谷歌表示，另一個好處是可以降低總擁有成本，因為它可以更有效地利用Cloud Interconnect上的可用帶寬。

其他方面，谷歌還對Titanium基礎設施進行了增強，后者是一個卸載技術系統，可用于減少處理開銷并增加每個工作負載可用的計算和內存資源量。增強之后的Titanium可以支持最苛刻的AI工作負載，利用新的Titanium ML網絡適配器來增加加速器到加速器的帶寬，而且還采用了谷歌的Jupiter光纖電路交換網絡結構，該結構可以提供高達每秒400千兆位的鏈接速度。

最后，谷歌宣布Hyperdisk ML塊存儲服務已經全面上市，該服務于今年4月開始提供預覽版。這是一款專注于AI的存儲解決方案，針對系統級性能和成本效益進行了優化，模型加載時間提高了11.9倍，AI訓練時間加快了4.3倍。

特別聲明

本文為澎湃號作者或機構在澎湃新聞上傳并發布，僅代表該作者或機構觀點，不代表澎湃新聞的觀點或立場，澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

我要舉報

#Google #Cloud