长兴郴障科技有限公司

澎湃Logo
下載客戶端

登錄

  • +1

Google Cloud發布下一代TPU和GPU集群,增強AI Hypercomputer堆棧

2024-10-31 13:26
來源:澎湃新聞·澎湃號·湃客
字號

Google Cloud正在更新面向AI工作負載的AI Hypercomputer堆棧,并宣布推出了一系列新處理器和基礎設施軟件產品。

Google宣布推出了第六代張量處理單元Trillium TPU,以及即將推出由Nvidia H200 GPU驅動的新型A3 Ultra虛擬機,此外還有基于Axion Arm架構的C4A VM,從今天正式面世。

谷歌還推出了新的軟件,包括一個名為Hypercompute Cluster的高度可擴展集群系統,以及Hyperdisk ML塊存儲和并行文件系統。

Google Cloud副總裁、計算和AI基礎設施總經理Mark Lohmeyer在一篇博文中表示,AI Hypercomputer堆棧為企業提供了一種方法,可以把工作負載優化的硬件(例如谷歌的TPU和GPU)與一系列開源軟件集成在一起,以支持廣泛的AI工作負載。

他表示:“這種整體方法優化了堆棧的每一層,在最廣泛的模型和應用中實現了無與倫比的規模、性能和效率。”

Lohmeyer表示,谷歌希望提高AI Hypercomputer堆棧的性能,同時使其更易于使用,且運行成本更低。要做到這一點,就需要一套先進的新功能,這正是谷歌今天推出的。

這次最重要的發布是Trillium TPU,它為客戶提供了Nvidia主流GPU的一個強大替代品,并且已經被谷歌用于支持高級AI應用,例如Gemini系列大型語言模型。Trillium TPU現已面向所有客戶推出預覽版,與谷歌第五代TPU相比,Trillium TPU有了顯著改進。

例如,它在AI訓練方面的性能提升了4倍,推理吞吐量方面提升了3倍,能源效率方面提升了67%,峰值計算性能提高了4.7倍,同時高帶寬內存容量增加了1倍,芯片間互連帶寬也增加了1倍。

內存和帶寬的增加,意味著Trillium可以運行更大的大型語言模型,具有更多的權重和更大的鍵值緩存。此外,它還允許芯片在訓練和推理方面支持更廣泛的模型架構,成為訓練Gemma 2和Llama等大型語言模型以及“Mixture-of-Experts”(MoE)機器學習技術的理想選擇。

Lohmeyer表示,Trillium可以擴展到一個配置了256個芯片的集群容納在一個高帶寬、低延遲的pod中,可以使用最先進的芯片間互連技術將其鏈接到其他pod,這就意味著客戶擁有無限的可能性,他們可以靈活地連接數百個pod和數萬個Trillium TPU,以打造“建筑規模”的超級計算機,并由每秒13千兆比特的Jupiter數據中心網絡提供支持。

“我們設計TPU是為了優化性價比,Trillium也不例外,與v5e TPU相比,它的性能提高了1.8倍,與v5p相比,性能提高了約2倍,這使Trillium成為我們迄今為止性價比最高的TPU。”

采用Nvidia H100 GPU的A3 Ultra VM

當然,Google Cloud的客戶并不局限于使用Trillium TPU,因為谷歌還是繼續大量購買Nvidia最強大的GPU。谷歌已經使用Nvidia H100 GPU打造了最新的A3 Ultra VM,據說與現有的A3和A3 Mega VM相比,性能上有了顯著的提升。

Lohmeyer表示,A3 Ultra VM將于下個月登陸Google Cloud,利用谷歌新的Titanium ML網絡適配器和數據中心范圍的四向軌道對齊網絡,提供高達每秒3.2兆比特的GPU到GPU傳輸流量。

因此,GPU到GPU帶寬的帶寬將提高2倍,大型語言模型推理工作負載性能提高2倍,內存容量增加近2倍,帶寬增加1.4倍,這些都將讓客戶從中受益。就像TPU一樣,客戶可以選擇將數萬個GPU連接到一個密集的高性能集群中,以處理那些要求最苛刻的AI工作負載,從而擴展部署規模。

A3 Ultra VM可以被作為獨立的計算選項使用,也可通過Google Kubernetes Engine使用,后者為客戶提供了一個開放的、便攜的、可延伸和可擴展的AI訓練和服務平臺。

基于Google Axion CPU的C4A VM

當然谷歌承認,并非每個AI用例都需要如此強大的馬力,因為有很多類型的通用AI工作負載用較低的功率就可以運行起來。在這種情況下,優化堆棧以降低成本是有意義的,而這時候新C4A VM就能派上用場了。

C4A VM是由Google Axion CPU提供支持的,后者是谷歌首款基于Arm架構的數據中心CPU。

谷歌給出了一些有趣的說法,稱C4A VM的性價比比競爭對手云平臺上最新基于Arm的實例要高出10%,而且和當前一代基于x86的實例相比也非常出色,性價比高出65%,對于通用工作負載(例如Web和應用服務器、數據庫工作負載和容器化微服務)而言,能效高出60%。

Constellation Research分析師Holger Mueller表示,這款新硬件進一步鞏固了Google Cloud作為AI開發者最佳云基礎設施平臺的地位。谷歌借助Trillium TPU在把TensorFlow等客戶算法應用到客戶硬件方面,領先競爭對手三到四年。

Mueller表示:“除了性能改進之外,Trillium在能效方面提升67%,這看起來也非常重要,因為功耗因素對每個組織都變得越來越重要,看到網絡速度和帶寬的提高也令人欣喜,這可以滿足更大模型的需求。”

此外Mueller表示,Google Cloud的客戶會很高興知道谷歌正準備支持Nvidia最強大的GPU,包括定于明年推出的Blackwell GPU。

“現在是成為Google Cloud客戶的一個好時機,而且有很多這樣的客戶,因為越來越多的企業已經意識到這是一個值得使用的平臺,一旦這些更新的影響開始顯現,我們可以期待看到Google Cloud在AI領域的領導地位得到進一步確認。”

支持堆棧

除了新硬件之外,谷歌還對組成AI Hypercomputer的底層存儲和網絡組件、以及將一切連接一起的軟件進行了重大改進。

谷歌通過最新的Hypercompute Cluster來簡化基礎設施和工作負載配置,這樣客戶就可以把數千個加速器作為一個單元部署和管理。這款軟件將在下個月推出,提供諸如支持密集的資源共置、有針對性的工作負載放置、高級維護以最大限度地減少工作負載中斷和超低延遲網絡等。

“Hypercompute Cluster旨在提供卓越的性能和彈性,因此您可以放心地運行那些最苛刻的AI和HPC工作負載,”Lohmeyer說。

與此同時,谷歌的Cloud Interconnect網絡服務正在更新一項圍繞“應用感知”的新功能,旨在解決流量優先級方面的難題。具體來說,它可以確保在網絡流量擁堵時,從Google Cloud流出的低優先級流量不會對高優先級流量產生不利的影響。谷歌表示,另一個好處是可以降低總擁有成本,因為它可以更有效地利用Cloud Interconnect上的可用帶寬。

其他方面,谷歌還對Titanium基礎設施進行了增強,后者是一個卸載技術系統,可用于減少處理開銷并增加每個工作負載可用的計算和內存資源量。增強之后的Titanium可以支持最苛刻的AI工作負載,利用新的Titanium ML網絡適配器來增加加速器到加速器的帶寬,而且還采用了谷歌的Jupiter光纖電路交換網絡結構,該結構可以提供高達每秒400千兆位的鏈接速度。

最后,谷歌宣布Hyperdisk ML塊存儲服務已經全面上市,該服務于今年4月開始提供預覽版。這是一款專注于AI的存儲解決方案,針對系統級性能和成本效益進行了優化,模型加載時間提高了11.9倍,AI訓練時間加快了4.3倍。

    本文為澎湃號作者或機構在澎湃新聞上傳并發布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網安備31010602000299號

            互聯網新聞信息服務許可證:31120170006

            增值電信業務經營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業有限公司

            反饋
            百家乐官网娱乐网站| 百家乐官网网址官网| 勃利县| 淘金盈国际线上娱乐| 百家乐官网赌场群| 澳门百家乐赢钱技术| 威尼斯人娱乐网网上百家乐| bet365虚拟运动| 百家乐网站制作| 网上百家乐试| 大发888挖掘| 百樂坊百家乐的玩法技巧和规则| 大发888官网 官方| 百家乐官网赌场在线娱乐| 菲律宾太阳城88| 百家乐官网现金网平台| e世博百家乐技巧| 大发888开户博盈国际| 红宝石百家乐官网娱乐城| 真人百家乐在线玩| 大发娱乐| 百家乐官网赔率技巧| 博E百百家乐现金网| 凯旋门百家乐官网现金网| 百家乐开户送8彩金| 丹东亿酷棋牌下载| 线上百家乐官网赢钱| 百家乐庄闲和赢率| 百家乐官网游戏看路| 大发888 大发888| 百家乐官网看大路| 大发888游戏下载官网免费| 百家乐投注翻倍方法| 百家乐官网公式论坛| 盛大百家乐的玩法技巧和规则 | 百家乐官网皇室百家乐官网的玩法技巧和规则| 如何赢百家乐的玩法技巧和规则| 百家乐官网斗地主下载| 皇家赌场下载| 百家乐官网交流群号| 百家乐推锅|