长兴郴障科技有限公司

澎湃Logo
下載客戶端

登錄

  • +1

元宇宙聊天室|“大模型訓練正值高峰期,年底或逐漸下降”

澎湃科技
2023-07-14 08:11
來源:澎湃新聞
? 未來2% >
字號

·“大煉鋼鐵的階段基本上接近尾聲。但在大模型真正進入產業化應用時,仍然需要持續的算力消耗,盡管這種消耗可能與訓練機器不太相同。對應的服務能夠開放出來后,除了訓練機器之外,對推理算力的需求將越來越大?!?/u>

·“上海超算中心作為上海市的公共服務平臺,我們的能力可能有限,但我們更多地致力于建立接入和調度的標準,讓更多的商業公司、科研單位和市民都能夠輕松方便地接入算力資源?!?/u>

ChatGPT推動全球爆發新一輪人工智能熱潮,以大型語言模型為基礎的生成式人工智能被看作堪比蒸汽機的技術驅動器。新的AI淘金時代來臨,“賣鏟子的人”贏得前所未有的關注,從算力、算法到數據、網絡,機遇與挑戰并存。

7月6日,澎湃科技(www.usamodel.cn)邀請上海超級計算中心主任李根國和百度飛槳產品團隊負責人趙喬,共同探討大模型基礎設施的機遇與挑戰。本場對話由澎湃科技記者邵文主持,在一個小時的對話中,嘉賓們討論了多個相關問題,包括:

為什么AI大模型的計算成本如此高,有哪些方法能夠降低成本?

算力短缺會持續多久?算力調度的難點在哪?初創公司如何配置AI技術設施?

……

如何確?!扮P子”質量鋒利和堅固

澎湃科技:目前有一個非常熱門的話題,即AI模型的計算成本非常高。我們可以用通俗的方式向大眾解釋一下為什么AI大模型的計算成本如此高,現在有哪些方法能夠降低這些成本?

李根國(上海超級計算中心主任)首先,人工智能的發展經歷了很長時間,從20世紀50年代開始提出概念,經歷了多次熱潮。我們認為ChatGPT的出現是人工智能領域革命性的突破,因為過去的工作更多是基于特定領域的知識和數據,比如計算機、化學、物理或生命科學等。然而,ChatGPT的出現打破了領域限制。盡管它是一個語言模型,但實際上可以在各個領域中使用,這是一次革命性的突破。在它之前,人工智能并沒有形成一個標準的理論。但是有了ChatGPT,可能會引發人工智能理論的產生,因為它突破了特定領域的發展。

然而,GPT模型的訓練需要強大的計算能力支持。訓練大模型需要使用數千張圖形處理器(GPU)。目前,人們認為起步的必要條件是至少3000張GPU,而未來可能會有更高的需求。英偉達的A100 GPU性能指標是320 TFLOPS,因此,為了獲得100 PFLOPS的計算能力,需要使用300多張A100 GPU。(注:1TFLOPS等于每秒萬億次浮點計算,1PFLOPS等于每秒千萬億次浮點計算)

此外,訓練這樣的大模型需要一個周期,可能需要一個月的時間。在這一個月的時間里,機器的能耗將非常高,例如可能達到一兆瓦。也就是說,僅僅訓練一個大模型就需要數百萬元的電費。

當然,這只是起步階段的訓練成本。在訓練完成后,還需要不斷迭代和更新模型,這也需要大量的算力和電力支撐。

趙喬(百度飛槳產品團隊負責人):開發一個大模型的過程,就像是小朋友讀書一樣。我們會設置一個非常龐大的神經網絡,然后讓神經網絡通過學習大量數據來獲得較好的效果。這個過程需要較長時間,同時也會消耗大量算力和電費等資源。

此外,數據的存儲是一個額外的成本。就像小朋友閱讀得越多,變得越聰明一樣,人工智能模型也需要更多的數據來提高效果,這對數據存儲提出了很高的要求。

另外,計算量增加意味著使用的(人工智能加速)卡數增加。當你將模型擴展到更多的卡上時,要確保能夠達到與單卡相同的效果是相當困難的。這涉及到穩定性和線性加速比的問題。同時,由于集群規模的增大,可能會出現卡的損壞或掉電等問題,因此需要確保訓練過程的持續穩定性。

為了降低這些成本,我們在硬件和軟件層面都做了很多工作。在硬件方面,我們從集群設計和網絡調度等方面進行優化,以降低成本。在軟件層面,特別是在深度學習平臺和框架方面,我們采取了許多方案來降低成本。例如,通過壓縮模型尺寸大小來獲得與大模型相當的效果,采用量化壓縮等工具。這些工作都是為了降低訓練成本。

李根國:除了算力需求,數據的質量也對訓練效果和計算成本有影響。通過對數據進行預處理和提高算法平臺的完善程度,可以提高訓練效率,從而節約算力。

澎湃科技:當前大型AI模型對AI基礎設施提出了很多要求。在AI基礎設施的發展中,存在哪些明顯的瓶頸?

趙喬:飛槳作為深度學習平臺,也是AI開發的基礎設施,這些年與國內外不同的算力基礎設施的機構有過合作。

首先是互聯網公有云服務提供商,他們需要花費大量資金購買硬件設備,例如英偉達的設備。然而,他們當前面臨著供不應求甚至算力供應短缺情況。但實際上公有云的價格相對較低,甚至存在激烈的競爭,所以他們面臨的挑戰是如何持續降低成本并提供更好的算力服務。

其次是超算中心,它們通常服務于國家的重大戰略任務,主要關注高性能計算等經典領域。在AI時代,面臨的挑戰是如何將傳統的超算集群轉變為能夠支撐AI任務的智能計算集群,這里包括體系結構和軟件平臺的大量升級工作。我們正與國內的許多超算中心合作,以提升和改進這一點。

此外,還有一些大型企業會自建AI基礎設施,除了一次性投資外,后續的運維和有效使用這些設備也可能成為瓶頸。

還有一個重要的挑戰是,隨著大模型尺寸的增加,對數據和算力的需求也越來越大,傳統的單點式算力發展可能無法滿足未來的需求。因此,實現廣泛的算力互聯互通是非常重要的,但在實現互聯互通之后,如何高效地進行調度以及支持應用開發也是具有挑戰性的工作。

李根國:根據直播的主題,我們可以將自己比作是賣鏟子的人。作為賣鏟子的人,我們必須確保鏟子的質量非常鋒利和堅固。所以我們要把算力做得既好用,又有價值,同時成本也低,以便在算力市場上占據地位。

因此,從算力的角度來看,我們需要突破核心技術和發展。首先,核心技術之一是算力的互聯技術。這意味著我們需要將上百張卡片連接在一起,共同完成一個任務,而不是將任務分配給每個卡片?;ヂ摷夹g在這方面起著關鍵作用。然而,美國對我們施加限制,如禁止我們使用從A100到A800的卡片,限制了我們的互聯核心能力。他們限制了我們的帶寬不能超過每秒400G,包括H系列卡片在內。因此,要在算力方面取得突破,首先需要突破互聯技術。

其次是芯片技術,即用于人工智能的芯片。大家通常看到的是算力卡,算力卡插在服務器上。如果一個服務器插滿了8張卡,1張卡的功耗可能是700千瓦,那么單臺機器甚至可能達到6000千瓦。根據以前的IDC(互聯網數據中心)標準,一臺機器就占據整個機柜的功耗,之前一個柜子里至少可以容納10臺服務器,但現在只能容納1臺?,F在有另一種方法即水冷技術,利用水冷可以使機柜的功耗降低,那么就可以容納6-8臺機器。因此,我們需要突破傳統服務器和機柜的技術,實現更高效的利用空間。

第三個核心技術是軟件。在人工智能領域,軟件體系非常重要。我們需要有適用于人工智能和大數據的軟件體系,以便訓練大模型并在各行各業中應用。但互聯技術、芯片技術等底層技術仍然不是我們的。如果我們不能突破這些技術,我們只能作為應用方來使用別人發布的大模型,并將其應用于各個領域。國家機構對這些核心技術非常重視,因為底層技術的突破至關重要。

“大煉鋼鐵的階段基本接近尾聲”

澎湃科技:對于AI基礎設施的成本變化趨勢,兩位有什么看法?哪些方面的成本有望降低,哪些方面的成本難以降低?

趙喬:我國底層的AI基礎設施特別是大模型方面,對國外依然有較多依賴。然而,我們也看到了很多好機會。例如,國內的芯片廠商在人工智能支持產業應用方面取得了快速發展。我們正在與國內的許多芯片廠商合作,進行與大模型相關的軟件聯合技術攻關工作。在這方面,我相信我們核心底層技術的成熟將持續降低成本。

李根國:當前IT行業面臨的一個重要問題就是成本居高不下。其中一個重要原因是芯片的發展。芯片發展到7納米或更低的技術水平,其研發和生產過程成本非常高。另外,軟件開發需要大量的人力投入。例如,在構建配套的軟件體系時,可能需要數千人參與。所以軟件方面的人力投入、硬件設施的投入以及計算機運行過程中的電力投入,都是不可避免的。

從效率的角度來看,我們只能通過提高整個計算機運行的效率來降低成本。傳統計算機的CPU(中央處理器)使用率往往很低,大部分時間處于等待狀態,讀取數據的過程浪費了很多電能?,F代計算機體系架構發生了一些變化,例如GPU的趨勢,以及一些新的計算方法,此外,現在也期待量子計算機能夠帶來一些革命性的變化和計算效率的巨大提升。然而,量子計算機目前只在特定行業具有一些應用,并且距離普遍應用仍然需要很長的時間。

澎湃科技:兩位在實踐過程是否遇到了由于算力短缺和算力價格的提升,帶來的算力價格上漲情況?

李根國:我們直接碰到了算力短缺和價格上漲的情況。以前的超級計算機主要面向科研服務,價格相對普惠。而現在,因為人工智能的發展,特別是大模型的出現,對算力的需求急劇增加。人工智能面向市場和企業應用,大家都在追求大模型。我們以前可能有一些卡,基本上滿足需求。但現在明顯感覺到需要排隊,可能排隊的人數是正在運行的十倍以上。大家都需要卡來訓練自己的模型。雖然小規模的算力需求并不一定是訓練大模型,但廣泛應用的需求也推動了算力需求的增加,從而推高了算力的價格。

趙喬:我們對算力的消耗和需求非常旺盛,也遇到過類似的情況。

一方面,從供應的角度來解決問題。比如說,更多類似的供應商能夠提供同類型的解決方案;另一方面,如何充分利用現有設施來降低成本,我們也正在尋求一些技術手段來解決這個問題。例如,由于大模型的發展,過去半年內開源領域發生了非常大的變化?,F在有許多新的方法和策略,可以降低大模型的訓練成本。而且,我們也提供了一些在深度學習框架層面的技術,從這些角度來持續降低成本。

澎湃科技:預計這種算力短缺會持續多久呢?

李根國:目前是訓練大模型的高峰階段,預計今年年底會逐漸下降。因為大模型基于現有的大數據進行訓練,一旦模型訓練完成,需求可能會稍微減少。更重要的是,我們需要解決如何在各個領域中應用這些模型的問題。大模型的獨立訓練可能會暫時告一段落,接下來會在各個領域形成自己的專有應用。

趙喬:大煉鋼鐵的階段基本上接近尾聲。但在大模型真正進入產業化應用時,仍然需要持續的算力消耗,盡管這種消耗可能與訓練機器不太相同。例如,隨著生成式人工智能應用政策的明朗,對應的服務能夠開放出來,除了訓練機器之外,對推理算力的需求將越來越大。這將是一個重大的變化。此外,除了基礎的大模型訓練外,后續可能會有更多的行業大模型出現。

此外,人工智能與科學問題的結合也是一個巨大的機會,例如與經典的計算流體力學和制藥領域結合。但是“ChatGPT時刻”什么時候會到來,我們也不知道。因此,如果這個領域的“ChatGPT時刻”到來,預計會有更多的算力需求。

李根國:這個就是之前一直在說的AI for Science,以前,科學研究主要依賴于傳統的超級計算機進行推理,例如解方程等。但現在,人工智能更多地用大數據解決問題。其中,生命科學領域包括與人們直接相關的醫療領域,是應用最廣泛、推動力最大的。通過人工智能方法,生物醫藥等領域可能會實現突破性的發展。

在科學研究中,人工智能的應用被視為一種新的范式。過去,人類研究主要基于實驗,后來發展到理論,再然后逐漸發展為計算。而現在,我們能夠基于數據,更多地基于人工智能進行研究,進入了智能范式階段。在這個階段,我們的研究手段發生了根本性的變化。

“更多算力投入需要依靠商業公司”

澎湃科技:此次引發人工智能熱潮的GPT不僅僅是大眾的熱潮,也是創業潮。對于在人工智能領域創業的初創公司,他們如何配置AI技術設施,能否給一些建議或原則性的思路?

趙喬:首先,針對大模型的研發方向,有些偏底層研發,有些偏應用研發,不同的創業團隊選擇的路線和技術手段可能不同,因此對算力的配置需求也會有所差異。如果是基于大模型的基礎研發,算力需求肯定很高,可以按照前面提到的數據進行估算。但如果是應用型的公司,現在經過半年多的技術快速發展,它們不需要從頭開始訓練自己的大模型,可能會基于開源或商業模型進行一些小的改造,并結合自身的數據來獲得不錯的效果。這樣的話,對算力的需求就不像做基礎大模型那樣高,配置起來相對輕松一些。

此外,初創企業也可以直接圍繞以文心一言為代表的大模型服務構建自己的業務,如果直接使用這些能力,成本會進一步降低,比之前提到的自己訓練模型的成本更低。因此,圍繞國內的大模型開發上層的AI應用也是一個值得考慮的方向。

可以說,目前對于中國來說,這是一個機會無限的時代,各個領域都有發展的機會。從農業時代到工業時代,直接進入數字化信息化的時代,創業機會非常多。例如無人駕駛在城市道路和農業方面的應用,智能工廠等在不同領域都有廣闊的發展空間。作為計算機行業的人,有更多的機會,因為在大模型發布后,大模型在各個領域都有應用。

澎湃科技:文心一言是現在關注度非常高的一個大模型。我們想知道百度飛槳和文心一言之間是怎樣配合的,有什么樣的邏輯關系?

趙喬:現在,人工智能技術軟件棧的結構與以前的操作系統或通用計算相比,發生了較大變化。從百度的角度來看,我們定義了四層架構:芯片、框架、模型和應用。這四層之間密切配合,并相互產生一些化學反應。具體到框架層和模型層,指的就是飛槳深度學習平臺和文心一言。一方面,整個文心一言的開發過程,包括從最初的模型訓練到工程化上線,都需要飛槳的技術。我們有許多技術來支持文心一言的高效開發。因此,在支持文心一言的研發和產品化工作方面,我們密切合作。另一方面,由于文心一言的迭代速度很快,有許多創新需求進一步反饋給飛槳團隊,因此飛槳也需要不斷進行研發工作。雙方互相補充,不斷向前發展,這是一個持續的過程。

澎湃科技:在這波生成式AI熱潮中,上海超算中心在上海占據非常重要的位置。那么接下來上海超算中心會有什么規劃?如何賦能上海的人工智能產業集群的發展?

李根國:上海超級計算中心作為政府支持的公共服務平臺,我們的建設是通過政府撥款支持的,所以我們的算力規模不可能非常大,政府的財力有限,我們提供的是普惠的服務,只能是引導性的。更多的算力投入需要依靠商業公司。

因此,我們目前的重要工作之一是建立算力調度平臺,通過這個平臺,外部的算力,比如運營商的算力,通過我們的公共服務平臺接入,用戶的需求可以通過公共服務平臺進行調度,并利用商業算力。

我們正在形成統一的調度機制,甚至還包括與國家倡導的“東數西算”工程,能夠與西部地區的算力進行合作,如貴州、寧夏、甘肅、內蒙古等地。我們已經有了一些接洽,希望能夠使用他們提供的算力。

未來我們希望算力就像電力一樣,能夠提供給用戶使用,但現在還沒有那么容易,因為算力之間差異很大,超算計算和云計算之間有很大差別,包括配置和使用方法都不同。但是這些都會慢慢統一,算力作為基礎設施會逐漸統一起來。

當前所謂的算力調度實際上是將用戶的計算任務分配到其他地方去執行。例如,用戶通過操作中心的平臺提交作業,然后我們將計算任務調度到百度平臺上完成,這是一個任務調度的過程。算力調度的概念也是近年來才出現的,隨著算力逐漸成為基礎設施,我們的調度也會逐漸進步,以提供更加順暢的服務給用戶。標準和規范的制定也會在行政過程中進行。

上海超算中心作為上海市的公共服務平臺,我們的能力可能有限,但我們更多地致力于建立接入和調度的標準,讓更多的商業公司、科研單位和市民都能夠輕松方便地接入算力資源。

澎湃科技:目前,算力調度的難點在哪?

李根國:主要包括接入標準制定和算力差異。另外是數據傳輸,網絡也是一個重要的限制因素。例如,大規模數據傳輸在西部地區可能會遇到瓶頸。不過,隨著技術的改進,整個網絡也在不斷改善中。

“還沒有看到本質上的突破”

澎湃科技:兩位從個人角度來說,對于這次生成式AI熱潮,包括通用人工智能(AGI)是什么樣的感受,目前的路線是否能實現通用人工智能?對于未來通用人工智能的發展是持擔憂還是樂觀的態度呢?

李根國:我持樂觀態度??萍及l展到今天,仍存在許多未知領域需要我們探索。人工智能的方法可能使我們在科學研究方面取得更大的突破和發現。

趙喬:生成式人工智能是通用人工智能發展的曙光,但需要明確的是,人工智能并不能與人類智能劃等號。在某些任務上,人工智能表現出色,但在許多其他方面仍未達到理想效果。總的來說,對于通用人工智能的發展,我持樂觀態度。

此外,除了大模型的核心工作外,我們也看到了許多周邊工作的開展,例如LangChain(注:一個用于開發由語言模型驅動的應用程序的框架)等,這將讓大模型成為內核,同時推動通用人工智能的發展。

整個領域充滿了技術創新和活力。作為一個偏向底層技術的團隊,我們不僅關注通用人工智能的路線,還關注其他經典科研路線,如AI for Science等。對于我們團隊來說,有很多事情需要去做,除了支持不同技術路線的發展外,我們還需要更好地對接算力、消除不同芯片之間的差異,并提供更好的開發服務。

澎湃科技:有觀點認為此次生成式AI的技術熱潮本質上并沒有帶來非常新的技術創新,而更多地是工程上的成就,兩位對此持什么觀點?此外,你們認為近期最重要的科技進展是什么?

李根國:就我個人而言,ChatGPT是將人工智能應用于自然語言生成領域的突破。此前,人工智能也經歷過熱潮,例如20世紀80年代,可能更多關注算法,比如機器學習方法的改進等。但幾次熱潮都暴露出一個問題,那就是我們的計算能力跟不上發展的速度?,F在,我們感覺到算力是可以跟得上的,盡管成本很高。

過去,人工智能在語言方面的生成一直受限,但通過引入大模型,我們看到了革命性的變化。這可能只是突破的開始,接下來可能會出現人工智能的理論體系和框架。因此,我們認為目前只是看到了一些現象上的突破,但還沒有看到其本質上的突破。

我最近關注的科技進展,就是在科學研究領域出現了一些突破和發展。舉個例子,之前提到了醫藥方面的進展。而最近的突破是在天氣預報領域。傳統的天氣預報需要強大的計算能力支持。我們現在在計算尺度上取得了突破,例如縮小到1公里精確度,而以前是基于3公里的天氣預報。這意味著我們可以提供更精確的局部天氣預報,例如指明浦東下雨而浦西不下雨,所以人工智能應用于天氣預報能夠算得快且算得準。另外,還有一個最新的進展是在近半年,我在好幾個領域里面都看到了人工智能應用科學研究后,產生了新的發現。

趙喬:作為從業者,我認為在工程技術創新方面是有突破性成果的,這次熱潮給人們帶來了更多的關注。例如,大家通過嘗試不同的方法和策略,實現了大模型的高效表現,這是技術上的一個突破。另外,產品用戶交互方面也出現了一些突破,這些領域的產品增長也非常顯著。

關于最近看到的重要科技進展,我覺得開源技術的發展是最令人深刻的。在半年的時間里,開源技術的發展非常迅速。雖然對于百度來說,我們對這些技術比較熟悉,但對于更多希望獲得大模型技術的人來說,這些技術可能是神秘的,不知道如何應用和獲得好的效果。然而,最近半年,從大模型的開發訓練到推理部署的技術,開源技術的發展變化非??焖?,幾乎每周都有新變化。這種開源的創新推動著人工智能領域的進步,比我們過去幾年見到的創新更快,更多。

    責任編輯:鄭潔
    校對:欒夢
    澎湃新聞報料:021-962866
    澎湃新聞,未經授權不得轉載
    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網安備31010602000299號

            互聯網新聞信息服務許可證:31120170006

            增值電信業務經營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業有限公司

            反饋
            24山方位 子孙 文昌| 静海县| 赌场百家乐官网信誉| 鼎龙百家乐的玩法技巧和规则 | 太阳城娱乐网sss977| 大发百家乐现金网| 肯博88国际网| 威尼斯人娱乐场55556| 百家乐大小桌布| 诺贝尔百家乐官网的玩法技巧和规则 | 百家乐怎么刷反水| 澳门百家乐官网洗码提成查询| 网上百家乐骗钱| 百家乐官网怎么玩会| 太阳城娱乐开户| 百家乐庄最高连开几把| 百家乐投注技巧| 网络百家乐官网会输钱的多吗| 百家乐官网路单规则| 顶级赌场371betcwm| 百家乐官网任你博赌场娱乐网规则| 百家乐官网视频看不到| 38坊娱乐城| 百家乐必赢| 百家乐揽法大全| 游戏机百家乐下载| 百家乐送彩金网络| 百家乐视频二人麻将| 百家乐官网影院| 贝博百家乐官网的玩法技巧和规则 | 百家乐计划| 澳门百家乐赢钱技术| 赌神网百家乐官网的玩法技巧和规则 | 皇冠百家乐赢钱皇冠| 百家乐高额投注| 真人百家乐蓝盾娱乐网| 澳门百家乐官网博| 小孟百家乐官网的玩法技巧和规则| 皇冠网小说网址| 百家乐官网游戏免费| 广州百家乐官网酒店用品制造有限公司 |