智譜發(fā)布推理模型初代版本

澎湃新聞?dòng)浾?張靜

2024-12-31 18:55

來源：澎湃新聞

12月31日，國內(nèi)明星大模型創(chuàng)業(yè)公司北京智譜華章科技有限公司推出基于擴(kuò)展強(qiáng)化學(xué)習(xí)技術(shù)訓(xùn)練的推理模型GLM-Zero-Preview，擅長處理數(shù)理邏輯、代碼和需要深度推理的復(fù)雜問題。

GLM-Zero-Preview是GLM-Zero的初代版本。智譜表示，目前的GLM-Zero-Preview與OpenAI的o3模型仍有不少差距，因此未來將持續(xù)優(yōu)化迭代強(qiáng)化學(xué)習(xí)技術(shù)，推出正式版GLM-Zero，將深度思考能力從數(shù)理邏輯擴(kuò)展到更多更通用的技術(shù)。

與現(xiàn)有模型不同，GLM-Zero-Preview能夠初步實(shí)現(xiàn)推理過程中自主決策、問題拆解和嘗試多種方式解決問題。團(tuán)隊(duì)發(fā)現(xiàn)，隨著強(qiáng)化學(xué)習(xí)訓(xùn)練量的增加，模型在深度推理等方面的效果穩(wěn)步提升。團(tuán)隊(duì)也深入探究了模型在推理階段的scaling law（尺度定律），隨著模型可以思考的token數(shù)變多以及更多的計(jì)算量，模型給出的結(jié)果質(zhì)量穩(wěn)步提升，體現(xiàn)了“自我反思和優(yōu)化、復(fù)雜問題分解、嘗試用不同方法解決問題”等能力，這與人類的思考決策過程類似。

在7、9、11、13中如何用3個(gè)數(shù)字相加得到30，GLM-Zero-Preview識(shí)別邏輯漏洞。

在邏輯推理方面，GLM-Zero-Preview善于識(shí)別邏輯漏洞，能夠模擬多種假設(shè)和可能性。例如在7、9、11、13中如何用3個(gè)數(shù)字相加得到30，GLM-Zero-Preview能夠識(shí)別圖中數(shù)字，通過反思發(fā)現(xiàn)答案的關(guān)鍵在于9可以倒置為6（6+11+13=30）。

在數(shù)學(xué)方面，GLM-Zero-Preview具有更強(qiáng)的歸納與演繹能力，能夠快速處理復(fù)雜的數(shù)學(xué)運(yùn)算，解答包括代數(shù)、微積分、概率統(tǒng)計(jì)等領(lǐng)域的問題。以2025年考研數(shù)學(xué)一為例，GLM-Zero-Preview得分為126（總分150），達(dá)到優(yōu)秀研究生水平。GLM-Zero-Preview能夠提供詳細(xì)的解題過程，幫助用戶理解問題的核心思路。

GLM-Zero-Preview能夠熟練使用多種編程語言，幫助開發(fā)者快速編寫代碼。在代碼調(diào)試方面能夠快速識(shí)別錯(cuò)誤，給出詳細(xì)修復(fù)建議。例如只需要輸入指令“幫我用html寫一個(gè)有趣的第一人稱射擊游戲”，GLM-Zero-Preview便能迅速獨(dú)立完成游戲。

責(zé)任編輯：宦艷紅

校對(duì)：丁曉

澎湃新聞報(bào)料：021-962866

澎湃新聞，未經(jīng)授權(quán)不得轉(zhuǎn)載

我要舉報(bào)

#大模型 #強(qiáng)化學(xué)習(xí)