- +1
智譜發(fā)布推理模型初代版本
12月31日,國內(nèi)明星大模型創(chuàng)業(yè)公司北京智譜華章科技有限公司推出基于擴(kuò)展強(qiáng)化學(xué)習(xí)技術(shù)訓(xùn)練的推理模型GLM-Zero-Preview,擅長處理數(shù)理邏輯、代碼和需要深度推理的復(fù)雜問題。
GLM-Zero-Preview是GLM-Zero的初代版本。智譜表示,目前的GLM-Zero-Preview與OpenAI的o3模型仍有不少差距,因此未來將持續(xù)優(yōu)化迭代強(qiáng)化學(xué)習(xí)技術(shù),推出正式版GLM-Zero,將深度思考能力從數(shù)理邏輯擴(kuò)展到更多更通用的技術(shù)。
與現(xiàn)有模型不同,GLM-Zero-Preview能夠初步實(shí)現(xiàn)推理過程中自主決策、問題拆解和嘗試多種方式解決問題。團(tuán)隊(duì)發(fā)現(xiàn),隨著強(qiáng)化學(xué)習(xí)訓(xùn)練量的增加,模型在深度推理等方面的效果穩(wěn)步提升。團(tuán)隊(duì)也深入探究了模型在推理階段的scaling law(尺度定律),隨著模型可以思考的token數(shù)變多以及更多的計(jì)算量,模型給出的結(jié)果質(zhì)量穩(wěn)步提升,體現(xiàn)了“自我反思和優(yōu)化、復(fù)雜問題分解、嘗試用不同方法解決問題”等能力,這與人類的思考決策過程類似。

在7、9、11、13中如何用3個(gè)數(shù)字相加得到30,GLM-Zero-Preview識(shí)別邏輯漏洞。
在邏輯推理方面,GLM-Zero-Preview善于識(shí)別邏輯漏洞,能夠模擬多種假設(shè)和可能性。例如在7、9、11、13中如何用3個(gè)數(shù)字相加得到30,GLM-Zero-Preview能夠識(shí)別圖中數(shù)字,通過反思發(fā)現(xiàn)答案的關(guān)鍵在于9可以倒置為6(6+11+13=30)。
在數(shù)學(xué)方面,GLM-Zero-Preview具有更強(qiáng)的歸納與演繹能力,能夠快速處理復(fù)雜的數(shù)學(xué)運(yùn)算,解答包括代數(shù)、微積分、概率統(tǒng)計(jì)等領(lǐng)域的問題。以2025年考研數(shù)學(xué)一為例,GLM-Zero-Preview得分為126(總分150),達(dá)到優(yōu)秀研究生水平。GLM-Zero-Preview能夠提供詳細(xì)的解題過程,幫助用戶理解問題的核心思路。
GLM-Zero-Preview能夠熟練使用多種編程語言,幫助開發(fā)者快速編寫代碼。在代碼調(diào)試方面能夠快速識(shí)別錯(cuò)誤,給出詳細(xì)修復(fù)建議。例如只需要輸入指令“幫我用html寫一個(gè)有趣的第一人稱射擊游戲”,GLM-Zero-Preview便能迅速獨(dú)立完成游戲。





- 澎湃新聞微博
- 澎湃新聞公眾號(hào)
- 澎湃新聞抖音號(hào)
- IP SHANGHAI
- SIXTH TONE
- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報(bào)業(yè)有限公司