智譜發布推理模型初代版本

澎湃新聞記者張靜

2024-12-31 18:55

來源：澎湃新聞

12月31日，國內明星大模型創業公司北京智譜華章科技有限公司推出基于擴展強化學習技術訓練的推理模型GLM-Zero-Preview，擅長處理數理邏輯、代碼和需要深度推理的復雜問題。

GLM-Zero-Preview是GLM-Zero的初代版本。智譜表示，目前的GLM-Zero-Preview與OpenAI的o3模型仍有不少差距，因此未來將持續優化迭代強化學習技術，推出正式版GLM-Zero，將深度思考能力從數理邏輯擴展到更多更通用的技術。

與現有模型不同，GLM-Zero-Preview能夠初步實現推理過程中自主決策、問題拆解和嘗試多種方式解決問題。團隊發現，隨著強化學習訓練量的增加，模型在深度推理等方面的效果穩步提升。團隊也深入探究了模型在推理階段的scaling law（尺度定律），隨著模型可以思考的token數變多以及更多的計算量，模型給出的結果質量穩步提升，體現了“自我反思和優化、復雜問題分解、嘗試用不同方法解決問題”等能力，這與人類的思考決策過程類似。

在7、9、11、13中如何用3個數字相加得到30，GLM-Zero-Preview識別邏輯漏洞。

在邏輯推理方面，GLM-Zero-Preview善于識別邏輯漏洞，能夠模擬多種假設和可能性。例如在7、9、11、13中如何用3個數字相加得到30，GLM-Zero-Preview能夠識別圖中數字，通過反思發現答案的關鍵在于9可以倒置為6（6+11+13=30）。

在數學方面，GLM-Zero-Preview具有更強的歸納與演繹能力，能夠快速處理復雜的數學運算，解答包括代數、微積分、概率統計等領域的問題。以2025年考研數學一為例，GLM-Zero-Preview得分為126（總分150），達到優秀研究生水平。GLM-Zero-Preview能夠提供詳細的解題過程，幫助用戶理解問題的核心思路。

GLM-Zero-Preview能夠熟練使用多種編程語言，幫助開發者快速編寫代碼。在代碼調試方面能夠快速識別錯誤，給出詳細修復建議。例如只需要輸入指令“幫我用html寫一個有趣的第一人稱射擊游戲”，GLM-Zero-Preview便能迅速獨立完成游戲。

責任編輯：宦艷紅

校對：丁曉

澎湃新聞報料：021-962866

澎湃新聞，未經授權不得轉載

我要舉報

#大模型 #強化學習