长兴郴障科技有限公司

澎湃Logo
下載客戶端

登錄

  • +1

很強也很貴!OpenAI12天12場直播收官,官宣最新推理模型o3

澎湃新聞記者 秦盛
2024-12-21 11:47
來源:澎湃新聞
? 10%公司 >
字號

OpenAI的12天12場直播收官,離AGI(artificial general intelligence,通用人工智能)似乎又更近了一步。

當地時間12月20日,和網友猜測的一樣,人工智能(AI)巨頭OpenAI發布最新推理模型o3和o3-mini。前一天,OpenAI公司CEO山姆·奧特曼(Sam Altman)就曾發文提到三個“o”暗示了o3的到來。

為何新模型跳過了o2直接命名o3?奧特曼表示是為了避免和英國電信運營商O2沖突,“按邏輯應該稱為o2,但我們起名字的能力實在太糟了,只能把它稱作o3”。

據介紹,在編碼測試SWE-Bench Verified中,o3性能比o1高出22.8%;在Codeforces競技編程中得分為2727分,相當于位列第175名的人類選手,甚至超過了OpenAI的首席科學家(2655分);在數學競賽AIME 2024和專家級科學問題基準測試GPQA Diamond中成績都得到明顯提升;而在令很多AI和數學家都束手無策的最難數學和推理挑戰FrontierMath中,o3解決了25.2%的問題,其他模型均未超過2%。

o3在多個測試中得分都較上一代產品o1得到明顯提升

FrontierMath測試結果

不過,o3和o3-mini并未正式發布,安全研究人員目前可以注冊獲取o3-mini的預覽版,o3預覽版也將在之后的某個時間推出,OpenAI沒有給出具體時間。在直播的一開始,奧特曼也強調了此次并不是發布,只是宣布o3。他表示,計劃在1月底發布o3-mini,然后再發布o3。

據外媒報道,AI安全測試人員發現,與傳統的“非推理”模型相比,OpenAI此前發布的o1的推理能力使其試圖欺騙人類用戶的比例更高,同樣,Meta、Anthropic和谷歌的領先模型也是如此。而o3試圖欺騙用戶的比例可能比它的前身更高。

OpenAI在博客中表示,正在使用一種新技術“慎重對齊”(deliberative alignment),來使o3等模型符合其安全原則。

通過OpenAI所謂的“私人思維鏈”,o3被訓練成在做出反應之前先“思考”。可以對任務進行推理并提前規劃,在較長時間內執行一系列動作,幫助找出解決方案。

在實踐中,當收到一個提示時,o3會在做出反應之前暫停,考慮一些相關的提示,并沿途“解釋”其推理過程。一段時間后,模型會總結出它認為最準確的答案。o3 的新功能是“調整”推理時間,可以設置為低、中或高計算量(即思考時間),計算時間越長,執行任務時的表現就越好。

與GPT-4o等大模型相比,o1模型在拒絕回答惡意越獄提示和不過度拒絕良性越獄提示方面都較為領先。

ARC-AGI(通用人工智能抽象與推理語料庫)發起者、Keras(用Python編寫的高級神經網絡API)之父弗朗索瓦·肖萊(Francois Chollet)在o3發布后公布了一篇測試報告。

報告顯示,o3在高計算量模式下獲得了87.5%的分數,在低計算量模式下,性能是o1的三倍。成本方面,低計算量模式下,每個任務需要花費20美元,而在高計算量模式中每個任務需要數千美元。

肖萊表示:“它非常昂貴,但并不只是‘蠻干’——這些能力是全新的領域,需要科學界的認真關注。”

弗朗索瓦·肖萊對于o3不同計算模式的測試結果

肖萊認為,雖然o3給人留下了深刻印象,是邁向AGI的一個重要里程碑,但并不就是AGI,仍然有相當多非常簡單的ARC-AGI-1的任務是o3無法解決的,同時還有跡象表明ARC-AGI-2對o3來說仍極具挑戰性,“這表明在不涉及專業知識的情況下,創建對人類來說容易但對人工智能來說不可能的不飽和、有趣的基準仍然是可行的。當創建這樣的測試變得完全不可能時,我們將擁有AGI”。

當然,ARC-AGI只是AI領域的重要基準之一,對AGI的定義只是其中之一。

肖萊稱,主要需要解決的問題是o3背后技術的擴展瓶頸在哪。如果人類標注的CoT數據(Chain-of-Thought,思維鏈)是一個主要瓶頸,那么它的能力就會像大模型一樣迅速達到頂峰(直到下一個架構出現)。如果唯一的瓶頸是測試時間搜索(Test-Time Search),那么未來我們將看到持續的擴展。

值得一提的是,除了OpenAI,各家AI公司近期也紛紛發布推理模型。

11月16日,月之暗面(Moonshot AI)Kimi推出新一代數學推理模型k0-math;11月20日,DeepSeek發布了首個推理模型DeepSeek-R1-Lite預覽版。11月28日,阿里云通義團隊發布全新AI推理模型QwQ-32B-Preview;在當地時間12月19日,谷歌發布首個推理模型Gemini 2.0 Flash Thinking。

英偉達CEO黃仁勛在10月的一次訪談中曾表達了對于推理的看好。他認為:“現在我們在后訓練和推理階段看到了擴展,預訓練再也不被視為艱難,推理也變得復雜。推理方面即將因推理鏈的出現而大幅增長……這是一場智能生產的革命,推理的增長將達到億倍的規模,這就像上學是為了將來在社會中有所貢獻,訓練模型很重要,但最終的目標是推理”。

月之暗面Kimi創始人楊植麟也在11月表示,推理的占比必然會遠超訓練,AI產品包括AI技術接下來的發展,很重要的能力就是更加深度的推理,能夠把現在只是短鏈路的簡單的問答,變成更長鏈路的組合式任務的操作。

    責任編輯:孫扶
    圖片編輯:沈軻
    校對:劉威
    澎湃新聞報料:021-962866
    澎湃新聞,未經授權不得轉載
    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網安備31010602000299號

            互聯網新聞信息服務許可證:31120170006

            增值電信業務經營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業有限公司

            反饋
            定做百家乐官网桌子| 代理百家乐官网试玩| 在线水果机游戏| 格龙24山五行| 信誉博彩网| 兰桂坊百家乐的玩法技巧和规则| 真百家乐官网游戏| 澳门百家乐官网死局| 大发888信誉娱乐城管理| 百家乐散台| 百家乐官网羸钱法| 缅甸百家乐官网论坛| 188金宝博开户| 大发888bocai官方下载| 百家乐真人游戏棋牌| 百家乐有没有绝| 网上百家乐官网真的假| 百家乐官网百家乐官网伴侣| tt娱乐城官方网站| 威尼斯人娱乐城会员注册| 百家乐赌场赌场网站| 缅甸百家乐赌博有假吗| 罗盘24山图是什么| 华盛顿百家乐官网的玩法技巧和规则 | 百家乐永利娱乐| 百家乐有送体验金| 百家乐书| 赌百家乐的方法| 博九百家乐娱乐城| 百家乐娱乐皇冠世界杯| 网上百家乐辅助软件| 百家乐编单短信接收| 百家乐开和几率| 百家乐怎么玩最保险| 百家乐赌博筹码| 玩百家乐有何技巧| 百家乐最常见的路子| 百家乐官网制胜绝招| 玩百家乐官网请高手指点| 百家乐注册就送| 百家乐官网翻天粤语|