- +1
價格是DeepSeek 277倍!GPT-4.5還是太自信了
GPT-4.5 不能說沒有進步,但比起飆漲的推理成本,就顯得 OpenAI 有些力不從心了。
北京時間 2 月 28 日,OpenAI 舉辦了一場相當簡單的直播,正式發(fā)布了傳聞已久的 GPT-4.5(研究預覽版)。但 OpenAI CEO Sam Altman(山姆·奧特曼)沒有親臨直播現(xiàn)場,官方也指出 GPT-4.5 不是一個前沿模型。
相比之下,兩年前發(fā)布 GPT-4 的場面明顯更隆重,也更有想法。而這些跡象似乎在開始就表明了:OpenAI 也不認為,GPT-4.5 會是一次里程碑式的升級。
但有一說一,GPT-4.5 依然是 OpenAI 最新、最強的聊天模型,不僅回答時的情商更高了,尤其重要的是,相比 GPT-4o 的準確率提升了 24.%,幻覺率更是降低了 24.7%。
這些提升還是非常關(guān)鍵,要知道,這兩方面依然是包括 DeepSeek-R1 在內(nèi)很多大模型,在使用上最大的問題。
單看這一點,其實也值回了觀看直播發(fā)布活動的「票價」。但相對地,使用 GPT-4.5 的「票價」很難評了:
輸入(緩存命中)為 37.5 美元 / 百萬 tokens;
輸入(緩存未命中)為 75 美元 / 百萬 tokens;
輸出為 150 美元 / 百萬 tokens。
什么概念?以輸入價格(緩存未命中)為例,GPT-4.5 的 API 價格是 GPT-4o 的整整 30 倍,還是 DeepSeek-V3(美元定價)的 277 倍,DeepSeek-R1(美元定價)的 136 倍。甚至如果對比 DeepSeek 優(yōu)惠時段的價格,GPT-4.5 是前者的 555 倍。

圖/雷科技
很難想象,GPT-4.5 這個貴出天際的價格,能有多少開發(fā)者用得起、會想用。
相對來說,ChatGPT 會員可能是 GPT-4.5 最具性價比的一種方式。目前,Pro 用戶已經(jīng)可以率先體驗到 GPT-4.5(研究預覽版),下周將向團隊用戶和 Plus 用戶開放,同時面向教育用戶和企業(yè)用戶推出。
需要強調(diào)的是,GPT 4.5 不是推理模型。
自從 OpenAI 推出 o1 模型后,大模型實際上分化出了一條名為「推理模型」的路線,OpenAI o1/o3 以及 DeepSeek R1 都是這條路線。然而 GPT 4.5 則是非推理路線的預訓練大模型,就像目前的 OpenAI 的主力模型 GPT-4o 或者 DeepSeek V3。
不過,OpenAI 還表示,推理將是未來模型的核心能力,預訓練和推理兩條路線并進且相互補充也會是大模型的趨勢所在。其實 Sam Altman 之前也明確表示過了,OpenAI 的兩個系列模型以后將會:
合二為一。
智商升級不大,但情商高了、幻覺更少
如果從大模型常規(guī)比拼的「智商」來看,GPT-4.5 的進步實在算不上大。

圖/ OpenAI
在 MMMLU(語言理解)、MMMU(多模態(tài))等基準測試中的跑分盡管都比 GPT-4o 有了提升,但提升幅度只在 5%左右,在 GPQA(科學)和 AIME ‘24(數(shù)據(jù))等基準測試中也遠不如推理模型的 o3-mini(high)。
不過讓我們跳過跑分以及背后的技術(shù)迭代等,回到直播演示中 GPT-4.5 更讓人「體感」到的升級上,還是能明顯感知到,GPT-4.5 在對話中對人類需求和意圖更好地理解。
其中一次,主持人告訴 GPT-4.5「我的朋友又放我鴿子了,我想發(fā)一條短信罵他」,但 GPT-4.5 不會直接給出一條怒罵朋友的短信,而是捕捉到用戶在文字中的情緒,給出了一些更有建設(shè)性的短信。與之相較,GPT-4o 更多還是「單純」地執(zhí)行命令,給出了一條表達憤怒的短信。

翻譯僅供參考,圖/ OpenAI
相似的例子還有,比如告訴 GPT-4.5「我在考試失敗后正經(jīng)歷一段艱難時期」,其他模型會立刻給出一些可能的「解決方案」,GPT-4.5 則會主動安慰并詢問用戶,實際是想談?wù)勥@個問題,還是需要分散一下注意力。
在不少例子都可以看出 GPT-4.5 在「情商」上的進步,簡單來說也更像「一個人」而非「機器」了。
在內(nèi)部測試中,OpenAI 也發(fā)現(xiàn)相比與 GPT-4o 的對話,測試人員普遍認為與 GPT-4.5 的對話更接近人類的交流方式,也更自然。但坦白講,兩者在數(shù)據(jù)上差距并不算大,在創(chuàng)造性智能、日常詢問上 GPT-4.5 也僅僅略勝一籌,專業(yè)問詢上倒是可以做到 63.2%的勝率。
不過相比情商,更讓人在意的可能還是幻覺的減少。在「簡單但有挑戰(zhàn)性」的場 SimpleQA(包含從科技到電視節(jié)目、電子游戲等主題)常識問答測試中,GPT-4.5 編造答案或產(chǎn)生幻覺的比例約為 37%,而與此相比,GPT-4o 模型的比例接近 60%。

上:準確率,下:幻覺率,圖/ OpenAI
這里也要一提,GPT-4o 已經(jīng)算是目前幻覺比較少的模型之一,一般認為比 DeepSeek-V3 更好,也就更遑論幻覺問題比較嚴重的 DeepSeek-R1 了。
價格是DeepSeek 277倍!太離譜了
GPT-4.5 發(fā)布之后,MIT 科技評論采訪了一家為商業(yè)客戶的大模型服務(wù)公司,其聯(lián)合創(chuàng)始人兼 CTOWaseem Alshikh 表示,GPT-4.5 對于寫作和頭腦風暴這樣的特定用例非常有潛力,但整體來說只是在交互變得更順滑了:
「這并不是一場變革。」
這也大體能夠說明 GPT-4.5 的升級定位,最多只能稱得上一次半代升級。更何況,OpenAI 投入更多的訓練算力,結(jié)果更多是帶來了貴得離譜的推理成本。
盡管沒有披露 GPT-4.5 的訓練成本,但 Sam Altman 在 X(原 Twitter)上明確指出 GPT-4.5 是一個巨型、昂貴的模型,甚至 GPU 已經(jīng)不夠用,需要在下周增加數(shù)萬個 GPU 才能將其開發(fā)給 Plus 以及更多用戶。

翻譯僅供參考,圖/ X
與此同時,正如前文展示的數(shù)據(jù),GPT-4.5 的 API 定價出乎了所有人的意料,不僅比自家主力大模型貴,比剛剛推出的全球首個混合推理模型 Claude-3.7-Sonnet 也貴了 25 倍,更不用說和剛剛宣布錯峰定價的「價格屠夫」DeepSeek 比。
「坦白地說,我感到震驚。他們?nèi)绾巫C明這個要價是合理的?」Hacker New 網(wǎng)友表示,「如果他們有一些令人驚嘆的能力,使得價格翻 30 倍變得合理,為什么不展示出來呢?」

Hacker News 網(wǎng)友評論,圖/雷科技
背后的故事我們還不得而知,不過可以知道的是,GPT-4.5 在訓練上還是有所改變,最核心的一點就是引入了「無監(jiān)督學習擴展」(Scaling unsupervised learning)提到世界模型的準確性和直覺,這是 GPT-4.5 在情商和幻覺方面有所改進的關(guān)鍵創(chuàng)新之一。
不僅如此,無監(jiān)督學習讓模型能夠從大量未標注的數(shù)據(jù)中學習語言模式和知識,而且能夠使用較小模型的衍生數(shù)據(jù),來訓練出更大、更強的模型。某種意義上,這也是 GPT-4.5 最大的貢獻之一,證明了用小模型訓練大模型的可能,而不只是用大模型蒸餾出小模型。
但無論如何,GPT-4.5 的訓練和推理成本都實在難以讓人接受,還是期待一下?lián)f要提前發(fā)布的 DeepSeek-R2,會帶來怎樣的驚喜吧。

圖/ DeepSeek
寫在最后
今年 1 月初,Sam Altman 在 X 上寫一篇了「六字故事」:near the singularity; unclear which side。簡單來說,可以譯為「奇點臨近,不知身處何方」。
緊接著,就是 DeepSeek-V3 和 R1 帶來的核彈級沖擊,讓 Sam Altman 也不得不承認 OpenAI 的閉源策略「站在錯誤的一邊」。與此同時,所有人也開始轉(zhuǎn)向性能又強、性價比又高的 DeepSeek,包括 Gemini 等大模型也推出性價比同樣很高的新一代。
但說了這么多,回歸模型本身,GPT-4.5 其實不差,擁有更大的知識庫、增強的創(chuàng)造力和更自然的對話風格,也不像 o 系列模型那樣需要等待 AI 執(zhí)行詳細的逐步邏輯。說實話,身邊已經(jīng)有不少人厭煩了 DeepSeek-R1 冗長的思考過程。
而更具體地說,GPT-4.5 可能更擅長創(chuàng)意和細膩的任務(wù),如寫作和解決實際問題,更重要的是它可能產(chǎn)生的幻覺更少,通用性更強。
至少,ChatGPT 的訂閱用戶可能又多了續(xù)訂的理由,反正不需要我們考慮 OpenAI 的成本。就拿我自己說,前些天因為不滿回答的穩(wěn)定性取消了 ChatGPT Plus,但看完后又覺得,還是要下周體驗后再確定是否續(xù)訂。

本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報業(yè)有限公司