下載客戶端

登錄

價格是DeepSeek 277倍！GPT-4.5還是太自信了

2025-03-03 14:20

來源：澎湃新聞·澎湃號·湃客

GPT-4.5 不能說沒有進步，但比起飆漲的推理成本，就顯得 OpenAI 有些力不從心了。

北京時間 2 月 28 日，OpenAI 舉辦了一場相當簡單的直播，正式發(fā)布了傳聞已久的 GPT-4.5（研究預覽版）。但 OpenAI CEO Sam Altman（山姆·奧特曼）沒有親臨直播現(xiàn)場，官方也指出 GPT-4.5 不是一個前沿模型。

相比之下，兩年前發(fā)布 GPT-4 的場面明顯更隆重，也更有想法。而這些跡象似乎在開始就表明了：OpenAI 也不認為，GPT-4.5 會是一次里程碑式的升級。

但有一說一，GPT-4.5 依然是 OpenAI 最新、最強的聊天模型，不僅回答時的情商更高了，尤其重要的是，相比 GPT-4o 的準確率提升了 24.%，幻覺率更是降低了 24.7%。

這些提升還是非常關(guān)鍵，要知道，這兩方面依然是包括 DeepSeek-R1 在內(nèi)很多大模型，在使用上最大的問題。

單看這一點，其實也值回了觀看直播發(fā)布活動的「票價」。但相對地，使用 GPT-4.5 的「票價」很難評了：

輸入（緩存命中）為 37.5 美元 / 百萬 tokens；

輸入（緩存未命中）為 75 美元 / 百萬 tokens；

輸出為 150 美元 / 百萬 tokens。

什么概念？以輸入價格（緩存未命中）為例，GPT-4.5 的 API 價格是 GPT-4o 的整整 30 倍，還是 DeepSeek-V3（美元定價）的 277 倍，DeepSeek-R1（美元定價）的 136 倍。甚至如果對比 DeepSeek 優(yōu)惠時段的價格，GPT-4.5 是前者的 555 倍。

圖/雷科技

很難想象，GPT-4.5 這個貴出天際的價格，能有多少開發(fā)者用得起、會想用。

相對來說，ChatGPT 會員可能是 GPT-4.5 最具性價比的一種方式。目前，Pro 用戶已經(jīng)可以率先體驗到 GPT-4.5（研究預覽版），下周將向團隊用戶和 Plus 用戶開放，同時面向教育用戶和企業(yè)用戶推出。

需要強調(diào)的是，GPT 4.5 不是推理模型。

自從 OpenAI 推出 o1 模型后，大模型實際上分化出了一條名為「推理模型」的路線，OpenAI o1/o3 以及 DeepSeek R1 都是這條路線。然而 GPT 4.5 則是非推理路線的預訓練大模型，就像目前的 OpenAI 的主力模型 GPT-4o 或者 DeepSeek V3。

不過，OpenAI 還表示，推理將是未來模型的核心能力，預訓練和推理兩條路線并進且相互補充也會是大模型的趨勢所在。其實 Sam Altman 之前也明確表示過了，OpenAI 的兩個系列模型以后將會：

合二為一。

智商升級不大，但情商高了、幻覺更少

如果從大模型常規(guī)比拼的「智商」來看，GPT-4.5 的進步實在算不上大。

圖/ OpenAI

在 MMMLU（語言理解）、MMMU（多模態(tài)）等基準測試中的跑分盡管都比 GPT-4o 有了提升，但提升幅度只在 5%左右，在 GPQA（科學）和 AIME ‘24（數(shù)據(jù)）等基準測試中也遠不如推理模型的 o3-mini（high）。

不過讓我們跳過跑分以及背后的技術(shù)迭代等，回到直播演示中 GPT-4.5 更讓人「體感」到的升級上，還是能明顯感知到，GPT-4.5 在對話中對人類需求和意圖更好地理解。

其中一次，主持人告訴 GPT-4.5「我的朋友又放我鴿子了，我想發(fā)一條短信罵他」，但 GPT-4.5 不會直接給出一條怒罵朋友的短信，而是捕捉到用戶在文字中的情緒，給出了一些更有建設(shè)性的短信。與之相較，GPT-4o 更多還是「單純」地執(zhí)行命令，給出了一條表達憤怒的短信。

翻譯僅供參考，圖/ OpenAI

相似的例子還有，比如告訴 GPT-4.5「我在考試失敗后正經(jīng)歷一段艱難時期」，其他模型會立刻給出一些可能的「解決方案」，GPT-4.5 則會主動安慰并詢問用戶，實際是想談?wù)勥@個問題，還是需要分散一下注意力。

在不少例子都可以看出 GPT-4.5 在「情商」上的進步，簡單來說也更像「一個人」而非「機器」了。

在內(nèi)部測試中，OpenAI 也發(fā)現(xiàn)相比與 GPT-4o 的對話，測試人員普遍認為與 GPT-4.5 的對話更接近人類的交流方式，也更自然。但坦白講，兩者在數(shù)據(jù)上差距并不算大，在創(chuàng)造性智能、日常詢問上 GPT-4.5 也僅僅略勝一籌，專業(yè)問詢上倒是可以做到 63.2%的勝率。

不過相比情商，更讓人在意的可能還是幻覺的減少。在「簡單但有挑戰(zhàn)性」的場 SimpleQA（包含從科技到電視節(jié)目、電子游戲等主題）常識問答測試中，GPT-4.5 編造答案或產(chǎn)生幻覺的比例約為 37%，而與此相比，GPT-4o 模型的比例接近 60%。

上：準確率，下：幻覺率，圖/ OpenAI

這里也要一提，GPT-4o 已經(jīng)算是目前幻覺比較少的模型之一，一般認為比 DeepSeek-V3 更好，也就更遑論幻覺問題比較嚴重的 DeepSeek-R1 了。

價格是DeepSeek 277倍！太離譜了

GPT-4.5 發(fā)布之后，MIT 科技評論采訪了一家為商業(yè)客戶的大模型服務(wù)公司，其聯(lián)合創(chuàng)始人兼 CTOWaseem Alshikh 表示，GPT-4.5 對于寫作和頭腦風暴這樣的特定用例非常有潛力，但整體來說只是在交互變得更順滑了：

「這并不是一場變革。」

這也大體能夠說明 GPT-4.5 的升級定位，最多只能稱得上一次半代升級。更何況，OpenAI 投入更多的訓練算力，結(jié)果更多是帶來了貴得離譜的推理成本。

盡管沒有披露 GPT-4.5 的訓練成本，但 Sam Altman 在 X（原 Twitter）上明確指出 GPT-4.5 是一個巨型、昂貴的模型，甚至 GPU 已經(jīng)不夠用，需要在下周增加數(shù)萬個 GPU 才能將其開發(fā)給 Plus 以及更多用戶。

翻譯僅供參考，圖/ X

與此同時，正如前文展示的數(shù)據(jù)，GPT-4.5 的 API 定價出乎了所有人的意料，不僅比自家主力大模型貴，比剛剛推出的全球首個混合推理模型 Claude-3.7-Sonnet 也貴了 25 倍，更不用說和剛剛宣布錯峰定價的「價格屠夫」DeepSeek 比。

「坦白地說，我感到震驚。他們?nèi)绾巫C明這個要價是合理的？」Hacker New 網(wǎng)友表示，「如果他們有一些令人驚嘆的能力，使得價格翻 30 倍變得合理，為什么不展示出來呢？」

Hacker News 網(wǎng)友評論，圖/雷科技

背后的故事我們還不得而知，不過可以知道的是，GPT-4.5 在訓練上還是有所改變，最核心的一點就是引入了「無監(jiān)督學習擴展」（Scaling unsupervised learning）提到世界模型的準確性和直覺，這是 GPT-4.5 在情商和幻覺方面有所改進的關(guān)鍵創(chuàng)新之一。

不僅如此，無監(jiān)督學習讓模型能夠從大量未標注的數(shù)據(jù)中學習語言模式和知識，而且能夠使用較小模型的衍生數(shù)據(jù)，來訓練出更大、更強的模型。某種意義上，這也是 GPT-4.5 最大的貢獻之一，證明了用小模型訓練大模型的可能，而不只是用大模型蒸餾出小模型。

但無論如何，GPT-4.5 的訓練和推理成本都實在難以讓人接受，還是期待一下?lián)f要提前發(fā)布的 DeepSeek-R2，會帶來怎樣的驚喜吧。

圖/ DeepSeek

寫在最后

今年 1 月初，Sam Altman 在 X 上寫一篇了「六字故事」：near the singularity; unclear which side。簡單來說，可以譯為「奇點臨近，不知身處何方」。

緊接著，就是 DeepSeek-V3 和 R1 帶來的核彈級沖擊，讓 Sam Altman 也不得不承認 OpenAI 的閉源策略「站在錯誤的一邊」。與此同時，所有人也開始轉(zhuǎn)向性能又強、性價比又高的 DeepSeek，包括 Gemini 等大模型也推出性價比同樣很高的新一代。

但說了這么多，回歸模型本身，GPT-4.5 其實不差，擁有更大的知識庫、增強的創(chuàng)造力和更自然的對話風格，也不像 o 系列模型那樣需要等待 AI 執(zhí)行詳細的逐步邏輯。說實話，身邊已經(jīng)有不少人厭煩了 DeepSeek-R1 冗長的思考過程。

而更具體地說，GPT-4.5 可能更擅長創(chuàng)意和細膩的任務(wù)，如寫作和解決實際問題，更重要的是它可能產(chǎn)生的幻覺更少，通用性更強。

至少，ChatGPT 的訂閱用戶可能又多了續(xù)訂的理由，反正不需要我們考慮 OpenAI 的成本。就拿我自己說，前些天因為不滿回答的穩(wěn)定性取消了 ChatGPT Plus，但看完后又覺得，還是要下周體驗后再確定是否續(xù)訂。

特別聲明

本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機構(gòu)觀點，不代表澎湃新聞的觀點或立場，澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

我要舉報

#GPT

掃碼下載澎湃新聞客戶端

澎湃矩陣

澎湃新聞微博
澎湃新聞公眾號
澎湃新聞抖音號
IP SHANGHAI
SIXTH TONE

新聞報料

報料熱線: 021-962866
報料郵箱: news@thepaper.cn

滬ICP備14003370號

滬公網(wǎng)安備31010602000299號

互聯(lián)網(wǎng)新聞信息服務(wù)許可證：31120170006

增值電信業(yè)務(wù)經(jīng)營許可證：滬B2-2017116

? 2014-2025 上海東方報業(yè)有限公司

反饋

长兴郴障科技有限公司

價格是DeepSeek 277倍！GPT-4.5還是太自信了

掃碼下載澎湃新聞客戶端