下载客户端

Gemini 2.5編程全球霸榜，谷歌重回AI王座！神秘模型曝光，奧特曼迎戰(zhàn)

新智元

关注

2025-04-15 14:55

北京

来源：澎湃新聞·澎湃號·湃客

新智元報(bào)道

編輯：桃子英智

【新智元導(dǎo)讀】剛剛，Gemini 2.5 Pro編程登頂，6美元性價(jià)比碾壓Claude 3.7 Sonnet。不僅如此，谷歌還暗藏著更強(qiáng)的編程模型Dragontail，這次是要徹底翻盤了。

谷歌，徹底打了一場漂亮的翻身仗。

aider多語言編程基準(zhǔn)測試顯示，Gemini 2.5 Pro近出世半個(gè)多月，編程能力已經(jīng)是全球第一，口碑一眾超越Claude 3.7 Sonnet。

不僅如此，除了DeepSeek，它的性價(jià)比也是最優(yōu)的，成本低至6美金。

為了強(qiáng)調(diào)Gemini 2.5 Pro成本優(yōu)勢，Jeff Dean還附上了超詳細(xì)TOP 10模型的成本圖。

他驕傲地表示，「有些性能不怎么樣的模型，還要比Gemini 2.5貴上2倍、3倍，甚至是30倍」。

原本，以強(qiáng)大編程能力著稱的Claude，成為廣大開發(fā)者的主戰(zhàn)場。如今有了Gemini 2.5，AI編程將會上演一場史上最大的「遷徙」。

更令人欣喜的是，Gemini 2.5 Pro還不是編程最強(qiáng)的那個(gè)。

這幾天，競技場上，突然現(xiàn)身多款據(jù)稱是谷歌開發(fā)的模型，包括Nightwhisper、Dragontail等，編程能力讓人驚艷。

網(wǎng)友實(shí)測發(fā)現(xiàn)，毫不夸張地說，Dragontail編程能力足以摧毀Gemini 2.5 Pro。

雖不知這款模型具體何時(shí)面世，但顯然谷歌還有很多驚喜在等著我們。另一邊，奧特曼也在今日凌晨，下達(dá)戰(zhàn)書——

傳說中的GPT-4.1、滿血版o3、o4-mini大概率會發(fā)布

預(yù)計(jì)本周，AI圈又將是一場惡戰(zhàn)。

Gemini 2.5 Pro編程霸榜，性價(jià)比最優(yōu)

3月25日官宣，Gemini 2.5 Pro半個(gè)多月里，各種精彩實(shí)測讓其在全網(wǎng)的熱度一直居高不下。

最新aider基準(zhǔn)測試，又為這款模型添上了一把火。官方接續(xù)Jeff Dean的圖，做了一張更加直觀可視化的表。

Aider Polyglot基準(zhǔn)測試是評估AI模型在多語言編程能力上的重要指標(biāo)，涉及C++、Go、Java、JavaScript、Python和Rust等多種編程語言。

看得出，o1是十款模型中，最貴的那個(gè)（186.5美元），其次是Claude 3.7 Sonnet（32k thinking token）成本為36.83美元。

再之后，就是o3-mini、Claude 3.7 Sonnet（no thinking）、DeepSeek R1+Claude 3.5 Sonnet。

這些模型成本高不說，多語言編程能力還不如Gemini 2.5 Pro。

而且，谷歌第七代TPU也在發(fā)揮最大的效用了，能夠加速Gemini 2.5 Pro token的處理速度。

在網(wǎng)友實(shí)測的demo中，Gemini 2.5 Pro在單次編程提示中，表現(xiàn)非常出色——創(chuàng)建一個(gè)隨著音律躍動的3D星球。

谷歌產(chǎn)品負(fù)責(zé)人Logan Kilpatrick忍不住美言了幾句，「想要找到這樣既前沿，又具性價(jià)比的模型，真的太難了。Gemini 2.5 Pro真的是特別的那一款」。

一直以來，Anthropic沒有解決Claude速率限制問題，還推出了每月200美金付費(fèi)計(jì)劃，在開發(fā)者心中大打折扣。

谷歌Gemini 2.5 Pro憑借卓越的多語言編程能力，和超高的性價(jià)比，再次證明了谷歌在AI領(lǐng)域的深厚實(shí)力。

谷歌在AI領(lǐng)域全面獲勝

如今看來，在這場AI激烈競賽中，能全面Scaling的科技大廠，唯有谷歌了。

Gemini 2.5 Pro Experimental是全球最優(yōu)秀的AI模型，OpenAI和Anthropic目前都毫無勝算。

它在LMArena、GPQA Diamond、人類終極測試以及AIME等多項(xiàng)權(quán)威測評中，均排名第一。

在Aider Polyglot、Live Bench等非公開基準(zhǔn)測試?yán)镆裁星懊u003c/p>

在《寶可夢》游戲測試中，它的表現(xiàn)優(yōu)于Claude Sonnet。此外，它在創(chuàng)意寫作方面也有不錯(cuò)的表現(xiàn)，尤其是長文本理解能力。

更重要的是，Gemini 2.5 Pro Experimental的基準(zhǔn)測試成績，與實(shí)際使用體驗(yàn)、專業(yè)測評反饋高度吻合。

大量用戶反饋，Gemini 2.5 Pro Experimental確實(shí)是當(dāng)下最強(qiáng)的AI模型。

這種情況在競爭激烈的AI行業(yè)實(shí)屬罕見。

此外，它速度快、成本低，谷歌甚至為用戶提供免費(fèi)使用權(quán)限。

它的上下文窗口多達(dá)100萬個(gè)token，并與谷歌龐大的產(chǎn)品生態(tài)緊密相連。

即將發(fā)布的Gemini 2.5 Flash是Gemini 2.5 Pro的「姊妹版本」，同樣表現(xiàn)出色。

它運(yùn)行速度極快且成本極低，比競爭對手的同類模型便宜得多。

Gemini 2.5 Flash非常適合應(yīng)用于邊緣計(jì)算場景，也便于集成到手機(jī)設(shè)備中。

Gemma 3是谷歌推出的開源模型，在性能上能與Llama 4、DeepSeek-V3等頂尖開源模型相媲美。

在性能和成本這兩個(gè)關(guān)鍵指標(biāo)上，谷歌的Gemini 2.0/2.5系列（包括Pro和Flash版本）占據(jù)著Pareto最優(yōu)前沿。

這意味著谷歌性能最強(qiáng)的模型，成本控制得也很好；性價(jià)比最高的模型，性能同樣出色。

這使其成為預(yù)算有限的開發(fā)者、企業(yè)和初創(chuàng)公司的理想選擇。

在其他生成式AI領(lǐng)域，谷歌同樣占據(jù)著主導(dǎo)地位。

谷歌宣布，將把旗下的Lyria、Imagen 3、Veo 2和Chirp 3等AI工具整合到Vertex AI平臺。它們在各自領(lǐng)域都是世界一流水平。

在智能體領(lǐng)域，開啟深度研究模式的Gemini 2.5 Pro，表現(xiàn)比OpenAI的深度研究功能強(qiáng)一倍。

Gemini與OpenAI深度研究功能的對比

彩蛋：Dragontail

近期，網(wǎng)上流傳著一款谷歌尚未正式發(fā)布的模型，代號「Dragontail」。

據(jù)稱其在Web開發(fā)領(lǐng)域表現(xiàn)驚艷，甚至超越了旗艦?zāi)Ｐ虶emini 2.5 Pro。

Dragontail最早出現(xiàn)在WebDev Arena（https://web.lmarena.ai/）的測試環(huán)境中。

經(jīng)開發(fā)者測試發(fā)現(xiàn)，在生成復(fù)雜用戶界面、多頁面網(wǎng)站和交互式應(yīng)用方面，其展現(xiàn)出的能力遠(yuǎn)超其他模型。

盡管谷歌尚未官方確認(rèn)Dragontail，它在某些測試中自稱是「由谷歌訓(xùn)練的LLM」，這與Gemini 2.5 Pro的回應(yīng)一致。

人們猜測它可能是谷歌內(nèi)部開發(fā)的下一代模型，或者Gemini系列的升級版本。

Dragontail的實(shí)力究竟如何？根據(jù)測試者的反饋，這款模型在WebDev任務(wù)中的表現(xiàn)堪稱碾壓。

Dragontail在以下幾個(gè)方面展現(xiàn)了絕對優(yōu)勢：

卓越的UI設(shè)計(jì)

Dragontail生成的UI元素，不僅功能完善，在布局、配色和交互性上也極具美感。

比如，當(dāng)要求生成一個(gè)帶有復(fù)雜導(dǎo)航功能的零售網(wǎng)站時(shí)，Dragontail能輸出整潔的代碼，里面包含動態(tài)加載的商品列表、響應(yīng)式設(shè)計(jì)，頁面切換效果也很流暢。

相比之下，即使是當(dāng)前WebDev排行榜上表現(xiàn)出色的Gemini 2.5 Pro Experimental，在細(xì)節(jié)處理上還是差了一點(diǎn)，偶爾會出現(xiàn)布局不夠直觀，或交互不夠順暢的問題。

功能實(shí)現(xiàn)的完整性

Dragontail生成的Web應(yīng)用，功能實(shí)現(xiàn)上幾乎沒有瑕疵。

從前端的JavaScript邏輯，到后端的API集成，它都能給出生產(chǎn)級別的代碼。

比如，開發(fā)者要求生成一個(gè)帶有實(shí)時(shí)數(shù)據(jù)更新的儀表盤，Dragontail不僅完成了前端可視化，還自動生成了后端模擬數(shù)據(jù)接口。

Gemini 2.5 Pro在做類似任務(wù)時(shí)，往往需要額外的提示才能把邏輯補(bǔ)全。

代碼質(zhì)量與優(yōu)化

Dragontail的代碼風(fēng)格規(guī)范，遵循現(xiàn)代Web開發(fā)的最佳實(shí)踐。

它生成的React或Vue組件結(jié)構(gòu)清晰，狀態(tài)管理井井有條，還包含了錯(cuò)誤處理和性能優(yōu)化。

相比之下，Gemini 2.5 Pro雖然也能生成高質(zhì)量代碼，但在復(fù)雜項(xiàng)目中，偶爾會出現(xiàn)冗余代碼，或者不必要的復(fù)雜邏輯。

測試者一致認(rèn)為，Dragontail在視覺效果、功能完整性和用戶體驗(yàn)方面全面領(lǐng)先。

讓人懷疑，Dragontail是否代表了谷歌在Web開發(fā)AI領(lǐng)域的全新突破。

（注：基于WebDev Arena測試數(shù)據(jù)、開發(fā)者反饋及社交平臺X上的討論，部分信息尚未得到谷歌官方證實(shí)，具體細(xì)節(jié)以未來發(fā)布為準(zhǔn)。）

參考資料：

https://x.com/paulgauthier/status/1911495784908177694

https://www.thealgorithmicbridge.com/p/google-is-winning-on-every-ai-front

https://www.reddit.com/r/Bard/comments/1jx6lr4/unreleased_google_model_dragontail_crushes_gemini/

原標(biāo)題：《Gemini 2.5編程全球霸榜，谷歌重回AI王座！神秘模型曝光，奧特曼迎戰(zhàn)》

閱讀原文

特别声明

本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

我要举报

加载中

扫码下载澎湃新闻客户端

澎湃矩阵

新闻报料

报料热线: 021-962866
报料邮箱: news@thepaper.cn

沪ICP备14003370号

沪公网安备31010602000299号

互联网新闻信息服务许可证：31120170006

增值电信业务经营许可证：沪B2-2017116

反馈

长兴郴障科技有限公司

Gemini 2.5編程全球霸榜，谷歌重回AI王座！神秘模型曝光，奧特曼迎戰(zhàn)

扫码下载澎湃新闻客户端