长兴郴障科技有限公司

澎湃Logo
下载客户端

登录

  • +1

Gemini 2.5編程全球霸榜,谷歌重回AI王座!神秘模型曝光,奧特曼迎戰(zhàn)

关注
2025-04-15 14:55
北京
来源:澎湃新聞·澎湃號·湃客
字号

新智元報(bào)道

編輯:桃子 英智

【新智元導(dǎo)讀】剛剛,Gemini 2.5 Pro編程登頂,6美元性價(jià)比碾壓Claude 3.7 Sonnet。不僅如此,谷歌還暗藏著更強(qiáng)的編程模型Dragontail,這次是要徹底翻盤了。

谷歌,徹底打了一場漂亮的翻身仗。

aider多語言編程基準(zhǔn)測試顯示,Gemini 2.5 Pro近出世半個(gè)多月,編程能力已經(jīng)是全球第一,口碑一眾超越Claude 3.7 Sonnet。

不僅如此,除了DeepSeek,它的性價(jià)比也是最優(yōu)的,成本低至6美金。

為了強(qiáng)調(diào)Gemini 2.5 Pro成本優(yōu)勢,Jeff Dean還附上了超詳細(xì)TOP 10模型的成本圖。

他驕傲地表示,「有些性能不怎么樣的模型,還要比Gemini 2.5貴上2倍、3倍,甚至是30倍」。

原本,以強(qiáng)大編程能力著稱的Claude,成為廣大開發(fā)者的主戰(zhàn)場。如今有了Gemini 2.5,AI編程將會上演一場史上最大的「遷徙」。

更令人欣喜的是,Gemini 2.5 Pro還不是編程最強(qiáng)的那個(gè)。

這幾天,競技場上,突然現(xiàn)身多款據(jù)稱是谷歌開發(fā)的模型,包括Nightwhisper、Dragontail等,編程能力讓人驚艷。

網(wǎng)友實(shí)測發(fā)現(xiàn),毫不夸張地說,Dragontail編程能力足以摧毀Gemini 2.5 Pro。

雖不知這款模型具體何時(shí)面世,但顯然谷歌還有很多驚喜在等著我們。另一邊,奧特曼也在今日凌晨,下達(dá)戰(zhàn)書——

傳說中的GPT-4.1、滿血版o3、o4-mini大概率會發(fā)布

預(yù)計(jì)本周,AI圈又將是一場惡戰(zhàn)。

Gemini 2.5 Pro編程霸榜,性價(jià)比最優(yōu)

3月25日官宣,Gemini 2.5 Pro半個(gè)多月里,各種精彩實(shí)測讓其在全網(wǎng)的熱度一直居高不下。

最新aider基準(zhǔn)測試,又為這款模型添上了一把火。官方接續(xù)Jeff Dean的圖,做了一張更加直觀可視化的表。

Aider Polyglot基準(zhǔn)測試是評估AI模型在多語言編程能力上的重要指標(biāo),涉及C++、Go、Java、JavaScript、Python和Rust等多種編程語言。

看得出,o1是十款模型中,最貴的那個(gè)(186.5美元),其次是Claude 3.7 Sonnet(32k thinking token)成本為36.83美元。

再之后,就是o3-mini、Claude 3.7 Sonnet(no thinking)、DeepSeek R1+Claude 3.5 Sonnet。

這些模型成本高不說,多語言編程能力還不如Gemini 2.5 Pro。

而且,谷歌第七代TPU也在發(fā)揮最大的效用了,能夠加速Gemini 2.5 Pro token的處理速度。

在網(wǎng)友實(shí)測的demo中,Gemini 2.5 Pro在單次編程提示中,表現(xiàn)非常出色——創(chuàng)建一個(gè)隨著音律躍動的3D星球。

谷歌產(chǎn)品負(fù)責(zé)人Logan Kilpatrick忍不住美言了幾句,「想要找到這樣既前沿,又具性價(jià)比的模型,真的太難了。Gemini 2.5 Pro真的是特別的那一款」。

一直以來,Anthropic沒有解決Claude速率限制問題,還推出了每月200美金付費(fèi)計(jì)劃,在開發(fā)者心中大打折扣。

谷歌Gemini 2.5 Pro憑借卓越的多語言編程能力,和超高的性價(jià)比,再次證明了谷歌在AI領(lǐng)域的深厚實(shí)力。

谷歌在AI領(lǐng)域全面獲勝

如今看來,在這場AI激烈競賽中,能全面Scaling的科技大廠,唯有谷歌了。

Gemini 2.5 Pro Experimental是全球最優(yōu)秀的AI模型,OpenAI和Anthropic目前都毫無勝算。

它在LMArena、GPQA Diamond、人類終極測試以及AIME等多項(xiàng)權(quán)威測評中,均排名第一。

在Aider Polyglot、Live Bench等非公開基準(zhǔn)測試?yán)镆裁星懊u003c/p>

在《寶可夢》游戲測試中,它的表現(xiàn)優(yōu)于Claude Sonnet。此外,它在創(chuàng)意寫作方面也有不錯(cuò)的表現(xiàn),尤其是長文本理解能力。

更重要的是,Gemini 2.5 Pro Experimental的基準(zhǔn)測試成績,與實(shí)際使用體驗(yàn)、專業(yè)測評反饋高度吻合。

大量用戶反饋,Gemini 2.5 Pro Experimental確實(shí)是當(dāng)下最強(qiáng)的AI模型。

這種情況在競爭激烈的AI行業(yè)實(shí)屬罕見。

此外,它速度快、成本低,谷歌甚至為用戶提供免費(fèi)使用權(quán)限。

它的上下文窗口多達(dá)100萬個(gè)token,并與谷歌龐大的產(chǎn)品生態(tài)緊密相連。

即將發(fā)布的Gemini 2.5 Flash是Gemini 2.5 Pro的「姊妹版本」,同樣表現(xiàn)出色。

它運(yùn)行速度極快且成本極低,比競爭對手的同類模型便宜得多。

Gemini 2.5 Flash非常適合應(yīng)用于邊緣計(jì)算場景,也便于集成到手機(jī)設(shè)備中。

Gemma 3是谷歌推出的開源模型,在性能上能與Llama 4、DeepSeek-V3等頂尖開源模型相媲美。

在性能和成本這兩個(gè)關(guān)鍵指標(biāo)上,谷歌的Gemini 2.0/2.5系列(包括Pro和Flash版本)占據(jù)著Pareto最優(yōu)前沿。

這意味著谷歌性能最強(qiáng)的模型,成本控制得也很好;性價(jià)比最高的模型,性能同樣出色。

這使其成為預(yù)算有限的開發(fā)者、企業(yè)和初創(chuàng)公司的理想選擇。

在其他生成式AI領(lǐng)域,谷歌同樣占據(jù)著主導(dǎo)地位。

谷歌宣布,將把旗下的Lyria、Imagen 3、Veo 2和Chirp 3等AI工具整合到Vertex AI平臺。它們在各自領(lǐng)域都是世界一流水平。

在智能體領(lǐng)域,開啟深度研究模式的Gemini 2.5 Pro,表現(xiàn)比OpenAI的深度研究功能強(qiáng)一倍。

Gemini與OpenAI深度研究功能的對比

彩蛋:Dragontail

近期,網(wǎng)上流傳著一款谷歌尚未正式發(fā)布的模型,代號「Dragontail」。

據(jù)稱其在Web開發(fā)領(lǐng)域表現(xiàn)驚艷,甚至超越了旗艦?zāi)P虶emini 2.5 Pro。

Dragontail最早出現(xiàn)在WebDev Arena(https://web.lmarena.ai/)的測試環(huán)境中。

經(jīng)開發(fā)者測試發(fā)現(xiàn),在生成復(fù)雜用戶界面、多頁面網(wǎng)站和交互式應(yīng)用方面,其展現(xiàn)出的能力遠(yuǎn)超其他模型。

盡管谷歌尚未官方確認(rèn)Dragontail,它在某些測試中自稱是「由谷歌訓(xùn)練的LLM」,這與Gemini 2.5 Pro的回應(yīng)一致。

人們猜測它可能是谷歌內(nèi)部開發(fā)的下一代模型,或者Gemini系列的升級版本。

Dragontail的實(shí)力究竟如何?根據(jù)測試者的反饋,這款模型在WebDev任務(wù)中的表現(xiàn)堪稱碾壓。

Dragontail在以下幾個(gè)方面展現(xiàn)了絕對優(yōu)勢:

卓越的UI設(shè)計(jì)

Dragontail生成的UI元素,不僅功能完善,在布局、配色和交互性上也極具美感。

比如,當(dāng)要求生成一個(gè)帶有復(fù)雜導(dǎo)航功能的零售網(wǎng)站時(shí),Dragontail能輸出整潔的代碼,里面包含動態(tài)加載的商品列表、響應(yīng)式設(shè)計(jì),頁面切換效果也很流暢。

相比之下,即使是當(dāng)前WebDev排行榜上表現(xiàn)出色的Gemini 2.5 Pro Experimental,在細(xì)節(jié)處理上還是差了一點(diǎn),偶爾會出現(xiàn)布局不夠直觀,或交互不夠順暢的問題。

功能實(shí)現(xiàn)的完整性

Dragontail生成的Web應(yīng)用,功能實(shí)現(xiàn)上幾乎沒有瑕疵。

從前端的JavaScript邏輯,到后端的API集成,它都能給出生產(chǎn)級別的代碼。

比如,開發(fā)者要求生成一個(gè)帶有實(shí)時(shí)數(shù)據(jù)更新的儀表盤,Dragontail不僅完成了前端可視化,還自動生成了后端模擬數(shù)據(jù)接口。

Gemini 2.5 Pro在做類似任務(wù)時(shí),往往需要額外的提示才能把邏輯補(bǔ)全。

代碼質(zhì)量與優(yōu)化

Dragontail的代碼風(fēng)格規(guī)范,遵循現(xiàn)代Web開發(fā)的最佳實(shí)踐。

它生成的React或Vue組件結(jié)構(gòu)清晰,狀態(tài)管理井井有條,還包含了錯(cuò)誤處理和性能優(yōu)化。

相比之下,Gemini 2.5 Pro雖然也能生成高質(zhì)量代碼,但在復(fù)雜項(xiàng)目中,偶爾會出現(xiàn)冗余代碼,或者不必要的復(fù)雜邏輯。

測試者一致認(rèn)為,Dragontail在視覺效果、功能完整性和用戶體驗(yàn)方面全面領(lǐng)先。

讓人懷疑,Dragontail是否代表了谷歌在Web開發(fā)AI領(lǐng)域的全新突破。

(注:基于WebDev Arena測試數(shù)據(jù)、開發(fā)者反饋及社交平臺X上的討論,部分信息尚未得到谷歌官方證實(shí),具體細(xì)節(jié)以未來發(fā)布為準(zhǔn)。)

參考資料:

https://x.com/paulgauthier/status/1911495784908177694

https://www.thealgorithmicbridge.com/p/google-is-winning-on-every-ai-front

https://www.reddit.com/r/Bard/comments/1jx6lr4/unreleased_google_model_dragontail_crushes_gemini/

原標(biāo)題:《Gemini 2.5編程全球霸榜,谷歌重回AI王座!神秘模型曝光,奧特曼迎戰(zhàn)》

閱讀原文

    本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

    +1
    0
    收藏
    我要举报
    评论(0)
    发表
    加载中
            查看更多

            扫码下载澎湃新闻客户端

            沪ICP备14003370号

            沪公网安备31010602000299号

            互联网新闻信息服务许可证:31120170006

            增值电信业务经营许可证:沪B2-2017116

            © 2014-2025 上海东方报业有限公司

            反馈
            网上百家乐是叫九五至尊么| 百家乐官网现金网开户平台 | 大赢家娱乐| 3d大赢家| 黎川县| 百家乐官网西园出售| 万人迷百家乐官网的玩法技巧和规则| 百家乐连闲几率| 玩百家乐出千方法| 大发888新澳博| 百家乐筹码| 香港百家乐官网赌场| 百家乐官网号破| 百家乐怎么刷反水| 广东百家乐网| 大发888充值500| bet365网址搜索器| 真钱百家乐官网送钱| 任我赢百家乐官网软件中国有限公司| 百家乐官网翻牌规则| 百家乐赌博程序| 顶级赌场是骗人的吗| 百家乐官网如何投注法| 粤港澳百家乐官网赌场娱乐网规则 | 百家乐在线怎么玩| 百家乐计划软件| 皇冠国际现金投注网| 百家乐官网赌场筹码| 网络百家乐官网开户网| 电脑版百家乐分析仪| 大发888娱乐城.com| 尊爵线上娱乐| 澳门百家乐官网小游戏| 博彩通百家乐官网概率| 有钱人百家乐官网的玩法技巧和规则 | 百家乐号游戏机| 雁荡棋牌游戏| 百家乐官网长龙太阳城| 百家乐官网筹码防伪| 百家乐轮盘一体机厂家| 尊龙备用网址|