长兴郴障科技有限公司

<button id="mqqom"></button>

<strike id="mqqom"><input id="mqqom"></input></strike>

<button id="mqqom"><xmp id="mqqom"></xmp></button><em id="mqqom"><xmp id="mqqom"></xmp></em>

<dd id="mqqom"></dd>

下載客戶端

登錄

+1

谷歌地表最強模型深夜來襲！Gemini 2.5 Pro發布即屠榜，代碼推理殺瘋了

2025-03-26 14:09

來源：澎湃新聞·澎湃號·湃客

新智元報道

編輯：Aeneas 好困

【新智元導讀】Gemini 2.5 Pro，剛剛深夜上線了！這個「思考」模型專為復雜任務打造，推理能力強大，一經誕生就橫掃各大榜單、拿下各類TOP 1，還創下了歷史上最大分數飛躍紀錄。

就在剛剛，谷歌的全新模型Gemini 2.5 Pro，果然深夜上線了！

Gemini 2.5 Pro是一個「思考」模型，能夠在回應前先進行思考推理，從而提升性能，并改善準確性。

谷歌稱，它是世界上最強大的模型，具備統一的推理能力，以及用戶所喜愛的Gemini的所有功能（長上下文、工具等）。

它在多個基準測試中達到了SOTA水平，并且以顯著的優勢在LMArena上排名第一。

現在，Gemini 2.5 Pro已經登頂了Arena排行榜的第一位，而且創下了歷史最大分數飛躍，比Grok-3/GPT-4.5整整高出了40分！

在代號「nebula」的測試中，它也橫掃所有類別奪得第一，并且獨攬數學、創意寫作、指令遵循、長查詢和多輪對話五大領域的冠軍！

在困難提示詞和編程兩大領域，它與Grok-3/GPT-4.5拿到了并列冠軍，而且在所有其他比拼中都以微弱優勢勝出，成功問鼎榜首！

此外，Gemini 2.5 Pro還成功登頂了視覺競技場（Vision Arena）排行榜榜首！

在網頁開發領域，它也同樣大放異彩，成功斬獲網頁開發競技場（WebDev Arena）亞軍寶座！

它是首個實力媲美 Claude 3.5 Sonnet 的模型，相比之前版本的Gemini更是實現了質的飛躍。

這一次，谷歌的模型又展現出巨大的飛躍，OpenAI、Anthropic、DeepSeek等競爭對手，在多久時間內會趕上？

目前，Gemini 2.5 Pro已在Google AI Studio和Gemini應用中，向Gemini Advanced用戶開放，并將很快在Vertex AI上推出。

而它的定價方案，會在未來幾周內公布，用戶可以在更高使用配額下，將模型應用于大規模生產環境。

網友實測后發現，它果然實力驚人，在所有模型中效果拔群，第一次嘗試就只用幾秒解決了一道難題。

Gemini 2.5 Pro上線！

谷歌表示，在AI領域，系統的「推理」能力不僅僅指分類和預測，而是指系統分析信息、得出邏輯結論、融入上下文和細微差別，以及做出明智決策的能力。

長期以來，谷歌一直在探索通過強化學習和思維鏈提示詞等技術，讓AI更智能、更具推理能力的方法。

正是在此基礎上，他們在2月推出了第一個思考模型，Gemini 2.0 Flash Thinking。

而今天，通過Gemini 2.5，他們結合了顯著增強的基礎模型和改進的后期訓練，讓模型達到了新的性能水平。

推理和代碼能力大幅提升

Gemini 2.5 Pro展現出了強大的推理和代碼能力，在常見的編程、數學和科學基準測試中均處于領先地位。

另外，在各類需要高級推理能力的基準測試中，它都達到了SOTA水平。

無需使用測試階段會增加計算成本的技術（如多數投票法），2.5 Pro就能在GPQA和 AIME 2025等數學和科學基準評測中表現卓越。

而且，在不使用任何外部工具的條件下，它就在挑戰人類知識和推理能力的極限前沿「人類最后的考試」中取得了18.8%的準確率，達到業界領先。

在編程能力上，Gemini 2.5相比2.0版本也實現了質的飛躍，而這，僅僅是個開始。

2.5 Pro在創建視覺精美的網頁應用和AI智能體代碼應用方面都表現卓越，在代碼轉換和編輯領域中，也同樣實力出色。

在智能體代碼評估的行業標準測試SWE-Bench Verified上，Gemini 2.5 Pro靠使用自定義智能體配置，就獲得了63.8%的優異成績。

以下這波demo，就展示了Gemini 2.5 Pro如何運用強大推理，僅通過一行提示詞，就能生成可執行代碼，來創建完整的動畫和游戲。

在下面這個demo中，僅僅根據下面這行prompt，它就生成了一段p5js的交互式動畫，展示了「宇宙魚」的場景，并且還顯示了魚們都在想什么。

它還根據以下prompt，生成了一個無限的恐龍跑酷游戲。

按照要求，它生成了像素化的恐龍圖像和有趣的游戲背景。

隨后，Gemini 2.5 Pro還通過編程實現了分形可視化。

它創建出了精細分形圖案的模擬程序，展現出了神奇的曼德布洛特集合。

此外，它還能構建一個交互式氣泡圖，直觀展示出了每個大陸的經濟與健康指標隨時間的變化。

或者用一段交互式的Javascript動畫，展示了旋轉六邊形內多彩的人工生命群體，并且按要求做成了「超新星星云」的感覺。

另外，它還能開發粒子系統模擬，給出了一個HTML文件，創造出了反射星云的沉浸式交互模擬場景。

原生多模態和超長上下文

Gemini 2.5繼承并發揚了Gemini 模型的優勢——原生多模態能力和超長上下文長度。

自己發布之初，2.5 Pro就支持100萬token的上下文窗口（而200萬token也即將推出！），性能顯著超越了前代模型。

這能讓它理解海量數據集，并處理來自多種信息源的復雜問題，包括文本、音頻、圖像、視頻，甚至完整的代碼倉庫。

最后，既然谷歌已經掏出了地表最強模型，接下來，就讓我們坐等OpenAI的反應了。

參考資料：

https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/#gemini-2-5-thinking

https://deepmind.google/technologies/gemini/pro/

https://x.com/lmarena_ai/status/1904581128746656099

原標題：《谷歌地表最強模型深夜來襲！Gemini 2.5 Pro發布即屠榜，代碼推理殺瘋了》

特別聲明

本文為澎湃號作者或機構在澎湃新聞上傳并發布，僅代表該作者或機構觀點，不代表澎湃新聞的觀點或立場，澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

+1

收藏

查看更多

掃碼下載澎湃新聞客戶端

澎湃矩陣

澎湃新聞微博
澎湃新聞公眾號
澎湃新聞抖音號
IP SHANGHAI
SIXTH TONE

新聞報料

報料熱線: 021-962866
報料郵箱: news@thepaper.cn

滬ICP備14003370號

滬公網安備31010602000299號

互聯網新聞信息服務許可證：31120170006

增值電信業務經營許可證：滬B2-2017116

? 2014-2025 上海東方報業有限公司

反饋

马牌线上娱乐| 娱乐城| 致胜百家乐官网的玩法技巧和规则 | 百家乐官网任你博娱乐场开户注册| 大发888娱乐场 zb8| 百家乐21点游戏| 百家乐官网大路小路三珠路| 百家乐官网软件购买| 大发888游戏怎么玩| 中国百家乐的玩法技巧和规则| 百家乐官网上海代理| 大发888娱乐场下载zhidu| 百家乐百姓话题| 战胜百家乐官网的技巧| 德州扑克qq| 百家乐如何捕捉长龙| 鑫鑫百家乐官网的玩法技巧和规则| 永利博网址| 大发888娱乐场怎样下载| 做生意讲究风水吗| 大发888官方下载网址| 粤港澳百家乐娱乐平台| 金道百家乐游戏| 24山辅星水法分阴阳| 联合百家乐官网的玩法技巧和规则| 百家乐官网入庄闲概率| 百家乐官网园百利宫娱乐城信誉好... | 电脑赌百家乐官网可靠吗| 澳门百家乐官网娱乐城网址| 明升网址 | 大发888真钱娱乐游戏博彩| 赌神网百家乐的玩法技巧和规则| 做生意摆放龙龟方向| 德安县| 抚州市| 免费百家乐官网规则| 威信县| 百家乐官网博彩策略论坛| 百家乐官网必学技巧| 游戏房百家乐官网赌博图片| 百家乐官网现场新全讯网|

<dd id="mm0om"><strong id="mm0om"></strong></dd>