Google“絕地反擊”OpenAI新模型GPT-4o

2024-05-15 12:54

來源：澎湃新聞·澎湃號·湃客

昨天被OpenAI的最新多模態大模型GPT-4o搶盡了風頭，今天谷歌在I/O開發者大會上做出“絕地反擊”，產品更新處處對標OpenAI。

會前，谷歌上傳了一個視頻在自己的官方推特上，內容是一個人將手機鏡頭對著I/O舞臺與Gemini聊天。

當被問到在鏡頭里看到了什么時，Gemini回答道：“看起來人們正在為一場大型活動做準備，也許是一次會議或演示。有什么特別的東西引起了你的注意嗎？”

當被要求分析舞臺上顯示的字母含義時，Gemini說這些字母代表谷歌I/O，隨后根據新的提示，Gemini表示表示它很高興在大會上了解人工智能的新進展以及它們如何在日常生活中幫助人們。

它流暢、類似人類的說話語氣，和對周邊環境的識別能力，都讓人不得不想起昨天才推出的GPT-4o。

和GPT-4o一樣，這應該只是最新Gemini的內測版本，還未向公眾開放。GPT-4o目前也只向用戶提供文本和圖像功能，實時語音模式會在來幾周內推出。

稍后在大會上，谷歌展示了其語音AI助手Gemini Live和多模態AI項目Project Astra，這兩個項目可能為新的Gemini提供了技術支持。

Gemini Live支持實時互動，用戶可以隨時打斷和聊天機器人的會話。通過和Google Lens集成，它支持用戶通過錄制和解說視頻進行網絡搜索，充分利用了其大上下文窗口的優勢，使用戶能夠迅速訪問大量信息，從而使與AI助手的互動更加自然和順暢。

Gemini Live將提供10種語音選項，會在今年晚些時候上線，屆時Google會將Gemini Live開放給Gemini Advanced訂閱者。

Project Astra由谷歌DeepMind實驗室負責人代米斯·哈薩比斯（Demis Hassabis）領導，他設想Astra將是一個隨時待命的全能助手，類似于《星際迷航》中的虛構通訊器或電影《她》中的聲音，無處不在。

巧合的是，昨天OpenAI的首席執行官薩姆·奧爾特曼（Sam Altman）在推特上也將GPT-4o比作電影《她》。

Astra設計為可以實時操作，通過對話方式回答問題或協助完成任務，支持多種交互方式，包括語音、文字、繪圖、攝影和視頻。

在展示視頻中，Astra幫助谷歌倫敦辦公室的員工找到里他丟失的眼鏡，并對白板上的代碼進行了檢查等等，這一切實際上都是以對話的方式實時進行的。

這還不算最“針鋒相對”的，在大會上，谷歌首席執行官桑達爾·皮查伊（Sundar Pichai）和一眾高管們不停的在演講中強調“我們的Gemini在誕生之初就是按照多模態路徑去打造的”，似乎是在“狠狠打臉”剛推出首個多模態大模型GPT-4o的OpenAI。

當然，谷歌對旗艦AI模型Gemini也進行了更新。最新版Gemini 1.5 Pro將添加更大的上下文窗口，從之前最多支持100萬個token到后續將能夠處理200萬個token。

Gemini 1.5 Pro 于二月份推出，是一款專為跨任務擴展優化的中型多模態模型（mid-size multimodal model），配備了能夠支持128,000 個 token 的上下文窗口。通過 AI Studio 和 Vertex AI，一小部分開發者和企業客戶可以使用100萬個token的擴展上下文窗口。這意味著Gemini 1.5 Pro最多能夠一次性處理 1 小時的視頻、11 小時的音頻、超過 30,000 行的代碼庫，或分析超過 700,000 個單詞的文檔。

速度更快，效率更高也更便宜的的Gemini 1.5 Flash也在此次大會上被推出。Gemini 1.5 Pro起始價格為7 美元/100萬token， Gemini 1.5 Flash起始價格為0.35 美元/100萬token。

今天開始，開發者可以通過Google AI Studio 和Vertex AI對Gemini 1.5 Flash進行試用。

谷歌表示，Gemini 1.5 Pro將很快在Workspace的側面板中提供，實現跨應用程序的工作流程自動化。

Gemini還被引入谷歌相冊。在新功能“Ask Photos”的幫助下，用戶可以直接通過聊天機器人查詢照片，而無需再手動翻閱成千上萬張照片。例如，如果你想知道自己的車牌號碼，只需問Gemini：“我的車牌號是多少？”而無需輸入關鍵詞“車牌”并瀏覽所有相關照片。Gemini將智能地識別并提取屬于你的車輛的車牌號碼。這項功能計劃在今年夏天晚些時候向所有谷歌相冊用戶推出。

在此次AI模型產品線的更新中，還包括將在六月推出新一代開放AI模型Gemma 2。這個基于新架構構建的模型具有270億參數，在性能上優于比它大兩倍的模型，并且可以在Vertex AI中的單個 TPU 主機上運行。此外，谷歌還推出了Gemma系列中的首個視覺語言模型PaliGemma。值得注意的是，今年早些時候推出的Gemma模型僅包含20億參數和70億參數的版本，這次的更新顯著擴大了模型的規模和能力。

LearnLM，一個基于Gemini并針教育研究做了微調的模型，也在大會上被推出。