下載客戶端

登錄

Google I/O 2024: 從Gemini“宇宙”到Android 15

2024-05-15 17:17

來源：澎湃新聞·澎湃號·湃客

原創蘇霍伊甲子光年

Gemini貫穿一切。

作者｜蘇霍伊

編輯｜栗子

Gemini貫穿一切。

這是「甲子光年」在看完2024年Google I/O開發者大會的最大感受。

5月14日，谷歌2024年I/O開發者大會如期在加州山景城拉開帷幕。今年的主題完全圍繞人工智能展開，特別是生成式人工智能和其在各類應用中的實際應用，如 Workspace和Gmail的整合與優化。

首席執行官桑達爾·皮查伊（Sundar Pichai）在演講中一共說了121次“AI”，并喊出了一句嘹亮的口號——“整合全球信息，惠及所有民眾”。

現場，谷歌發布了Gemini系列的最新AI模型：Gemini 1.5 Flash。

同時，谷歌也宣布了Gemini 1.5 Pro升級，全面支持Workspace，同時向全球開發者開放。Google Workspace辦公套件也宣布將進一步整合Gemini，推出基于Gemini 1.5 Pro的多種技能，如可總結郵件內容。Gmail也將深度整合Gemini，匯總郵件內容并生成更好的回復。

1.AI模型：Gemimi宇宙

皮查伊在大會上公布了一系列AI模型的動態。

首先是對Gemini 1.5 Pro模型進行了升級。

Gemini 1.5 Pro模型已全球向開發者開放。原本它的上下文窗口是100萬tokens，現在增加到了200萬tokens，能處理更多的數據。

谷歌I/O大會現場，來源：谷歌

用戶即使提供數千頁的文本或者幾個小時的視頻，Gemini 1.5 Pro也能夠理解內容并回答相關的問題。這項升級將讓模型能同時處理2小時的視頻、22小時的音頻、超過60000行代碼，或超過140萬個單詞。

下個月Gemini 1.5 Pro還將在API層面推出新功能，包括視頻輸入、并行函數調用和文本緩存，以提高處理多個請求和問答文件時的效率。

隨后他介紹了Gemini系列新模型——Gemini 1.5 Flash。

這是一個比Gemini 1.5 Pro模型運行更快，體積更小，更易于部署，支持處理多種類型的數據，它專為開發者設計。

Gemini 1.5 Flash位于Gemini 1.5 Pro和Gemini 1.5 Nano之間，通過一種稱為“蒸餾”的過程，將Pro版本中的關鍵知識和技能轉移到一個更小的模型中，使其具備與Pro相同的多模態功能和100萬個token的長上下文窗口。

Gemini 1.5 Flash現在就可以使用了。

DeepMind的聯合創始人兼CEO戴密斯·哈薩比斯（Demis Hassabis）提到，他們根據開發者的反饋，優化了模型的響應速度和成本效率。Gemini 1.5 Flash在處理大量數據方面表現出色，特別適用于聊天應用、視頻處理和圖像字幕。

Gemini 1.5 Pro將在Alphabet的內部測試實驗室Workspace Labs進行測試。Gemini 1.5 Flash也將在機器學習平臺Vertex AI上進行試驗和使用，該平臺使開發者能夠訓練和部署AI應用。

Gemini 1.5 Flash每百萬token的標準價格為0.7美元，輸出為1.05美元。對于較小的上下文（小于128k），有折扣價：輸入為0.35美元/百萬token，輸出為0.53美元/百萬token。這比GPT-3.5 Turbo的價格（輸入0.5美元/百萬token，輸出0.15美元/百萬token）要高一些。

谷歌I/O大會現場，來源：谷歌

Gemini 1.5 Pro是Google當前最強大的模型，標準價格為每百萬token輸入7美元，輸出21美元。對于較小的上下文（同樣小于128k），折扣價格為輸入3.5美元/百萬token，輸出10.5美元/百萬token。相比于GPT-4o（輸入價格5美元/百萬token，輸出15美元/百萬token）略貴一些。

目前，谷歌正在籌備一款Project Astra的通用AI代理，這是一款通過智能手機攝像頭分析周圍世界并與用戶進行交互的應用。

Astra設計為能夠記住看到和聽到的內容，從而理解上下文并采取行動。為了提高實用性，谷歌優化了其處理信息的速度，通過持續編碼視頻幀和結合視頻與語音輸入到事件時間線上，并緩存信息以實現高效回憶。

此外，谷歌還通過增強語音模型，讓Astra具有更廣泛的語調，使其可以更自然地與用戶交流，無滯后或延遲。

在實際演示中，一個人使用手機的攝像頭掃描辦公室，與Astra通過語言交互，比如詢問“當你看到有東西發出聲音時，請告訴我。”Astra不僅能識別物體和代碼，還能實時進行語音互動，展現了它的實用性和交互能力。

Project Astra展示了其出色的視覺理解能力和快速的響應時間。一個人在辦公室中用攝像頭掃描其中的物品及場景，并用語音詢問它相關問題。與GPT-4o的功能異曲同工。

谷歌I/O大會現場，來源：谷歌

Project Astra是AI技術在實用性和交互性方面的一個重大進步，尤其是在增強現實和人機交互方面。它讓設備不僅是獲取信息的工具，而是能理解和參與我們日常生活的伙伴。或許未來的一天，Astra可能會改變我們與技術的互動方式，讓這種交互更個性化和直觀。

但谷歌透露，Astra的上線還需數月，且只有部分功能將被整合進谷歌的產品中，比如XR眼鏡或個人助手。

在文生視頻領域，谷歌發布了名為Veo的視頻生成大模型。該模型能以多種電影和視覺風格生成超過一分鐘時長的高質量1080p視頻，并憑借對自然語言和視覺語義的理解緊密代表用戶的創意愿景。

谷歌宣布今年晚些時候，能夠在本地運行的多模態Gemini Nano模型將登陸Pixel手機，提供文字、圖片、視頻、音頻的理解能力，并具有隱私保護功能。

同時，谷歌即將在6月推出的新一代AI模型Gemma 2，將提供多種尺寸和全新架構，以滿足不同開發者的需求并實現卓越的性能和效率。

這款模型以其270億參數提供與更大模型相當的性能，同時優化了部署成本，能在更少的計算資源上運行。Gemma 2還支持廣泛的調優工具，使得在多種平臺和硬件上的部署和微調變得更加簡單高效。

2.多模態AI搜索

除了Gemini相關產品的發布外，谷歌搜索負責人Liz Reid宣布了一項重大更新，將AI技術更深入地整合到搜索引擎中。

谷歌I/O大會現場，來源：谷歌

最新的變革是引入視頻搜索功能，允許用戶上傳視頻來展示他們需要解決的問題，Gemini技術將在互聯網各處尋找解決方案。

谷歌正在加強其AI搜索領域的立足點，以應對新興的AI搜索工具如Perplexity的競爭。這些新興工具雖然吸引不少用戶，谷歌搜索仍未受太大影響。

事實上，谷歌的新AI搜索服務ESG已于去年5月發布，一年后向公眾開放，名為AI Overview。

AI Overview主要強調多模態功能，允許用戶通過簡化語言或更詳細地調整搜索結果概述。此外，利用Gemini的多步推理能力，AI搜索可以處理復雜的多步查詢。例如同時尋找瑜伽工作室的位置、受歡迎程度和新會員優惠。

谷歌還提供了計劃能力，使用戶可以一次性獲取完整的計劃，如為一群人制定三天的餐飲計劃。

谷歌的多模態搜索是其獨特之處，支持通過聲音搜索歌曲、圖片搜索產品，并結合視頻內容進行搜索，如識別舊貨店買的壞掉的唱片機的具體問題。

雖然這種聯想搜索功能已成為AI搜索的常態，但谷歌通過更好的結構化和界面設計，提供了優異的用戶體驗。

盡管其他AI搜索引擎也具備類似功能，但谷歌的多模態搜索能力尤其突出，能夠結合聲音、圖片甚至視頻進行搜索，極大地提升了搜索的靈活性和效率。

例如，用戶可以通過上傳視頻來解決復雜的技術問題，省去了尋找合適描述的時間和麻煩。盡管Perplexity等對手也在追趕多模態功能，但谷歌在這方面的優勢明顯，結合其優秀的界面和用戶體驗，使其在AI搜索領域繼續保持領先。

谷歌還將推出一項名為Gemini Advanced的訂閱服務，讓用戶能夠創建個性化的Gemini版本，稱為Gems。

Gems類似于聊天機器人，可幫助用戶完成任務并具備特定的個性特征，類似于Character.AI平臺上的虛擬角色。谷歌表示，用戶可以將Gemini定制成健身教練、廚房助手、編程伙伴、創意寫作指導等，實現高度個性化的交互體驗。

谷歌還表示，很快Gemini將能讓用戶針對屏幕上的視頻提問，并依據自動字幕回答問題。對于付費的Gemini Advanced用戶，系統還將能提取PDF文件內容并提供所需信息。這些包括Gemini在Android上的多模態功能更新，預計在未來幾個月內逐步推出。

3.Andriod 15與TPU Trillium

谷歌I/O大會現場，來源：谷歌

當然，對于谷歌重要的Android，谷歌也沒有落下。

I/O大會上，谷歌也發布了Android生態系統的“三大突破”：

Circle to search（畫圈圈搜索）；

Gemini手機AI助手；

以及在手機本地運行的AI。

Circle to search（畫圈圈搜索）功能。比如使用Android手機或平板電腦，現在可以直接在屏幕上圈出數學題并獲得解題幫助。谷歌的人工智能不會直接解答問題，以防學生作弊，而是會把問題分解成幾個步驟，使解題過程更簡單。

這一功能已在Pixel和三星的部分設備上使用。

此外，谷歌還介紹了使用設備上的Gemini Nano AI技術，幫助用戶識別并避免詐騙電話，系統會通過識別典型的詐騙對話模式并彈出實時警告。谷歌承諾，今年晚些時候會提供更多關于這項功能的細節。

Gemini AI的集成將Android操作系統的功能大幅增強，不僅限于單一應用，而是可以跨應用提供服務，比如允許用戶直接將圖像從Gemini拖放到其他應用。

這表明，Android系統正在向一個更加智能和多功能的平臺轉型，其中Gemini將能訪問整個應用程序庫，實現與各種應用如Uber和Doordash的深度集成。

Android 15 Beta 2將在明天正式推出。

在硬件方面，谷歌官宣推出第六代TPU—Trillium，峰值計算性能提高 4.7 倍，將在今年向云客戶提供。

“我們在過去的25年投資建設了世界一流的技術基礎設施。從支持搜索的尖端硬件，到支持人工智能進步的定制張量處理單元。”皮查伊說。

谷歌I/O大會現場，來源：谷歌

在Trillium的介紹中提到，這是性能最強和能效最高的TPU，其每個芯片的峰值計算性能比前代TPU v5e提高了4.7倍。這種顯著的性能提升不僅將加速AI模型的訓練過程，還會提高運行這些模型的效率，對谷歌的AI研發和服務有極大的促進作用。

比如谷歌的AI模型Gemini就已經在第四代和第五代TPU上進行訓練和服務，顯示出TPU在支持先進AI應用中的關鍵作用。

此外，其他領先的人工智能公司如Anthropic也在使用谷歌的TPU來訓練他們的模型，這進一步驗證了TPU在當前AI研發領域的重要性。Pichai的聲明中提到了谷歌在過去25年中對技術基礎設施的投資，這種長期投入不僅支持了谷歌搜索這樣的基礎服務，還促進了定制硬件如TPU的發展，從而推動了人工智能技術的整體進步。

通過這次大會的宣布，可以看出谷歌在保持其技術領先地位的同時，也在不斷尋求通過硬件創新來鞏固其在AI領域的競爭力，Trillium TPU的推出就是一個明顯的例證。

硬件的進步不僅對谷歌自身的產品和服務利好，也為整個AI行業提供了更高效的計算資源。

（封面圖來源：谷歌）

END.

原標題：《Google I/O 2024: 從Gemini“宇宙”到Android 15｜甲子光年》

閱讀原文

特別聲明

本文為澎湃號作者或機構在澎湃新聞上傳并發布，僅代表該作者或機構觀點，不代表澎湃新聞的觀點或立場，澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

我要舉報

#gemini #谷歌開發者大會