- +1
Gemini Live:足以秒殺Siri,卻仍有明顯瑕疵
谷歌在本周二的Made by Google大會上正式發布Gemini Live。這項功能允許用戶以相當自然流暢的方式與由谷歌最新大語言模型驅動的AI聊天機器人進行口頭對話,全程無需打字輸入。借此機會,我們也親自對這項服務進行了一番測試。
Gemini Live是谷歌針對OpenAI高級語音模式(Advanced Voice Mode)做出的回應,二者的功能幾乎完全相同,且后者目前正通過ChatGPT開展alpha內部封測。雖然OpenAI通過搶先演示快了谷歌一步,但谷歌卻成為首家正式推出最終功能的廠商。
根據個人體驗,這些低延遲的口頭交流功能使用起來要比向ChatGPT發文字、甚至是跟Siri或者Alexa交談感覺自然得多。我發現Gemini Live一般都能在2秒鐘以內回答問題,并且在被打斷時迅速轉移話頭。當然,Gemini Live并不完美,但它已經是我見過的最強大的口頭語音操控方式。
在使用Gemini Live之前,該項服務會首先邀請用戶從10種聲色當中做出選擇,這樣的數量遠遠多于OpenAI的3種。谷歌與配音演員們合作創作了如此豐富的音色,我對其中蘊藏的多樣性深表贊賞,而且必須承認每種音色聽起來都自然流暢、幾可亂真。
在一段演示中,一位谷歌產品經理口頭要求Gemini Live尋找山景城附近適合家庭出游的酒莊,同時要求設有戶外區域和游樂場是滿足孩子們的需求。這項任務比我們日常跟Siri的對話(在本質上其實就是谷歌搜索)要復雜得多,但Gemini還是成功找到了一個符合所有條件的地點:Saratoga的Copper-Garrod葡萄園。
話雖如此,但Gemini Live也有一些不足。首先它似乎產生了幻覺,誤以為附近有一處名叫Henry Elementary School Playground的游樂場,據說這里距離該處葡萄園只有“10分鐘路程”。Saratoga附近確實還有其他游樂場,但Henry Elementary School距離那邊有兩個多小時的車程。至于紅木城的Henry Ford小學,距離葡萄園同樣有30分鐘的路。
谷歌還專門展示了用戶如何打斷Gemini Live的對話,看看AI如何迅速轉移話頭。該公司表示,這樣用戶就能輕松控制對話走向。但實際上,該項功能也并不完美。有時候谷歌的項目經理們雖然跟Gemini Live聊得很熱鬧,但AI似乎并沒能聽懂他們到底在說什么。
另外值得一提的是,據產品經理Leland Rechis介紹,谷歌禁止Gemini Live唱歌、或者在默認提供的10種音色之外再模仿任何語音。該公司這么做可能是為了避免與版權法發生沖突。此外,Rechis還提到,谷歌并不會特意讓Gemini Live理解用戶語音中的情感和語調——而OpenAI在其演示中一直在大肆宣揚這點。
總而言之,與簡單的谷歌搜索相比,這項新功能似乎確實能以更自然的方式幫助用戶深入了解特定主題。谷歌指出,Gemini Live屬于Astra項目的組成部分,而Astra項目則是該公司在Google I/O期間首次公布的完全多模態AI模型。目前Gemini Live還僅支持語音對話,不過谷歌希望在未來逐漸實現對視頻內容的實時理解能力。
本文為澎湃號作者或機構在澎湃新聞上傳并發布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司