- +1
比OpenAI良心多了,一文總結Google發布會的11個亮點
原創 數字生命卡茲克 數字生命卡茲克
就在X上一群人被草莓哥亂發OpenAI預告,瘋狂搞心態的時候。
Google帶著MadeByGoogle ‘24發布會來了。

OpenAI甚至為了狙擊Google,在人發布會開始幾分鐘后,發了一個Blog,就這么個破Blog,還讓他們的AI草莓哥當謎語人預告了兩天。

現在的OpenAI,真的跟狼來了一樣,我對他已經沒有任何期待和信任可言了。每次就差那兩個臟話罵出來了!
而Google在沒有任何的預期下,還是有一些額外的驚喜的。
我總結了11個亮點,你看完了這篇文章,也算是看完發布會了。
1. Google要根據Gemini重構Android。

他們定義了一個詞,叫AI OS,Google想把AI OS帶給所有人。
目前它們已經支持200多個國家和地區的45種語言,它可以在數十個設備制造商的數百個手機型號上使用,全球數十億臺設備上得到支持。
2. 手機上Gemini的圖像識別翻車了。
他們第一個演示的是Gemini的圖像識別能力。
作為多模態AI,圖像拍攝識別似乎被卷成必須有的功能了。最能考驗照片識別能力的,就是拍攝說明書、日程表這類信息密集的內容——既要識別圖像,還得看得懂文本內容給出答案。
演示的小哥拍攝了一張紙質音樂會海報,上面巡演的日程安排。演示者讓Gemini查看自己的計劃,選擇可以去看Sabrina Carpenter演出的時間。

然而,現場演示必定會出現的失誤,它來了。
Gemini前兩次拍照都很不給面子地現場演示失敗,隔著太平洋我都感覺現場尬住了,還是兩次。。。= =
這個演示還特意提了一下,用的是三星Galaxy S24 Ultra手機,難道是三星發力了?

現場緊急換了一部設備重新嘗試,好在第三次順利識別出了圖片內容。
Gemini直接給出了很具體的日期:Sabrina會在2024年11月9日到達舊金山,并且這一天演示者沒有其他安排,可以去看演出。
現場的掌聲終于響起,哥們兒肉眼可見地松了一口氣啊。

3. 跨軟件交互很方便。
Gemini現在能夠在手機上直接理解并分析視頻內容。
你可以一邊觀看視頻,一邊呼喚出Gemini為你總結重點,或者回答你關于視頻內容的問題。
比如晚上觀看油管上美食視頻后,都不用你挨個識圖,自動生成視頻中出現的食物清單,并添加到用戶的個人"待嘗試"列表中。

吃貨福音。

并且可以為油管上的一些旅行視頻創建景點清單或行程建議。
作為一個連散步都需要出場bgm的,
你也可以要求gemini制作一個“適合在首爾散步的韓國流行音樂播放列表”,它能根據用戶描述的場景、情緒或活動類型推薦合適的音樂。
使尋找音樂變得更加直觀和個性化。

4. 寫文速度很快效果也不錯。
Gemini還可以輔助在手機端用僅數秒的時間完成郵件寫作。
小哥演示了兩個場景:第一個是給房東寫封不失禮貌的催促信,通知她來維修家里的供電模塊。
第二個是給教授寫一封生病缺勤的道歉信(看來這種事小哥之前沒少干)。

此外Gemini還有方便用戶潤色文本和發送郵件的交互設計。

看到Gemini沒幾秒就完成道歉信,小哥都快憋不住笑了。
5.Gemini Live實時對話效果還不錯,但只是低延遲的TTS。
Google推出了類似于GPT4o的可以隨時打斷的實時對話功能,他們稱為Gemini Live。

里面有10種音色可以選擇。

演示的小姐姐跟Gemini Live聊了半天,音色效果不錯,延遲也足夠低,但是其實看著就是一個低延遲的TTS,而不是GPT4o那種原生的多模態大模型。
因為沒有任何情緒理解和表達的演示,按照Google的尿性,真要是有他們一定會瘋狂展示的,另外在一些長一點的回答上,還是能明顯的感覺到延時。
所以其實就是個低延時的TTS對話。
目前得Gemini Advanced訂閱用戶才能用,一個月20美刀,立刻上線。

6.Pixel 9 是首款搭載多模態 Gemini Nano 的手機。
這是迄今為止在手機上發布的功能最強大的設備端 AI 模型,比之前在 Pixel 8 Pro 上用的 AI 強大了三倍。

Pixel 9 的處理器(TPU 和 Tensor G4)可以在一秒內生成多達 45 個單詞,比之前的速度快了兩倍。
普通版的 Pixel 9 有 12GB 的內存,而 Pro 版本的內存更大,達到了 16GB。而且他們最騷的是,終于也上了衛星通話的功能。

這里只能說一句,遙遙領先!
這次發布的產品包括三款直板手機和一款折疊手機。常規系列包括一款配備 6.3 英寸顯示屏的基礎版 Pixel 9,一款配備 6.8 英寸屏幕的 Pixel 9 Pro XL,以及一款新的更小巧的 6.3 英寸 Pixel 9 Pro。

說實話,我覺得,有點丑。
還有個新款的折疊屏Pixel 9 Pro Fold。

更丑了。
7.Call Notes在電話過程中可以幫你記錄下關鍵信息。
現在,Pixel的“通話助手”變得更強大了,增加了“Call Notes”功能。
在你打完電話后,它會為你提供一個完全私密的通話總結。這樣即使你在通話時沒有紙筆,也能輕松獲取電話號碼、時間、細節和其他你不想忘記的信息。

而且這個過程全部是本地跑的,基本沒有隱私問題。
小哥舉了個例子,他最近考慮換個發型,但他的理發師做不了他想要的發型,所以他推薦我去另一家理發店。
但是問題是,他忘了記下那家店的電話號碼。有了Call Notes后,就可以輕松回溯。

7.類似于Recall的屏幕截圖功能有點厲害。
有個大家都熟悉的場景:你在手機上看到一些想記住的東西,也許你會在腦海中記下來,或者截圖保存。
但通常,你要么忘記了要記的東西,要么在需要的時候找不到。

然后他們就做了一個新的產品。

可以用AI快速搜索所保存的所有圖片。比如你手機里有幾十張自行車的圖,你搜一下自行車,就都出來了。

你還能問一下更復雜的,比如T恤價格,你可以看到Pixel截圖不僅找到了原始圖像,而且還根據圖像中的信息用自然語言為我提供了答案。

8.一個普普通通的本地AI畫圖Pixel Studio。
每部Pixel 9手機都配備了新的Pixel Studio,他們手機上的首款圖像生成器。

效果我覺得,就是普普通通,屬于能用。
比如日落時的海灘篝火坑,就感覺效果,非常的普通。

9.AI相機拍合照非常棒。
Pixel相機,說是第一個AI相機。
大多數參數我不懂,但是這個合照的場景非常的有趣。

很多時候大家沒發拍合照,總有一個朋友要當攝影師。
它會用一個簡單的屏幕界面來引導你拍照,比如讓你把相機交給別人,這樣你們可以交換位置。然后,你可以根據第一張照片中人物的輪廓,把他們在新照片中對齊,再拍一張。最終生成的圖片會把兩張照片合成在一起,看起來就像大家同時出現在同一張照片里一樣。


解決了合照的一大痛點。
10.新的手表和耳機。
發了一個Pixel Watch 3。

一個耳機Pixelbuds Pro 2。

耳機可以隨時喚醒Gemini跟他對話。
11.對標GPT4o的Project Aster。
Project Aster在幾個月前的Google發布會上就亮相過了,直接對標GPT4o的原生多模態大模型。
現在,在Gemin Live中,你未來也可以用到Aster了。

比如,你可以在與Gemini對話時共享你的相機,這樣你可以直接展示自己在微積分作業中遇到的問題,或者尋求下一步家具組裝的幫助。

而且,還把最常用的應用程序也集成到Gemini Live中,這樣它可以在對話和消息中幫助你采取行動,并從像Google日歷這樣的應用程序中提取信息。
所以你可以直接在Gemini Live中給鄰居發短信,分享關于某個商家的詳細信息,并同時查看你的日歷,完全不需要打開其他應用程序。

有點屌,GPT4o+蘋果的集合體。
就是可惜,還是個餅。

這,就是這一次MadeByGoogle ‘24的全部內容了。
在AI方面,跟硬件的結合,還是蠻有意思的,Gemini Live至少不是期貨,今天就可以用。
比那個只會畫餅的OpenAI,還是強了很多。
希望Google越來越好,錘死OpenAI。
原標題:《比OpenAI良心多了,一文總結Google發布會的11個亮點。》
本文為澎湃號作者或機構在澎湃新聞上傳并發布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司