新智元報道
編輯:定慧 英智
【新智元導(dǎo)讀】谷歌Gemini邁出關(guān)鍵一步:「睜眼看世界」。用戶發(fā)現(xiàn)Gemini新增實時屏幕共享功能,能準(zhǔn)確識別屏幕上的內(nèi)容并實時互動;并且可以打開攝像頭與物理世界交互,幫用戶給釉陶「上色」。
谷歌還是那個谷歌,依然是「地表最強」科技公司。
Gemini也許僅僅是在「話題度」稍稍落后ChatGPT,但不要忽視他的技術(shù)實力。
最近,一位網(wǎng)友在激活了Gemini懸浮窗后,意外發(fā)現(xiàn)了一個全新新按鈕——「與Live共享屏幕」。
而這,正是谷歌為Gemini Live推出的全新「AI實時視頻功能」。
基于此, 用戶可以讓Gemini實時查看屏幕 內(nèi)容,或者調(diào)用手機攝像頭畫面。
手機發(fā)屏幕和外面的世界,Gemini全懂
「Gemini,你可以看到我的手機屏幕嗎?」
「沒問題,我能到看到時間是8點50,溫度是71度,日期是3月23日」
「你能通過屏幕內(nèi)容猜到我的安卓系統(tǒng)是什么嗎?」
「嗯,似乎猜起來似乎有些困難,看起來像是定制的系統(tǒng)」
「屏幕上哪個APP和我職業(yè)最相關(guān)?」
「嗯,似乎是Code Editor」
「你可以幫我播放視頻嗎?」
「嗯,因為我們正在實時對話,所以無法控制手機,不過我可以和你聊天、進行頭腦風(fēng)暴」
另一項同步上線的是實時視頻功能。
打開完整的Gemini Live界面,開啟視頻流之后,界面右下角有個按鈕,點一下就能切換到前置攝像頭,這樣就能和周圍環(huán)境直接互動了。
這就像給Gemini裝上了眼睛,讓它能看世界。
開啟這個功能后,Gemini能實時分析手機攝像頭捕捉到的畫面,然后回答你提出的相關(guān)問題。
比如,谷歌本月發(fā)布的演示視頻里,有人想用顏料給新做好的釉陶上色,拿不定選什么顏色,就可以借助這個功能向Gemini求助。
對此谷歌表示,會在3月下旬「作為谷歌One AI高級計劃的一部分,向Gemini高級訂閱用戶逐步推送」。
「Project Astra」谷歌計劃已久的AI助手
「這個愿景在我腦海中存在了相當(dāng)長一段時間。」
谷歌DeepMind的負(fù)責(zé)人、谷歌AI Efforts的領(lǐng)導(dǎo)者 Demis Hassabis在2024年3月谷歌I/O大會上提到。
Demis Hassabis展示了一個他希望成為通用助手的非常早期版本,谷歌稱其為「Project Astra」。
這是一個實時、多模態(tài)的人工智能助手,它可以看見世界,知道事物是什么以及你把它們放在哪里,并且可以回答問題或幫助你做幾乎所有事情。
「Gemini Live共享屏幕」就是「Project Astra」的第一次亮相。
同時也是2025 AI Agent之年某種產(chǎn)品「形態(tài)」的預(yù)告片。
當(dāng)AI「裝上眼睛」實時觀看現(xiàn)實世界,并且和你以及你的手機互動時。
AI會和人類碰撞出怎么樣的火花?
谷歌這次新功能的上線,進一步鞏固了它在AI助手領(lǐng)域的領(lǐng)先地位。
參考資料:
https://www.theverge.com/news/634480/google-gemini-live-video-screen-sharing-astra-features-rolling-out
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.