今天是OpenAI直播第6天,終于來了個能看點的。
Day4是個很無聊的canvas的極小更新以及向全量用戶開放,昨晚Day5完全就是給蘋果做下PR,都是純粹的垃圾時間。
而今天,4o的實時視頻通話,終于來了。
是不是感覺有點陌生?沒想到吧,4o居然還有實時視頻通話。。。
鴿了7個月,快被人忘干凈了。
總結一下今天的直播,有三個東西:
實時視頻通話。
實時理解屏幕。
圣誕老人限定語音。
一個一個說吧。
一.實時視頻通話
今年5月14日,OpenAI的春季發布會上,他們正式掏出了GPT-4o。
其中最酷的東西,當然是他們的原生多模態。
大家也都見識到了,高級語音模式的威力,能模仿情緒、能唱歌、能演戲。在小紅書和X上,已經看到無數人,在用它來做情感陪伴、練口語等等。
在教育領域,絕對是一個巨大的大殺器。
但是其實,當時最讓人興奮的,還是實時視頻。
能實時對話,能理解你的連續性動作,能知道你在干啥。
也有記憶。
比如你跟他聊桌子上的一杯冰美式咖啡,這杯冰美式長的無頭六臂奇奇怪怪顏色還是紅色的,你們聊的很開心,然后切到了另一個話題,過了一分鐘后,你突然問他,咱們剛才聊的咖啡是啥顏色。
它會很準確的告訴你,是紅色。
就像,AI第一次,有了跟人類一樣的眼睛。
他們自己也演示了一個很有趣的例子。
就是先讓ChatGPT跟在座的人聊了一圈,然后問它:
而GPT回答的很好,直接把女生的名字回答的很準確,它記住了她。
然后又演示了另外一個當場教人做咖啡的場景。
我一直覺得,真正的實時視頻理解,比語音和文本都重要的多。
因為對于我們人來說,從誕生到世界的第一天,當你還不會說話、還讀不懂文字的時候,你理解這個世界,全靠視覺。
這是我們理解世界的基石。
而現在,當你舉起一張手寫的便簽,它能立馬看懂;當你你給它看一本雜志上的廣告,它能分析背后的設計意圖和話術風格;你對著鏡頭擺弄一件家里的小物件,它能指出其用途、歷史、甚至給出改造建議。
這個東西,我覺得還是挺酷的。
今天晚上,他們正式宣布即將上線了。沒錯,是即將上線。。。
一周以內,對Pro和Plus用戶開放。
OpenAI你是真的狗。
其實感覺以OpenAI這段時間直播的節奏,理論上這種功能,應該是跟o1pro和Sora類似,直播完后就直接全量上了。
但是有可能是受到了昨天Gemini2的沖擊(他們也有視頻理解),又或者是因為昨天早上ChatGPT的全線崩潰。
導致這一波節奏混亂,甚至,我都覺得今晚的直播,都是為了不顯得自己丟人,臨時換上來的。。。
二.實時理解屏幕
一個基于實時視頻理解的變種。
只不過一個是通過攝像頭,看外部的現實世界,一個是通過類似于屏幕共享的方式,讓它來看你的屏幕。
跟視頻實時理解一下,一周內上線。
這個東西,我覺得非常有用,類似于給你一個隨時待命給你建議的牛逼助理。
隨時看著你的屏幕,然后給你指點。
比如說一些我能想到的最簡單的應用場景。
你在寫PPT,感覺這頁怎么做怎么丑,有點卡殼時,你就可以問它:
"這頁的視覺排版邏輯是不是有點問題?"或者"這個配色看起來怪怪的,有沒有更好的推薦?"
它就能直接指出核心問題,比如某一頁的文字太密集,這個標題應該放在左上角,配圖應該換個寫實風格的,甚至它還能幫你現場給你一個最優方案,把問題瞬間解決。
再比如,在你寫代碼的時候,屏幕共享開著,它能實時看你代碼的進展,指出可能的錯誤,甚至直接告訴你哪些變量命名不規范,哪些邏輯可以優化。
你都不用自己debug,它直接化身你的leader,邊看邊指正。
還有一個我自己覺得最實用的場景,就是處理表格數據。
因為我經常會做各種奇奇怪怪的數據分析,打開Excel的時候真的滿屏的數據讓你頭暈腦脹,這個時候你只需要說一聲:
“這份報表有啥什么異值?”或者“能不能幫我畫個趨勢圖?”
當它立馬就能幫你分析數據并給出結論的時候,我覺得,這就是幫了我大忙了。
當然,我理想中的最完美的形態,還是跟類似于那種Computer Use的Agent結合,直接幫我把事干了,那才是我最想要的。
比如,我們在用Figma做界面設計的時候,設計到一半,感覺排版不太對勁,于是就可以直接對它說了一句:
“整體簡約一點,字體換成無襯線體。”
它立馬接管設計,調整了文字間距、對齊方式,還推薦了幾種更適合的字體供選擇,最終完成一個更專業的設計方案。
甚至,它還能幫你理解背后的設計邏輯那就更屌了。
比如你問它:“為什么這個排版顯得更舒服?”
它還能從用戶體驗的角度出發,解釋黃金分割、留白運用等理論,帶你快速提升審美和技能。
這個,可能才是我最想要的未來。
也是我覺得,屏幕實時理解的終極形態。
三.圣誕老人限定語音
一個挺抽象的更新,在高級語音里面,新加了一個新的音色。
叫Santa。其實就是個,圣誕老人的語音。
目前已經實時上線了,都可以在高級語音模式里體驗到。
也挺抽象的,給大家聽一聽,我跟他的對話。。。
就,真的抽象。
可能對于老外來說,這個“吼~吼~吼”,真的有節日氛圍吧。。。
OpenAI直播,已經進行一半了。
稍微盤點一下。
Day 1:滿血o1上線,ChatGPT Pro會員上線,o1 pro推出。
Day 2:基于o1的強化微調。
Day 3:Sora正式發布。
Day 4:ChatGPT Canvas全員開放以及小功能更新。
Day 5:給蘋果站臺,宣傳蘋果全系接入GPT。
Day 6:4o的實時理解上線。
說實話,非常的低于預期,非常的不盡人意,非常的想讓我罵他。
每天晚上,都是如坐針氈、如芒刺背、如鯁在喉。
Dalle 4呢?AI Agent呢?AI搜索瀏覽器呢?獵戶座新模型呢?
你這都是些啥啊。
最絕望的不是這個,最絕望的是,還有6天。
每天晚上我都會在小群里開騰訊會議,第一天來了80個人,第二天40個,第三天因為預告Sora也有40個,第四天20個,第五天11個。
而今天,只有5個。
真的,已經越來越沒有人在乎了。
希望在后面的6天里,奧特曼你能改變一下我對于你的怨氣,讓我們覺得,OpenAI這么玩,都是策略,是在降低大家預期。
牛逼的東西,其實都放在后面。
真的,求求了。
為了你們自己。
也為了我們這些,每天熬夜的兄弟。
以上,既然看到這里了,如果覺得不錯,隨手點個贊、在看、轉發三連吧,如果想第一時間收到推送,也可以給我個星標?~謝謝你看我的文章,我們,下次再見。
>/ 作者:卡茲克
>/ 投稿或爆料,請聯系郵箱:wzglyay@gmail.com
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.