編輯|Sia
這份工作的魅力之一,就是能第一時間體驗到最新、最前沿的大模型。 當然,發布初期難免有些社死時刻,但這次,例外。
就在前天深夜,OpenAI 重磅空降 o 系列模型的最新成員:o3 與 o4-mini,也是迄今為止他們最聰明的模型。
人類的進化,始于制造和使用工具。o3 和 o4-mini 也是如此,他們的「聰明」源于學會了使用工具。
模型能自主調用聯網搜索、記憶系統、代碼解釋器等 ChatGPT 原生工具,實現任務閉環處理。你只需要布置任務,然后可以放心起身去倒杯咖啡——回來時,高質量結果已在屏幕上靜候。
而且,它們還有一個關鍵升級:視覺思維能力上線。 不僅能看圖識物,更能像刑偵人員一樣,從圖像中分析、推理、挖掘信息。
要說差異,o3 是滿血旗艦,性能拉滿;o4-mini 是高性價比小鋼炮( GPT-o4 的小型化版本),體積更小、價格更優,但性能不打折——尤其在數學和編程任務上,表現出乎意料的強勁。
網友直呼:一周之內,它就成了我處理絕大多數任務的首選模型!
寫作時,我依舊用 GPT-4.5;編程時,還在用 3.7 Sonnet;但除此之外,我一直在用o3。
免費用戶,每天至少有一次體驗o3機會,記得選擇 reason。
據說,幾周后 OpenAI 還將來發布 o3?pro,提供更全面的工具支持。 所以,我們可以窺見到一個趨勢:
接下來,大家卷的大方向會更務實,會利用強化學習教會模型使用工具,解決現實問題。
所以,后面展示的這些案例——包括我們實測 + 網友反饋——也都是為了幫助大家更直觀地理解:
大模型正在變得強大,不是因為「懂得多」、「知道一切」,而是因為「能連續、遞進地使用多個工具」去搞定更復雜的問題。
論讀圖,o3 目前絕對是 No.1。
先上開胃菜。隨手在辦公室拍了張照片,故意把書放歪,先問 Google Gemini ( Gemini 2.0 Flash ) 書名是啥?
哥們兒完全識別不了(左); 換了 o3 ,輕松搞定(右)。
最精彩的部分是 o3 思考的模樣,感覺和人的動作很像:
翻過來、倒過去、剪裁、拉近、放大,想盡辦法用工具看清書脊上的字。
成功識別書名后,繼續詢問價格、哪里可以買得到?它又自動調用網頁搜索,尋找關鍵信息:
很快完成任務,豆瓣評分都給找好了。
不過,真正讓我們感受到o3 是真· Agent的,還是它在某些極限任務上的表現——比如:地理猜測能力
我們上傳了一張懸疑劇《沙塵暴》的劇照,畫面里能看到的,只有:
一位模糊的警察;
一輛模糊的車;
高壓電線;
以及,大片幾乎沒有細節的灰黃色背景。

連人看了都只想說一句:這能猜出啥?我們卻對 o3 發出指令:Geoguess this place.
o3 啟動了,可以清楚看到它先看什么、怎么看、看到了什么、想到了什么。
看的結果一剎那,我飚了一句 hollyshit !
我當然知道這部劇是在甘肅瓜州等地拍攝的,但萬萬沒想到一個 AI 可以憑借電網特征、垂直光柱、戈壁地形等線索,給出這么精確定位——
敦煌熔鹽塔式光熱發電站周邊,還有地理坐標!
順便送上了相關網頁鏈接,點進去就是發電站介紹。
這已經不是圖像識別精度的問題,而是能基于視覺線索展開因果、社會文化背景等多維推理,像探員一樣,從一幀圖里挖出更多信息。這也是「模型即 Agent」的價值所在
作為對比,這是沒能觸發 Agent 能力的結果:細節、精準度實在差太多。和人一樣, 大模型也會偷懶、劃水。
精彩還在繼續。
《聰明的沃利》是一套由英國插畫家 Martin Handford 創作的兒童書籍,目標就是在一張人山人海的圖片中找出一個特定的人物沃爾多( Waldo ),多久才能找到沃爾多?10秒?30秒?一分鐘?
這回,我們讓 o4-mini 玩了把《 Waldo 在哪里?》,請從圖中找到與周杰倫最神似的人。
圖片以四倍速展示
你覺得 o4-mini 找到的這個人物像周董嗎?
o3也能玩兒
真是有了python 工具在手,啥都不怕。
一次性找到一條穿過這個 200x200 迷宮的路徑,也不在怕的。
提示語:Solve this maze by adding a red dotted line for the solution path
甚至還能出個小動畫,讓結果「動」起來,比靜態圖直觀多了。
?o3 也沒問題。雖然它不是文生視頻模型,但你可以讓它繪制尋路路徑的幀圖,將它們做成 GIF 或者MP4 下載。
來自X @gantrols
這個交通事故分析的例子,真的是現實落地典范。 一張事故現場圖,就能幫你分析事故原因、判斷責任。圖像理解+因果分析+法律知識,一鍋燉。
來自X @
@op7418
說到出色的推理能力,據說,這是一個 只有 o3 能答對的題:
有一天,一個女孩參加數學考試只得了38分。她心里對父親的懲罰充滿恐懼,于是偷偷把分數改成了88分。她的父親看到試卷后,怒發沖冠,狠狠地給了她巴掌,怒吼道:你這8怎么一半是綠的一半是紅的,你以為我是傻子嗎?女孩被打后,委屈地哭了起來,什么也沒說。 過了一會兒,父親突然崩潰了。 請問:這位父親為什么過一會兒崩潰了?
最近,,還能免費體驗,它也善于調用工具,就先讓它試試。
思考過程中,它確實意識到了色盲問題,但終究沒能捕捉到這個遺傳信號里隱藏的關鍵信息,進一步展開推理。
錯失靶點,結論又回到了「因內疚而崩潰。」
換了 o3, 自動執行搜索資料,敏銳捕捉到遺傳信號里的疑點,推理出更驚人的事實。
當然,它也不是每次都這么聰明——有時也會偷懶,給你瞎胡扯一通(如下)。但當它真的認真起來,那推理能力是真的驚艷。
GPT 4o 的 Deep Research 是目前最強大的科研助手。現在,有了工具能力加持, o3 就像精簡版 Deep Research。
比如最近我想深挖斯諾登的《永久記錄》,就請它做了一份反向大綱,挑出那些「網上很難找到,但書中明確存在的觀點」——結果還真有,比如:
隱藏線索,電子游戲(無法后退)與數字系統不可撤銷的暗和。
容易忽略的觀點,本書后半出現了日記、談到了愛,這種「情感連接」和貫穿全書的「數據連接」構成了強烈對比。
提示語:讀完這本書的全部內容。給寫一份詳細的反向大綱,找出人們通常會忽略的關于這本書的有趣且令人驚訝的主題、觀點等等(比如,你在網上任何地方都找不到但肯定在書中存在的內容,也許是作者放進去但大多數人沒有注意到的內容)
最后,丟一點點丑話。
就算咱是尊貴的 20 美元月付用戶,也不能保證每次都能觸發視覺推理能力,成功概率也跟賭博差不多。
為什么會這樣?
網友各有說法,比如和輸入語言有關、任務類型有關。我們的推測,這類服務總歸是個非常耗費算力的事情, 官方不可能四平八穩響應每一個任務,應該會想辦法「節流」。
但,每天頭幾個任務,一般還是可以順利激活。
另外,就是幻覺這個問題。o3 有時會以為自己用了工具,但實際上并沒有。
按有的網友說法,「o3 經常為了滿足用戶請求而編造操作,并在用戶質問時精心辯解這些編造行為的合理性。」
總的來說,現在的大模型正在沖擊一個新階段:更智能,更務實,仍需要咱「帶腦子」使用,合理管理預期。
? THE END
轉載請聯系本公眾號獲得授權
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.