網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

o3猜照片位置深度思考6分48秒，范圍精確到“這么近那么美”

2025-04-27 14:02:43　來源: 量子位

北京舉報

分享至

夢晨發(fā)自凹非寺
量子位 | 公眾號 QbitAI

ChatGPT新玩法，讓程序員大佬Simon Willison直呼太反烏托邦了，像科幻突然變成現(xiàn)實：

只需一張照片，靠帶圖深度思考就能猜出地理位置。

這種玩法很簡單，隨手拍一張風景，沒有任何明顯的地標即可，也不需要復雜的提示詞，只需要問“猜猜這張照片是在哪里拍的？”（需要o3/o4-mini的帶圖思考，先關(guān)閉所有記憶功能）。

只見ChatGPT從山看到植物，從建筑細節(jié)分析到車輛，運行代碼截取放大車牌數(shù)次。

最終得出結(jié)果，離準確答案只差200-300公里，相當于從北京到河北，這么近那么美。

ChatGPT的策略是先猜個大概，再根據(jù)畫面細節(jié)一步步縮小范圍鎖定結(jié)論，給出的依據(jù)如下：

首先車牌是加州樣式→基本確定在加州。

很多加州常見植物和標志性藍天→典型的加州中部沿海植被和氣候。

低矮的淡色海灘小屋，配有白色尖樁籬笆和繩索和柱子搭建的露臺欄桿→圣克魯斯和皮斯莫之間的海灘小鎮(zhèn)的常見建筑。

城鎮(zhèn)后面連綿起伏的綠色海岸山脈（沒有高峰，沒有雪）→符合圣盧西亞/圣克魯斯沿海丘陵。

最終ChatGPT給出結(jié)論：

綜合起來，這張照片指向一號公路邊上的一個小村莊。村舍林立，背靠群山，頗有加州坎布里亞（莫羅灣和卡尤科斯以北）的風情。我猜你是在坎布里亞西村的一家咖啡館露臺上拍的這張照片，離月光石海灘大道大概一兩個街區(qū)遠。
（如果我錯了，備選答案是半月灣到更北邊的埃爾格拉納達，但坎布里亞是我的第一直覺！）

正確答案正是在埃爾格拉納達附近的一家露天酒吧里拍的，ChatGPT只靠一小段道路、一棟無名的房子和背景中的小山猜得非常接近。

看到這里，論壇上專門玩猜照片位置的競技級玩家也不得不服氣，承認AI能記住的信息遠超人類大腦能力。

一張照片裁剪放大25次

作者Simon Willison分享了完整的對話記錄，包括6分鐘的完整深度思考記錄。

雖然ChatGPT能猜得很接近，但過程還是很波折。

首先是一個開幕雷擊，AI突然“瞎”了認為自己無法直接看到圖片。

可能是訓練數(shù)據(jù)包含太多之前單模態(tài)語言模型的數(shù)據(jù)太多了，不過絲毫不影響后面繼續(xù)發(fā)揮。

現(xiàn)瀏覽一下整體，ChatGPT心里就已經(jīng)大致有數(shù)，后面都是尋找證據(jù)。

放大車牌這一步動用了代碼工具，

基本鎖定了加州作為大方向，開始進一步分析細節(jié)。

接下來反復裁剪、放大照片的某個區(qū)域，思考它所看到的內(nèi)容，將其與之前的觀察結(jié)果進行比較，然后再次裁剪、放大和分析。

它就這樣持續(xù)思考了6分多鐘，期間也有裁剪錯位置。

不過每一次都能退回上一步重來。

在深度思考的結(jié)尾，ChatGPT甚至嘗試把范圍縮小到一個具體的餐廳。

整個過程看下來，作者Simon Willison懷疑模型的視覺輸入分辨率很低，所以裁剪到更靠近車牌的位置會對思考過程產(chǎn)生重大影響。

但對一張照片裁剪操作25次還是有些夸張了。

o3不是唯一一個能根據(jù)照片猜測地理位置的AI模型，但它的獨特之處就在于工具使用被集成到推理階段。

預計其他模型開發(fā)商也會跟進這個特性。

后面Simon Willison還發(fā)現(xiàn)一點小疏忽，ChatGPT應(yīng)用其實能獲取使用者的大致位置信息，可能是為了改進聯(lián)網(wǎng)搜索結(jié)果加上的。

不過這不影響試驗的結(jié)果，如果ChatGPT知道位置信息，就不會把真正的答案埃爾格拉納達放到備選結(jié)果里。

為了驗證這一點，作者還試驗了兩張在數(shù)千公里外旅行時的照片，且通過截圖抹除照片的EXIF信息，o3也都猜對了。

試試你能不能猜出來這兩張照片分別在哪里？

ChatGPT悄悄更新，但是不知道更新了什么

就在這半個周末，ChatGPT再次悄悄更新，GPT-4o的智力和個性都得到升級。

不過只有奧特曼的一句話，到底更新的是APP呢還是API呢還是都升級了呢，還要靠員工來補充：只有ChatGPT應(yīng)用上升級了。

OpenAI這種越來越不透明的現(xiàn)象也被更多人批評。

更詳細的信息（也不太詳細）發(fā)布在ChatGPT幫助中心的更新日志里。

有人感覺到GPT-4o升級之后有什么變化么？歡迎在評論區(qū)分享。

參考鏈接：
[1]https://simonwillison.net/2025/Apr/26/o3-photo-locations/
[2]https://news.ycombinator.com/item?id=43803243
[3]https://x.com/sama/status/1915902652703248679
[4]https://help.openai.com/en/articles/9624314-model-release-notes

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.