夢晨 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
ChatGPT新玩法,讓程序員大佬Simon Willison直呼太反烏托邦了,像科幻突然變成現(xiàn)實:
只需一張照片,靠帶圖深度思考就能猜出地理位置。
這種玩法很簡單,隨手拍一張風景,沒有任何明顯的地標即可,也不需要復雜的提示詞,只需要問“猜猜這張照片是在哪里拍的?”(需要o3/o4-mini的帶圖思考,先關(guān)閉所有記憶功能)。
只見ChatGPT從山看到植物,從建筑細節(jié)分析到車輛,運行代碼截取放大車牌數(shù)次。
最終得出結(jié)果,離準確答案只差200-300公里,相當于從北京到河北,這么近那么美。
ChatGPT的策略是先猜個大概,再根據(jù)畫面細節(jié)一步步縮小范圍鎖定結(jié)論,給出的依據(jù)如下:
首先車牌是加州樣式→基本確定在加州。
很多加州常見植物和標志性藍天→典型的加州中部沿海植被和氣候。
低矮的淡色海灘小屋,配有白色尖樁籬笆和繩索和柱子搭建的露臺欄桿→圣克魯斯和皮斯莫之間的海灘小鎮(zhèn)的常見建筑。
城鎮(zhèn)后面連綿起伏的綠色海岸山脈(沒有高峰,沒有雪)→符合圣盧西亞/圣克魯斯沿海丘陵。
最終ChatGPT給出結(jié)論:
- 綜合起來,這張照片指向一號公路邊上的一個小村莊。村舍林立,背靠群山,頗有加州坎布里亞(莫羅灣和卡尤科斯以北)的風情。我猜你是在坎布里亞西村的一家咖啡館露臺上拍的這張照片,離月光石海灘大道大概一兩個街區(qū)遠。
- (如果我錯了,備選答案是半月灣到更北邊的埃爾格拉納達,但坎布里亞是我的第一直覺!)
正確答案正是在埃爾格拉納達附近的一家露天酒吧里拍的,ChatGPT只靠一小段道路、一棟無名的房子和背景中的小山猜得非常接近。
看到這里,論壇上專門玩猜照片位置的競技級玩家也不得不服氣,承認AI能記住的信息遠超人類大腦能力。
一張照片裁剪放大25次
作者Simon Willison分享了完整的對話記錄,包括6分鐘的完整深度思考記錄。
雖然ChatGPT能猜得很接近,但過程還是很波折。
首先是一個開幕雷擊,AI突然“瞎”了認為自己無法直接看到圖片。
可能是訓練數(shù)據(jù)包含太多之前單模態(tài)語言模型的數(shù)據(jù)太多了,不過絲毫不影響后面繼續(xù)發(fā)揮。
現(xiàn)瀏覽一下整體,ChatGPT心里就已經(jīng)大致有數(shù),后面都是尋找證據(jù)。
放大車牌這一步動用了代碼工具,
基本鎖定了加州作為大方向,開始進一步分析細節(jié)。
接下來反復裁剪、放大照片的某個區(qū)域,思考它所看到的內(nèi)容,將其與之前的觀察結(jié)果進行比較,然后再次裁剪、放大和分析。
它就這樣持續(xù)思考了6分多鐘,期間也有裁剪錯位置。
不過每一次都能退回上一步重來。
在深度思考的結(jié)尾,ChatGPT甚至嘗試把范圍縮小到一個具體的餐廳。
整個過程看下來,作者Simon Willison懷疑模型的視覺輸入分辨率很低,所以裁剪到更靠近車牌的位置會對思考過程產(chǎn)生重大影響。
但對一張照片裁剪操作25次還是有些夸張了。
o3不是唯一一個能根據(jù)照片猜測地理位置的AI模型,但它的獨特之處就在于工具使用被集成到推理階段。
預計其他模型開發(fā)商也會跟進這個特性。
后面Simon Willison還發(fā)現(xiàn)一點小疏忽,ChatGPT應(yīng)用其實能獲取使用者的大致位置信息,可能是為了改進聯(lián)網(wǎng)搜索結(jié)果加上的。
不過這不影響試驗的結(jié)果,如果ChatGPT知道位置信息,就不會把真正的答案埃爾格拉納達放到備選結(jié)果里。
為了驗證這一點,作者還試驗了兩張在數(shù)千公里外旅行時的照片,且通過截圖抹除照片的EXIF信息,o3也都猜對了。
試試你能不能猜出來這兩張照片分別在哪里?
ChatGPT悄悄更新,但是不知道更新了什么
就在這半個周末,ChatGPT再次悄悄更新,GPT-4o的智力和個性都得到升級。
不過只有奧特曼的一句話,到底更新的是APP呢還是API呢還是都升級了呢,還要靠員工來補充:只有ChatGPT應(yīng)用上升級了。
OpenAI這種越來越不透明的現(xiàn)象也被更多人批評。
更詳細的信息(也不太詳細)發(fā)布在ChatGPT幫助中心的更新日志里。
有人感覺到GPT-4o升級之后有什么變化么?歡迎在評論區(qū)分享。
參考鏈接:
[1]https://simonwillison.net/2025/Apr/26/o3-photo-locations/
[2]https://news.ycombinator.com/item?id=43803243
[3]https://x.com/sama/status/1915902652703248679
[4]https://help.openai.com/en/articles/9624314-model-release-notes
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.