99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

滿血版o3探案神技出圈,OpenAI瘋狂暗示:大模型不修仙,要卷搬磚了!

0
分享至


編輯|Sia

這份工作的魅力之一,就是能第一時間體驗到最新、最前沿的大模型。 當然,發布初期難免有些社死時刻,但這次,例外。

就在前天深夜,OpenAI 重磅空降 o 系列模型的最新成員:o3 與 o4-mini,也是迄今為止他們最聰明的模型。


人類的進化,始于制造和使用工具。o3 和 o4-mini 也是如此,他們的「聰明」源于學會了使用工具

模型能自主調用聯網搜索、記憶系統、代碼解釋器等 ChatGPT 原生工具,實現任務閉環處理。你只需要布置任務,然后可以放心起身去倒杯咖啡——回來時,高質量結果已在屏幕上靜候

而且,它們還有一個關鍵升級:視覺思維能力上線。 不僅能看圖識物,更能像刑偵人員一樣,從圖像中分析、推理、挖掘信息。

要說差異,o3 是滿血旗艦,性能拉滿;o4-mini 是高性價比小鋼炮( GPT-o4 的小型化版本),體積更小、價格更優,但性能不打折——尤其在數學和編程任務上,表現出乎意料的強勁。

網友直呼:一周之內,它就成了我處理絕大多數任務的首選模型!

寫作時,我依舊用 GPT-4.5;編程時,還在用 3.7 Sonnet;但除此之外,我一直在用o3


免費用戶,每天至少有一次體驗o3機會,記得選擇 reason。

據說,幾周后 OpenAI 還將來發布 o3?pro,提供更全面的工具支持。 所以,我們可以窺見到一個趨勢:

接下來,大家卷的大方向會更務實,會利用強化學習教會模型使用工具,解決現實問題。

所以,后面展示的這些案例——包括我們實測 + 網友反饋——也都是為了幫助大家更直觀地理解:

大模型正在變得強大,不是因為「懂得多」、「知道一切」,而是因為「能連續、遞進地使用多個工具」去搞定更復雜的問題。

論讀圖,o3 目前絕對是 No.1。

先上開胃菜。隨手在辦公室拍了張照片,故意把書放歪,先問 Google Gemini ( Gemini 2.0 Flash ) 書名是啥?

哥們兒完全識別不了(左); 換了 o3 ,輕松搞定(右)。


最精彩的部分是 o3 思考的模樣,感覺和人的動作很像:

翻過來、倒過去、剪裁、拉近、放大,想盡辦法用工具看清書脊上的字。


成功識別書名后,繼續詢問價格、哪里可以買得到?它又自動調用網頁搜索,尋找關鍵信息:


很快完成任務,豆瓣評分都給找好了。



不過,真正讓我們感受到o3 是真· Agent的,還是它在某些極限任務上的表現——比如:地理猜測能力

我們上傳了一張懸疑劇《沙塵暴》的劇照,畫面里能看到的,只有:

  • 一位模糊的警察;

  • 一輛模糊的車;

  • 高壓電線;

  • 以及,大片幾乎沒有細節的灰黃色背景。


連人看了都只想說一句:這能猜出啥?我們卻對 o3 發出指令:Geoguess this place.

o3 啟動了,可以清楚看到它先看什么、怎么看、看到了什么、想到了什么。

看的結果一剎那,我飚了一句 hollyshit !

我當然知道這部劇是在甘肅瓜州等地拍攝的,但萬萬沒想到一個 AI 可以憑借電網特征、垂直光柱、戈壁地形等線索,給出這么精確定位——

敦煌熔鹽塔式光熱發電站周邊,還有地理坐標!

順便送上了相關網頁鏈接,點進去就是發電站介紹。


這已經不是圖像識別精度的問題,而是能基于視覺線索展開因果、社會文化背景等多維推理,像探員一樣,從一幀圖里挖出更多信息。這也是「模型即 Agent」的價值所在

作為對比,這是沒能觸發 Agent 能力的結果:細節、精準度實在差太多。和人一樣, 大模型也會偷懶、劃水。



精彩還在繼續。

《聰明的沃利》是一套由英國插畫家 Martin Handford 創作的兒童書籍,目標就是在一張人山人海的圖片中找出一個特定的人物沃爾多( Waldo ),多久才能找到沃爾多?10秒?30秒?一分鐘?

這回,我們讓 o4-mini 玩了把《 Waldo 在哪里?》,請從圖中找到與周杰倫最神似的人。



圖片以四倍速展示

你覺得 o4-mini 找到的這個人物像周董嗎?


o3也能玩兒

真是有了python 工具在手,啥都不怕。

一次性找到一條穿過這個 200x200 迷宮的路徑,也不在怕的。


提示語:Solve this maze by adding a red dotted line for the solution path

甚至還能出個小動畫,讓結果「動」起來,比靜態圖直觀多了。

?o3 也沒問題。雖然它不是文生視頻模型,但你可以讓它繪制尋路路徑的幀圖,將它們做成 GIF 或者MP4 下載。


來自X @gantrols

這個交通事故分析的例子,真的是現實落地典范。 一張事故現場圖,就能幫你分析事故原因、判斷責任。圖像理解+因果分析+法律知識,一鍋燉。



來自X @
@op7418

說到出色的推理能力,據說,這是一個 只有 o3 能答對的題:

有一天,一個女孩參加數學考試只得了38分。她心里對父親的懲罰充滿恐懼,于是偷偷把分數改成了88分。她的父親看到試卷后,怒發沖冠,狠狠地給了她巴掌,怒吼道:你這8怎么一半是綠的一半是紅的,你以為我是傻子嗎?女孩被打后,委屈地哭了起來,什么也沒說。 過了一會兒,父親突然崩潰了。 請問:這位父親為什么過一會兒崩潰了?

最近,,還能免費體驗,它也善于調用工具,就先讓它試試。

思考過程中,它確實意識到了色盲問題,但終究沒能捕捉到這個遺傳信號里隱藏的關鍵信息,進一步展開推理。

錯失靶點,結論又回到了「因內疚而崩潰。」


換了 o3, 自動執行搜索資料,敏銳捕捉到遺傳信號里的疑點,推理出更驚人的事實。


當然,它也不是每次都這么聰明——有時也會偷懶,給你瞎胡扯一通(如下)。但當它真的認真起來,那推理能力是真的驚艷。


GPT 4o 的 Deep Research 是目前最強大的科研助手。現在,有了工具能力加持, o3 就像精簡版 Deep Research。

比如最近我想深挖斯諾登的《永久記錄》,就請它做了一份反向大綱,挑出那些「網上很難找到,但書中明確存在的觀點」——結果還真有,比如:

隱藏線索,電子游戲(無法后退)與數字系統不可撤銷的暗和。

容易忽略的觀點,本書后半出現了日記、談到了愛,這種「情感連接」和貫穿全書的「數據連接」構成了強烈對比。


提示語:讀完這本書的全部內容。給寫一份詳細的反向大綱,找出人們通常會忽略的關于這本書的有趣且令人驚訝的主題、觀點等等(比如,你在網上任何地方都找不到但肯定在書中存在的內容,也許是作者放進去但大多數人沒有注意到的內容)





最后,丟一點點丑話。

就算咱是尊貴的 20 美元月付用戶,也不能保證每次都能觸發視覺推理能力,成功概率也跟賭博差不多。

為什么會這樣?

網友各有說法,比如和輸入語言有關、任務類型有關。我們的推測,這類服務總歸是個非常耗費算力的事情, 官方不可能四平八穩響應每一個任務,應該會想辦法「節流」。

但,每天頭幾個任務,一般還是可以順利激活。

另外,就是幻覺這個問題。o3 有時會以為自己用了工具,但實際上并沒有。

按有的網友說法,「o3 經常為了滿足用戶請求而編造操作,并在用戶質問時精心辯解這些編造行為的合理性。」


總的來說,現在的大模型正在沖擊一個新階段:更智能,更務實,仍需要咱「帶腦子」使用,合理管理預期。

? THE END

轉載請聯系本公眾號獲得授權

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
魯比奧下禁令,要凍結中國在美資產?不到24小時,中方送上16個字

魯比奧下禁令,要凍結中國在美資產?不到24小時,中方送上16個字

天行艦
2025-04-27 05:54:01
商務部:開展汽車流通消費改革試點 鼓勵相關地區優化汽車限購限行措施

商務部:開展汽車流通消費改革試點 鼓勵相關地區優化汽車限購限行措施

紅星新聞
2025-04-28 12:18:08
S媽深夜發文紀念大S,明顯寫錯字,網友:中文是具俊曄教的嗎

S媽深夜發文紀念大S,明顯寫錯字,網友:中文是具俊曄教的嗎

小俎娛樂
2025-04-28 10:04:05
緊急空難!全員墜海遇難

緊急空難!全員墜海遇難

澳洲紅領巾
2025-04-27 15:15:54
湖南省會同縣第三中學黨委書記許涼明被查

湖南省會同縣第三中學黨委書記許涼明被查

魯中晨報
2025-04-28 12:04:02
李現女朋友直播,稱兩人在一起五六年了,生過孩子,雙方見過家長

李現女朋友直播,稱兩人在一起五六年了,生過孩子,雙方見過家長

明月聊史
2025-04-26 20:34:19
國產攝像頭圍攻索尼!全球第二、第三均為中國廠商

國產攝像頭圍攻索尼!全球第二、第三均為中國廠商

挖貝網
2025-04-26 19:54:11
28日最佳陣容:詹姆斯致命犯錯仍入選 華子43+9力壓東契奇38分

28日最佳陣容:詹姆斯致命犯錯仍入選 華子43+9力壓東契奇38分

醉臥浮生
2025-04-28 12:47:43
華表獎惹爭議,《我本是高山》獲優秀農村題材獎,網友刷屏發問號

華表獎惹爭議,《我本是高山》獲優秀農村題材獎,網友刷屏發問號

萌神木木
2025-04-27 18:23:53
深圳科技館(新館)五一正式開門迎客!

深圳科技館(新館)五一正式開門迎客!

據說說娛樂
2025-04-28 05:32:26
14死750傷!美伊談判之際,海軍基地突發爆炸,英媒透露事故細節

14死750傷!美伊談判之際,海軍基地突發爆炸,英媒透露事故細節

正史筆記
2025-04-27 11:18:58
波音財報披露其商用飛機積壓訂單超5600架!這是個什么概念呢?

波音財報披露其商用飛機積壓訂單超5600架!這是個什么概念呢?

翻開歷史和現實
2025-04-27 18:23:51
1999年,一江西婦女到北京找知青丈夫,首長聽到此事后深思了起來

1999年,一江西婦女到北京找知青丈夫,首長聽到此事后深思了起來

牛魔王與芭蕉扇
2025-04-15 16:26:10
我調到前妻的老家擔任縣委書記,參加同學聚會,被前妻的丈夫嘲笑

我調到前妻的老家擔任縣委書記,參加同學聚會,被前妻的丈夫嘲笑

喬生桂
2025-04-16 16:46:00
一分險勝3-1領先!布倫森32+5+11,連續4場30+,CC空砍25+10+10

一分險勝3-1領先!布倫森32+5+11,連續4場30+,CC空砍25+10+10

無術不學
2025-04-28 10:57:13
曼晚:出球型門將組織能力差,曼聯更衣室恐對奧納納失去信心

曼晚:出球型門將組織能力差,曼聯更衣室恐對奧納納失去信心

懂球帝
2025-04-28 13:02:09
意大利名宿:辛納因理療師手指殘留物而意外感染,卻被判前所未有的罪名

意大利名宿:辛納因理療師手指殘留物而意外感染,卻被判前所未有的罪名

懂球帝
2025-04-27 18:26:17
東亞第一1-4慘敗!橫濱主帥:輸球不是實力差 東亞球隊不熟悉環境

東亞第一1-4慘敗!橫濱主帥:輸球不是實力差 東亞球隊不熟悉環境

直播吧
2025-04-27 16:50:09
被長相耽誤多年,曾暗戀過梅婷,如今落魄到騎電瓶車參加同學聚會

被長相耽誤多年,曾暗戀過梅婷,如今落魄到騎電瓶車參加同學聚會

三公子娛樂丫
2025-04-16 14:30:04
弟弟生活困難哥嫂給了他5萬,5年后他裝窮回村,哥嫂的做法太感人

弟弟生活困難哥嫂給了他5萬,5年后他裝窮回村,哥嫂的做法太感人

白云故事
2025-04-17 05:20:03
2025-04-28 13:16:49
AI好好用 incentive-icons
AI好好用
探索人工智能應用場景及商業化
2087文章數 4431關注度
往期回顧 全部

科技要聞

大廠圍獵AI人才:部分實習生日薪可達2000

頭條要聞

美多位專家:中美若在能源方面合作 對全人類將是好事

頭條要聞

美多位專家:中美若在能源方面合作 對全人類將是好事

體育要聞

我們來自北極圈,我們有全球最恐怖的主場!

娛樂要聞

王寶強座位引眾怒 論演技誰能壓得了

財經要聞

事關穩就業、穩經濟 四部門聯合發聲

汽車要聞

中型純電轎跑SUV/6月上市 豐田bZ5預售13-16萬

態度原創

旅游
本地
健康
家居
公開課

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

本地新聞

亮劍緝車—蕉城法院法拍車首場聯合直播

唇皰疹和口腔潰瘍是"同伙"嗎?

家居要聞

慢度設計 溫暖與沉靜的體驗

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 昂仁县| 长治市| 牟定县| 宜兴市| 兰溪市| 肃宁县| 湖南省| 崇州市| 新竹县| 郁南县| 砚山县| 轮台县| 拜城县| 内丘县| 河北区| 北辰区| 榆中县| 岚皋县| 镇原县| 师宗县| 美姑县| 富顺县| 福州市| 武平县| 赣榆县| 土默特左旗| 涡阳县| 宁国市| 荃湾区| 贞丰县| 南召县| 桦川县| 新巴尔虎左旗| 和林格尔县| 红桥区| 犍为县| 潜山县| 梨树县| 莎车县| 五河县| 平山县|