99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

OpenAI正式發布o3 - 通往AGI的路上,已經沒有了任何阻礙。

0
分享至

今天凌晨2點,OpenAI的12天直播,終于來到了最終章。

奧特曼,也在一片圣誕的氣息中終于回歸。

為大家帶來了最后的壓軸大戲。

OpenAI o3


又一次超群,又一次把模型的能力,推到了新的高度。

也向全世界證明了,OpenAI,依然在鐵王座上牢不可摧。

我也想起了OpenAI研究員在發布o1之前的那句話:

“我們通往AGI的路上,已經沒有任何阻礙了”

之所以OpenAI直接發布o3沒有o2,原因也挺簡單的。

因為跟英國電信服務提供商O2可能存在版權或商標沖突,所以直接跳過了。。。

直接到o3。

而OpenAI直播一完,X上基本就沸騰了。



o3的能力,對現在所有模型,幾乎都直接是降維打擊。

看下o3的能力吧。

一些粗的評測集簡單過一下。


左邊的是軟件工程考試(SWE-Bench Verified),這就像是一個考寫程序的考試,比如你寫一個軟件要它快速、準確,還不能有 bug(小錯誤)。這是考察 o3 是否能像一流的軟件工程師一樣寫出完美的代碼。

o3 的成績:71.7%,比o1還強了不少。

右邊的那個基準比較猛,Codeforces,一個全球著名的編碼競賽平臺。

o3的得分是2727,這個得分,相當于整個榜單的第175名,已經超越了99.99%的人類了。


o1的代碼能力已經強到爆炸了,而o3,又向AGI的山頂,前進了一大步。


數學競賽AIEM 2024和博士級科學考試GPQA Diamond。

AIEM 2024接近滿分,如果我沒記錯的話,這應該也是第一次AI能達到有AIEM接近滿分的水平。

博士級科學考試有進化,但沒數學和編程進化的這么猛。

接下來的這個數學基準比較有趣一點。


FrontierMath,Epoch AI 開發的一個數學基準測試,由60多位頂尖數學家的合作開發,旨在評估人工智能在高級數學推理方面的能力。

而且為了避免數據污染,所有的題目都是原創的且從來沒有發布過的新題目。

之前GPT-4 和 Gemini 1.5 Pro這種模型去評估的時候,成功功率不足2%,與其他傳統數學基準(如 GSM-8K 和 MATH)中超過90%的成功率形成鮮明對比。

而這一次,o3直接達到了25.2

當各大其他模型都還在卷傳統數學基準的時候,o3真的已經進入了另一個世界了。。。

就像大家還在大斗師階段互相卷,你是五星大斗師,我是八星大斗師。

兩者爭論不休,正準備要比試比試,忽然就看到一個斗宗強者踏空而行,留下一地的臥槽。

這還比個鬼。

然后,就是我覺得,整個基準里,最有趣的一個基準了:

ARC-AGI。

先說說這是個啥玩意。

ARC-AGI于2019年首次提出,旨在通過一系列抽象和推理任務來測試AI系統的能力。

主要是因為傳統的技能測量方法并不能有效代表智能,因為它們往往依賴于先前知識和經驗,而真正的智能應體現在廣泛的適應能力和通用性上。

所以,ARC-AGI誕生了,里面的這些任務要求AI識別模式并解決新問題,每個任務由輸入輸出示例組成。這些任務以網格形式呈現,每個方塊可以是十種顏色中的一種,網格的大小可以從1x1到30x30不等。參與者需要根據給定的輸入生成正確的輸出,測試其推理和抽象能力。

可以簡單的理解成,找規律。

大概就是這樣的。



非常的難且抽象。

過去幾代模型的評分在此:

* GPT-2 (2019): 0%

* GPT-3 (2020): 0%

* GPT-4 (2023): 2%

* GPT-4o (2024): 5%

* o1-preview (2024): 21%

* o1 (2024): 32%

* o1 Pro (2024): ~50%

但是今天,o3的分數,達到了恐怖的87.5%。


從0%到5%,整整花了5年的時間,而如今,從5%到87.5%,僅僅只花了半年。

而對應的,人類的閾值分數,是85%。

我們通往AGI的路上,已經沒有任何阻礙了。

不過o3強歸強,但是又是一個期貨,OpenAI目前只對紅隊開放,如果是巨佬的話,可以去申請試試。


網址在此:https://openai.com/index/early-access-for-safety-testing/

目前不知道o3什么時候放出,但是OpenAI又基于o3,訓了3個小尺寸的o3模型。


目前o3-mimi,預估在1月底可以對外開放,但是感覺到時候,肯定又是pro會員專屬的模型了。

我越來越期待,2025年AI行業的進化了。

推理模型、Agent、AI硬件、世界模型。

每一個都是比這個中間態的2024,都更讓人興奮的東西。

2025,必是AI行業,真正的星辰大海。

我們也在最后,回顧一下這12天的直播吧。

Day 1:滿血o1上線,ChatGPT Pro會員上線,o1 pro推出。


Day 2:基于o1的強化微調。

Day 3:Sora正式發布。


Day 4:ChatGPT Canvas全員開放以及小功能更新。

Day 5:給蘋果站臺,宣傳蘋果全系接入GPT。

Day 6:4o的實時視頻理解上線。


Day 7:ChatGPT發布新建文件夾“項目”功能。


Day 8:ChatGPT Search全量開放,搜索體驗大幅優化。

Day 9:發布了o1的API、更新了實時語音的API、發布了偏好微調能力(PFT)。

Day 10:物理意義上的可以給ChatGPT打電話了。


Day 11:炒冷飯,ChatGPT 桌面版能讀到別的應用。

Day 12:OpenAI o3正式發布。


這12天,稍微有點驚喜的日子大概只有2、3天,其他都是垃圾時間。

還好,今天的大貨,補上了之前的陰霾。

最后,還是忍不住感嘆一聲。

這12天,像一場漫長的馬拉松。

我們經歷了深夜中數不勝數的垃圾時間。

卻也迎來了最后的高光時刻。

這感覺。

還挺AI的。

以上,既然看到這里了,如果覺得不錯,隨手點個贊、在看、轉發三連吧,如果想第一時間收到推送,也可以給我個星標?~謝謝你看我的文章,我們,下次再見。

>/ 作者:卡茲克

>/ 投稿或爆料,請聯系郵箱:wzglyay@gmail.com

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
法國人到底屬于什么人,為什么長得和英國人、德國人都不一樣?

法國人到底屬于什么人,為什么長得和英國人、德國人都不一樣?

青凝說歷史
2025-04-14 14:27:29
21歲張振陽讀秒破門,三鎮10分鐘連追3球,4-4絕平國安!!!

21歲張振陽讀秒破門,三鎮10分鐘連追3球,4-4絕平國安!!!

直播吧
2025-04-15 21:45:19
家有存款上百萬是啥感受?網友:300個了,今年連5毛的麻將也戒了

家有存款上百萬是啥感受?網友:300個了,今年連5毛的麻將也戒了

解讀熱點事件
2025-04-15 00:05:17
父母是中國臺灣移民!女林書豪被WNBA女武神選中 今年奪NCAA冠軍

父母是中國臺灣移民!女林書豪被WNBA女武神選中 今年奪NCAA冠軍

醉臥浮生
2025-04-15 11:20:43
華為員工最愛用的網站,被美國封鎖了。。。

華為員工最愛用的網站,被美國封鎖了。。。

黑馬公社
2025-04-15 09:49:08
專家:我們不在乎失去美國市場,中國5000年大部分時間沒有美國

專家:我們不在乎失去美國市場,中國5000年大部分時間沒有美國

村里的月光
2025-04-14 22:36:16
雖敗猶榮!廣東隊果然套路深,慘敗山西卻收意外驚喜,杜鋒藏一手

雖敗猶榮!廣東隊果然套路深,慘敗山西卻收意外驚喜,杜鋒藏一手

宗介說體育
2025-04-15 13:37:20
廣西容縣消防辟謠比亞迪充電樁爆炸,附近商戶:我們不能回答

廣西容縣消防辟謠比亞迪充電樁爆炸,附近商戶:我們不能回答

映射生活的身影
2025-04-15 17:24:20
本季得分&助攻&三分命中率均創新高!普爾今夏有資格續3年1.54億

本季得分&助攻&三分命中率均創新高!普爾今夏有資格續3年1.54億

直播吧
2025-04-15 17:20:03
紐約時報發文勸中國收回成命,如果需要,中國可以讓美國更痛苦

紐約時報發文勸中國收回成命,如果需要,中國可以讓美國更痛苦

歸史
2025-04-15 16:10:58
貝索斯的全女性太空組圖遭群嘲:百萬修圖師比物理學家更忙?

貝索斯的全女性太空組圖遭群嘲:百萬修圖師比物理學家更忙?

譯言
2025-04-14 23:49:14
中越鐵路終于達成合作!越南放棄對接廣西,選擇云南,到底圖啥?

中越鐵路終于達成合作!越南放棄對接廣西,選擇云南,到底圖啥?

小撇說事
2024-11-28 17:43:40
美前財長耶倫倒戈,表示特朗普應向中國低頭,以換取中國的諒解!

美前財長耶倫倒戈,表示特朗普應向中國低頭,以換取中國的諒解!

大道無形我有型
2025-04-15 18:34:49
爆冷!三外援82分完壓聯盟第1 青島1-1回主場天王山 楊瀚森獻隔扣

爆冷!三外援82分完壓聯盟第1 青島1-1回主場天王山 楊瀚森獻隔扣

顏小白的籃球夢
2025-04-15 21:40:33
看似廣東大敗,實則是CBA被打臉!輸42分能拿獎,山西卻一無所獲

看似廣東大敗,實則是CBA被打臉!輸42分能拿獎,山西卻一無所獲

嘴炮體壇
2025-04-15 11:02:46
關稅戰打到這份上,印度前上校都看透了:中美脫鉤后,將統一臺灣

關稅戰打到這份上,印度前上校都看透了:中美脫鉤后,將統一臺灣

歷史求知所
2025-04-14 19:00:10
周揚青「包私人飛機」朝圣科切拉! 粉長裙曬貴氣內裝

周揚青「包私人飛機」朝圣科切拉! 粉長裙曬貴氣內裝

ETtoday星光云
2025-04-15 09:57:24
NBA從未抽中過狀元簽的7支球隊,爵士太倒霉,雷霆建隊58年仍無緣

NBA從未抽中過狀元簽的7支球隊,爵士太倒霉,雷霆建隊58年仍無緣

大衛的籃球故事
2025-04-15 17:57:14
注銷必查三年賬?稅局明確!4月15日起,企業注銷必須這樣辦,否則后果嚴重!

注銷必查三年賬?稅局明確!4月15日起,企業注銷必須這樣辦,否則后果嚴重!

祥順財稅俱樂部
2025-04-15 09:08:56
世紀大翻臉

世紀大翻臉

虛聲
2025-04-14 20:24:32
2025-04-15 22:03:00
數字生命卡茲克 incentive-icons
數字生命卡茲克
反復橫跳于不同的AI領域,努力分享一些很酷的AI干貨
283文章數 386關注度
往期回顧 全部

科技要聞

對等關稅下顯卡被爆炒:黃牛背刺游戲玩家

頭條要聞

中國向巴西采購至少240萬噸大豆 美大豆協會主席慌了

頭條要聞

中國向巴西采購至少240萬噸大豆 美大豆協會主席慌了

體育要聞

父母是臺灣移民!女林書豪被WNBA球隊選中

娛樂要聞

娛樂圈模范夫妻塌房?私生活曝光!

財經要聞

李強:以更大力度促進消費擴大內需

汽車要聞

轉型中的"穩健派" 一汽-大眾的智能化突圍路徑

態度原創

游戲
健康
親子
房產
藝術

全變抖M?《漫威爭鋒》玩家癡迷白皇后的“鎖喉”

在中國,到底哪些人在吃“偉哥”?

親子要聞

爺爺奶奶都是中國人,卻生出金發碧眼的洋娃娃

房產要聞

牛!引入廣州中學九年一貫制學校,不愧天河全優生

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 康乐县| 年辖:市辖区| 尼木县| 睢宁县| 蓬溪县| 浦东新区| 柘荣县| 宿迁市| 栖霞市| 宜都市| 渭源县| 乌兰县| 杭锦后旗| 辽源市| 息烽县| 侯马市| 岢岚县| 渭南市| 石棉县| 乐昌市| 宜阳县| 蓬莱市| 河间市| 湟中县| 昂仁县| 大新县| 天台县| 鞍山市| 乐都县| 郓城县| 马鞍山市| 吴桥县| 武功县| 松原市| 麦盖提县| 桦甸市| 九寨沟县| 河东区| 桑日县| 嘉祥县| 乌鲁木齐市|