99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

AI復現頂尖AI論文?OpenAI最新測評:Claude 3.5得分第一

0
分享至


AI能自己復現頂級AI論文了嗎?OpenAI剛剛發布了 PaperBench,用于評估 AI 代理復現頂尖 AI 研究能力的基準測試


在這項測試中,AI 代理必須成功復現 ICML 2024 的頂級論文,這包括理解論文、編寫代碼和執行實驗等環節

OpenAI用 PaperBench 測試了幾款業界領先的 AI 模型。結果顯示,在本次測試中表現最好的是 Claude 3.5 Sonnet (新版,配合開源框架),其平均復現分數達到了 21.0%。研究人員還邀請了頂尖的機器學習博士參與了部分任務的測試,結果表明,當前的 AI 模型還沒能超越人類專家的水平


簡單來說,PaperBench就是一個AI復現頂會論文能力的“考場”,那么,這個考場具體是怎么運作的呢?我來給大家捋一捋

核心任務:從零復現頂會論文

PaperBench挑選了20篇來自ICML 2024的Spotlight和Oral論文,涵蓋了深度強化學習、魯棒性、概率方法等12個不同的AI研究領域。這些都是當前AI研究的最新成果

AI代理(Agent)接到的任務是:

  • ? 只給你論文原文和一個補充說明文件(由原作者提供,澄清模糊之處)。

  • ?從零開始,理解論文的核心貢獻

  • ?編寫完整的代碼庫,實現論文中的所有實驗

  • ? 成功運行、監控、調試這些實驗,最終復現出論文報告的關鍵實證結果

  • ?禁止使用或查看原作者發布的任何代碼,確保是AI獨立完成的

最終,AI需要提交一個包含所有代碼的倉庫,其中必須有一個reproduce.sh腳本作為入口,能夠在全新的環境中運行并復現結果


嚴格的“評分標準”:層級化Rubrics

PaperBench最核心的部分,就是為每篇論文都精心設計了一套層級化的評分細則(Rubrics)

與原作者共同開發:確保評分標準既準確又符合研究實際

樹狀結構:將復雜的復現任務分解為越來越細致的子任務,一直到最底層的“葉節點”

海量評分點:總共包含8,316個可獨立評分的葉節點任務!每個葉節點都有明確的“通過/失敗”標準

權重分配:每個節點都有權重,反映其在整個研究中的相對重要性(而非實現難度)

最終得分(Replication Score):葉節點得分(0或1)加權平均,逐層向上傳遞,根節點的分數就是最終的復現得分,0%表示完全失敗,100%表示完美復現

這套評分系統能非常精細地衡量AI在復現過程中的部分進展,即使沒能完全成功,也能知道它做到了哪一步


評分員是誰?LLM法官登場

手動給8000多個任務點打分?想想都頭大。一個人類專家給一次嘗試評分可能就要花幾十個小時。為了讓評估能夠規模化進行,研究團隊開發了一個基于LLM的自動評分系統(SimpleJudge)

獨立評分:對每個葉節點,LLM法官會看到論文原文、完整的Rubric結構、當前葉節點的要求,以及AI提交并實際運行后的代碼和輸出文件

上下文處理:由于提交的完整代碼庫可能太大,法官會先對文件進行相關性排序,只看最重要的前10個文件

法官的法官(JudgeEval):為了確保LLM法官靠譜,團隊還創建了一個輔助評估基準JudgeEval。他們用一些部分完成的復現嘗試(來自人類或修改后的作者代碼),讓人類專家先打好分(作為“黃金標準”),然后讓LLM法官來評,看它的判斷和人類專家有多接近

表現與成本:實驗表明,使用o3-mini作為后端的SimpleJudge,在JudgeEval上能達到0.83的F1分數,效果不錯。而且成本大大降低,評分一篇完整論文大約需要66美元的API費用,相比人類專家成本,可以說是又快又省。考慮到完整的PaperBench評估(需要GPU運行代碼復現)成本還是較高,團隊還推出了一個簡化版PaperBench Code-Dev

結果如何?AI vs 人類博士

重頭戲來了,現在的頂尖AI表現怎么樣?

AI代理表現:團隊測試了包括 GPT-4o, o1 (OpenAI另一模型), o3-mini, DeepSeek-R1, Claude 3.5 Sonnet (New), Gemini 2.0 Flash 在內的多個前沿模型

在基礎的BasicAgent(一個簡單的智能體框架)設置下,Claude 3.5 Sonnet 表現最好,平均復現得分達到了 21.0%。OpenAI 的 o1 high得分為 13.2%,其他模型得分均低于10%


普遍問題:AI經常過早放棄(聲稱完成或遇到無法解決的問題),缺乏長期規劃和策略能力,難以有效利用給定的時間(比如12小時)。簡單的Agent框架可能也限制了模型能力發揮

使用IterativeAgent(強制跑滿時間、提示優化)后,o1和o3-mini得分有顯著提升(o1達到24.4%),但Claude 3.5 Sonnet得分反而下降,顯示出模型對提示和Agent框架的敏感性

人類基線:團隊招募了8位機器學習領域的博士生/博士后,讓他們在類似條件下(單塊A10 GPU,4周兼職時間,禁用作者代碼)嘗試復現4篇論文(每篇3人獨立嘗試,取最好成績)

結果對比:在最初的幾個小時里,AI(以o1為例)寫代碼速度快,得分一度超越人類。但AI的得分很快停滯

人類雖然起步慢(可能需要時間理解論文),但得分持續穩定增長,在大約24小時后開始顯著超過AI

在一個3篇論文的子集上,經過48小時的努力,人類博士的最佳嘗試平均得分達到了 41.4%,而o1在同樣子集上得分約為 26.6%

結論:目前最強的AI模型,在從零開始復現頂會級AI研究方面,展現出了一定的能力(特別是在快速編寫初步代碼方面),但距離真正勝任這項復雜、長周期的任務還有相當長的路要走。它們在長期規劃、持續調試和策略執行方面存在明顯短板

PaperBench的發布意義重大:

提供了一個可量化的標尺:用于衡量AI在進行自主科研探索方面的能力進展。這對于理解AI能力邊界、預測未來發展至關重要

加速科學發現的潛力:能夠自主復現甚至改進研究的AI,無疑將極大加速科學進步,包括AI安全和對齊研究本身

開放與協作:PaperBench是開源的,鼓勵整個社區使用、改進和擴展這個基準

PaperBench是AI能力評估領域的一個重要里程碑。它首次系統性地、大規模地評估了AI從零開始復現復雜前沿研究的能力。雖然當前AI的表現離完美復現還有距離,但這無疑為我們觀察、理解和引導AI邁向更高級自主智能提供了寶貴的視角和工具

參考:

https://cdn.openai.com/papers/22265bac-3191-44e5-b057-7aaacd8e90cd/paperbench.pdf

?星標AI寒武紀,好內容不錯過?

用你的在看告訴我~

求贊

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
《蠻好的人生》被400萬債務逼到絕境,胡曼黎將薛曉舟趕出家門

《蠻好的人生》被400萬債務逼到絕境,胡曼黎將薛曉舟趕出家門

動物奇奇怪怪
2025-04-28 01:00:46
《蠻好的人生》胡曼黎傾家蕩產!薛曉舟對唐玲的報復,究竟有多狠

《蠻好的人生》胡曼黎傾家蕩產!薛曉舟對唐玲的報復,究竟有多狠

頭號劇委會
2025-04-27 11:45:02
布倫森受傷回歸末節15分 CC致命失誤&失絕殺 尼克斯3-1活塞

布倫森受傷回歸末節15分 CC致命失誤&失絕殺 尼克斯3-1活塞

直播吧
2025-04-28 03:49:07
關曉彤華表獎造型封神!自曝“穿這身能跑馬拉松”,真·紅毯戰神

關曉彤華表獎造型封神!自曝“穿這身能跑馬拉松”,真·紅毯戰神

陌辰凌
2025-04-27 16:46:33
地面最低溫度降至0℃以下,山西發布霜凍藍色預警

地面最低溫度降至0℃以下,山西發布霜凍藍色預警

澎湃新聞
2025-04-27 14:03:09
G1勝山西發布會!許利民點出籃板優勢并喊話G2,所羅門談求勝欲!

G1勝山西發布會!許利民點出籃板優勢并喊話G2,所羅門談求勝欲!

籃球資訊達人
2025-04-28 01:07:52
與張天愛同居6年孕期出軌?37歲當爹2年離婚,他把一手好牌打稀爛

與張天愛同居6年孕期出軌?37歲當爹2年離婚,他把一手好牌打稀爛

喜歡歷史的阿繁
2025-04-25 09:37:51
跌慘了!深圳跌幅最大的小區,90多平米三房1186萬,跌至393萬…

跌慘了!深圳跌幅最大的小區,90多平米三房1186萬,跌至393萬…

火山詩話
2025-04-25 12:55:36
縣公安局長兒子調戲新上任女縣委書記,半月后,全縣大半領導被雙開

縣公安局長兒子調戲新上任女縣委書記,半月后,全縣大半領導被雙開

紅豆講堂
2025-04-15 11:31:18
首場直播銷售額超50萬,肥娟夫婦回應帶貨:沒簽合同,抽成對方看著給

首場直播銷售額超50萬,肥娟夫婦回應帶貨:沒簽合同,抽成對方看著給

魯中晨報
2025-04-27 09:40:15
關稅牌沒奏效,美財長又心生一計,不許亞洲開發銀行向中方貸款

關稅牌沒奏效,美財長又心生一計,不許亞洲開發銀行向中方貸款

趣味萌寵的日常
2025-04-27 20:27:27
內訌!遼媒怒懟賀天舉 當年你不防守也沒嫌棄你 沒資格嫌棄隊員

內訌!遼媒怒懟賀天舉 當年你不防守也沒嫌棄你 沒資格嫌棄隊員

胖子噴球
2025-04-27 19:55:20
中國學生被打后續!曝留學生住雙人間,領幾萬贊助,學校關評論

中國學生被打后續!曝留學生住雙人間,領幾萬贊助,學校關評論

史行途
2025-04-27 16:41:37
36歲張含韻被偶遇,身材發福胖了仍很美,和男友感情穩定很幸福

36歲張含韻被偶遇,身材發福胖了仍很美,和男友感情穩定很幸福

新語愛八卦
2025-04-23 09:41:32
特朗普出手了,圍繞臺海一口氣打出4招,留給中國時間已不多

特朗普出手了,圍繞臺海一口氣打出4招,留給中國時間已不多

獵火照狼山
2025-04-25 17:42:47
康輝,新身份!

康輝,新身份!

中國文藝網
2025-04-24 07:06:50
另類慶祝方式,科納特獨自坐在安菲爾德看臺微笑俯瞰球場

另類慶祝方式,科納特獨自坐在安菲爾德看臺微笑俯瞰球場

直播吧
2025-04-28 05:57:02
哪些放縱欲望的可怕后果?網友:完全復制敗家的整個過程!

哪些放縱欲望的可怕后果?網友:完全復制敗家的整個過程!

特約前排觀眾
2025-04-28 00:10:05
蠻好的人生:胡曼黎怎么也沒想到,幫自己扳倒唐玲的人,竟是尤琪

蠻好的人生:胡曼黎怎么也沒想到,幫自己扳倒唐玲的人,竟是尤琪

明月聊史
2025-04-27 15:45:06
終于等到了?靈活就業人員繳納養老保險,將迎來這幾大“利好”!

終于等到了?靈活就業人員繳納養老保險,將迎來這幾大“利好”!

老王財富觀點
2025-04-27 20:50:14
2025-04-28 06:31:00
AI寒武紀 incentive-icons
AI寒武紀
專注于人工智能,科技領域
649文章數 259關注度
往期回顧 全部

科技要聞

充1秒跑2.5公里,寧德時代比亞迪華為激戰

頭條要聞

用馬斯克理念改造生產線 95后女生創業1年銷售額上億

頭條要聞

用馬斯克理念改造生產線 95后女生創業1年銷售額上億

體育要聞

我們來自北極圈,我們有全球最恐怖的主場!

娛樂要聞

華表獎獲獎名單!張譯二影帝惠英紅勇影后

財經要聞

2千億!核電開閘 國常會核準10臺新機組

汽車要聞

蔚來李斌的"十年磨一劍" 從看得見 到看不見

態度原創

時尚
旅游
手機
藝術
家居

5條適合春天的裙子、褲子!溫柔顯瘦美到爆炸!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

手機要聞

華為 Pura X 闊折疊手機獲鴻蒙 HarmonyOS NEXT 5.0.1.115 升級

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

家居要聞

明亮溫馨 質感且奢華

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 顺昌县| 兴仁县| 旬邑县| 忻城县| 茌平县| 涿州市| 洪湖市| 灵川县| 舟山市| 潮安县| 都匀市| 合作市| 会昌县| 宁陕县| 三河市| 福清市| 防城港市| 平昌县| 长葛市| 岳阳市| 涞源县| 永宁县| 镶黄旗| 淮安市| 新建县| 宝丰县| 淮滨县| 寿光市| 乐安县| 荆门市| 龙南县| 循化| 晋宁县| 上思县| 襄城县| 昔阳县| 大化| 雷山县| 高淳县| 同江市| 唐海县|