AI能自己復現頂級AI論文了嗎?OpenAI剛剛發布了 PaperBench,用于評估 AI 代理復現頂尖 AI 研究能力的基準測試
在這項測試中,AI 代理必須成功復現 ICML 2024 的頂級論文,這包括理解論文、編寫代碼和執行實驗等環節
OpenAI用 PaperBench 測試了幾款業界領先的 AI 模型。結果顯示,在本次測試中表現最好的是 Claude 3.5 Sonnet (新版,配合開源框架),其平均復現分數達到了 21.0%。研究人員還邀請了頂尖的機器學習博士參與了部分任務的測試,結果表明,當前的 AI 模型還沒能超越人類專家的水平
簡單來說,PaperBench就是一個AI復現頂會論文能力的“考場”,那么,這個考場具體是怎么運作的呢?我來給大家捋一捋
核心任務:從零復現頂會論文
PaperBench挑選了20篇來自ICML 2024的Spotlight和Oral論文,涵蓋了深度強化學習、魯棒性、概率方法等12個不同的AI研究領域。這些都是當前AI研究的最新成果
AI代理(Agent)接到的任務是:
? 只給你論文原文和一個補充說明文件(由原作者提供,澄清模糊之處)。
?從零開始,理解論文的核心貢獻
?編寫完整的代碼庫,實現論文中的所有實驗
? 成功運行、監控、調試這些實驗,最終復現出論文報告的關鍵實證結果
?禁止使用或查看原作者發布的任何代碼,確保是AI獨立完成的
最終,AI需要提交一個包含所有代碼的倉庫,其中必須有一個reproduce.sh
腳本作為入口,能夠在全新的環境中運行并復現結果
嚴格的“評分標準”:層級化Rubrics
PaperBench最核心的部分,就是為每篇論文都精心設計了一套層級化的評分細則(Rubrics)
與原作者共同開發:確保評分標準既準確又符合研究實際
樹狀結構:將復雜的復現任務分解為越來越細致的子任務,一直到最底層的“葉節點”
海量評分點:總共包含8,316個可獨立評分的葉節點任務!每個葉節點都有明確的“通過/失敗”標準
權重分配:每個節點都有權重,反映其在整個研究中的相對重要性(而非實現難度)
最終得分(Replication Score):葉節點得分(0或1)加權平均,逐層向上傳遞,根節點的分數就是最終的復現得分,0%表示完全失敗,100%表示完美復現
這套評分系統能非常精細地衡量AI在復現過程中的部分進展,即使沒能完全成功,也能知道它做到了哪一步
評分員是誰?LLM法官登場
手動給8000多個任務點打分?想想都頭大。一個人類專家給一次嘗試評分可能就要花幾十個小時。為了讓評估能夠規模化進行,研究團隊開發了一個基于LLM的自動評分系統(SimpleJudge)
獨立評分:對每個葉節點,LLM法官會看到論文原文、完整的Rubric結構、當前葉節點的要求,以及AI提交并實際運行后的代碼和輸出文件
上下文處理:由于提交的完整代碼庫可能太大,法官會先對文件進行相關性排序,只看最重要的前10個文件
法官的法官(JudgeEval):為了確保LLM法官靠譜,團隊還創建了一個輔助評估基準JudgeEval。他們用一些部分完成的復現嘗試(來自人類或修改后的作者代碼),讓人類專家先打好分(作為“黃金標準”),然后讓LLM法官來評,看它的判斷和人類專家有多接近
表現與成本:實驗表明,使用o3-mini
作為后端的SimpleJudge,在JudgeEval上能達到0.83的F1分數,效果不錯。而且成本大大降低,評分一篇完整論文大約需要66美元的API費用,相比人類專家成本,可以說是又快又省。考慮到完整的PaperBench評估(需要GPU運行代碼復現)成本還是較高,團隊還推出了一個簡化版PaperBench Code-Dev
結果如何?AI vs 人類博士
重頭戲來了,現在的頂尖AI表現怎么樣?
AI代理表現:團隊測試了包括 GPT-4o, o1 (OpenAI另一模型), o3-mini, DeepSeek-R1, Claude 3.5 Sonnet (New), Gemini 2.0 Flash 在內的多個前沿模型
在基礎的BasicAgent
(一個簡單的智能體框架)設置下,Claude 3.5 Sonnet 表現最好,平均復現得分達到了 21.0%。OpenAI 的 o1 high得分為 13.2%,其他模型得分均低于10%
普遍問題:AI經常過早放棄(聲稱完成或遇到無法解決的問題),缺乏長期規劃和策略能力,難以有效利用給定的時間(比如12小時)。簡單的Agent框架可能也限制了模型能力發揮
使用IterativeAgent
(強制跑滿時間、提示優化)后,o1和o3-mini得分有顯著提升(o1達到24.4%),但Claude 3.5 Sonnet得分反而下降,顯示出模型對提示和Agent框架的敏感性
人類基線:團隊招募了8位機器學習領域的博士生/博士后,讓他們在類似條件下(單塊A10 GPU,4周兼職時間,禁用作者代碼)嘗試復現4篇論文(每篇3人獨立嘗試,取最好成績)
結果對比:在最初的幾個小時里,AI(以o1為例)寫代碼速度快,得分一度超越人類。但AI的得分很快停滯
人類雖然起步慢(可能需要時間理解論文),但得分持續穩定增長,在大約24小時后開始顯著超過AI
在一個3篇論文的子集上,經過48小時的努力,人類博士的最佳嘗試平均得分達到了 41.4%,而o1在同樣子集上得分約為 26.6%
結論:目前最強的AI模型,在從零開始復現頂會級AI研究方面,展現出了一定的能力(特別是在快速編寫初步代碼方面),但距離真正勝任這項復雜、長周期的任務還有相當長的路要走。它們在長期規劃、持續調試和策略執行方面存在明顯短板
PaperBench的發布意義重大:
提供了一個可量化的標尺:用于衡量AI在進行自主科研探索方面的能力進展。這對于理解AI能力邊界、預測未來發展至關重要
加速科學發現的潛力:能夠自主復現甚至改進研究的AI,無疑將極大加速科學進步,包括AI安全和對齊研究本身
開放與協作:PaperBench是開源的,鼓勵整個社區使用、改進和擴展這個基準
PaperBench是AI能力評估領域的一個重要里程碑。它首次系統性地、大規模地評估了AI從零開始復現復雜前沿研究的能力。雖然當前AI的表現離完美復現還有距離,但這無疑為我們觀察、理解和引導AI邁向更高級自主智能提供了寶貴的視角和工具
參考:
https://cdn.openai.com/papers/22265bac-3191-44e5-b057-7aaacd8e90cd/paperbench.pdf
?星標AI寒武紀,好內容不錯過?
用你的贊和在看告訴我~
求贊
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.