網易首頁 > 網易號 > 正文申請入駐

AI復現頂尖AI論文？OpenAI最新測評：Claude 3.5得分第一

2025-04-03 12:33:54　來源: AI寒武紀

江蘇舉報

分享至

AI能自己復現頂級AI論文了嗎？OpenAI剛剛發布了 PaperBench，用于評估 AI 代理復現頂尖 AI 研究能力的基準測試

在這項測試中，AI 代理必須成功復現 ICML 2024 的頂級論文，這包括理解論文、編寫代碼和執行實驗等環節

OpenAI用 PaperBench 測試了幾款業界領先的 AI 模型。結果顯示，在本次測試中表現最好的是 Claude 3.5 Sonnet (新版，配合開源框架)，其平均復現分數達到了 21.0%。研究人員還邀請了頂尖的機器學習博士參與了部分任務的測試，結果表明，當前的 AI 模型還沒能超越人類專家的水平

簡單來說，PaperBench就是一個AI復現頂會論文能力的“考場”，那么，這個考場具體是怎么運作的呢？我來給大家捋一捋

核心任務：從零復現頂會論文

PaperBench挑選了20篇來自ICML 2024的Spotlight和Oral論文，涵蓋了深度強化學習、魯棒性、概率方法等12個不同的AI研究領域。這些都是當前AI研究的最新成果

AI代理（Agent）接到的任務是：

? 只給你論文原文和一個補充說明文件（由原作者提供，澄清模糊之處）。
?從零開始，理解論文的核心貢獻
?編寫完整的代碼庫，實現論文中的所有實驗
? 成功運行、監控、調試這些實驗，最終復現出論文報告的關鍵實證結果
?禁止使用或查看原作者發布的任何代碼，確保是AI獨立完成的

最終，AI需要提交一個包含所有代碼的倉庫，其中必須有一個reproduce.sh腳本作為入口，能夠在全新的環境中運行并復現結果

嚴格的“評分標準”：層級化Rubrics

PaperBench最核心的部分，就是為每篇論文都精心設計了一套層級化的評分細則（Rubrics）

與原作者共同開發：確保評分標準既準確又符合研究實際

樹狀結構：將復雜的復現任務分解為越來越細致的子任務，一直到最底層的“葉節點”

海量評分點：總共包含8,316個可獨立評分的葉節點任務！每個葉節點都有明確的“通過/失敗”標準

權重分配：每個節點都有權重，反映其在整個研究中的相對重要性（而非實現難度）

最終得分（Replication Score）：葉節點得分（0或1）加權平均，逐層向上傳遞，根節點的分數就是最終的復現得分，0%表示完全失敗，100%表示完美復現

這套評分系統能非常精細地衡量AI在復現過程中的部分進展，即使沒能完全成功，也能知道它做到了哪一步

評分員是誰？LLM法官登場

手動給8000多個任務點打分？想想都頭大。一個人類專家給一次嘗試評分可能就要花幾十個小時。為了讓評估能夠規模化進行，研究團隊開發了一個基于LLM的自動評分系統（SimpleJudge）

獨立評分：對每個葉節點，LLM法官會看到論文原文、完整的Rubric結構、當前葉節點的要求，以及AI提交并實際運行后的代碼和輸出文件

上下文處理：由于提交的完整代碼庫可能太大，法官會先對文件進行相關性排序，只看最重要的前10個文件

法官的法官（JudgeEval）：為了確保LLM法官靠譜，團隊還創建了一個輔助評估基準JudgeEval。他們用一些部分完成的復現嘗試（來自人類或修改后的作者代碼），讓人類專家先打好分（作為“黃金標準”），然后讓LLM法官來評，看它的判斷和人類專家有多接近

表現與成本：實驗表明，使用o3-mini作為后端的SimpleJudge，在JudgeEval上能達到0.83的F1分數，效果不錯。而且成本大大降低，評分一篇完整論文大約需要66美元的API費用，相比人類專家成本，可以說是又快又省。考慮到完整的PaperBench評估（需要GPU運行代碼復現）成本還是較高，團隊還推出了一個簡化版PaperBench Code-Dev

結果如何？AI vs 人類博士

重頭戲來了，現在的頂尖AI表現怎么樣？

AI代理表現：團隊測試了包括 GPT-4o, o1 (OpenAI另一模型), o3-mini, DeepSeek-R1, Claude 3.5 Sonnet (New), Gemini 2.0 Flash 在內的多個前沿模型

在基礎的BasicAgent（一個簡單的智能體框架）設置下，Claude 3.5 Sonnet 表現最好，平均復現得分達到了 21.0%。OpenAI 的 o1 high得分為 13.2%，其他模型得分均低于10%

普遍問題：AI經常過早放棄（聲稱完成或遇到無法解決的問題），缺乏長期規劃和策略能力，難以有效利用給定的時間（比如12小時）。簡單的Agent框架可能也限制了模型能力發揮

使用IterativeAgent（強制跑滿時間、提示優化）后，o1和o3-mini得分有顯著提升（o1達到24.4%），但Claude 3.5 Sonnet得分反而下降，顯示出模型對提示和Agent框架的敏感性

人類基線：團隊招募了8位機器學習領域的博士生/博士后，讓他們在類似條件下（單塊A10 GPU，4周兼職時間，禁用作者代碼）嘗試復現4篇論文（每篇3人獨立嘗試，取最好成績）

結果對比：在最初的幾個小時里，AI（以o1為例）寫代碼速度快，得分一度超越人類。但AI的得分很快停滯

人類雖然起步慢（可能需要時間理解論文），但得分持續穩定增長，在大約24小時后開始顯著超過AI

在一個3篇論文的子集上，經過48小時的努力，人類博士的最佳嘗試平均得分達到了 41.4%，而o1在同樣子集上得分約為 26.6%

結論：目前最強的AI模型，在從零開始復現頂會級AI研究方面，展現出了一定的能力（特別是在快速編寫初步代碼方面），但距離真正勝任這項復雜、長周期的任務還有相當長的路要走。它們在長期規劃、持續調試和策略執行方面存在明顯短板

PaperBench的發布意義重大：

提供了一個可量化的標尺：用于衡量AI在進行自主科研探索方面的能力進展。這對于理解AI能力邊界、預測未來發展至關重要

加速科學發現的潛力：能夠自主復現甚至改進研究的AI，無疑將極大加速科學進步，包括AI安全和對齊研究本身

開放與協作：PaperBench是開源的，鼓勵整個社區使用、改進和擴展這個基準

PaperBench是AI能力評估領域的一個重要里程碑。它首次系統性地、大規模地評估了AI從零開始復現復雜前沿研究的能力。雖然當前AI的表現離完美復現還有距離，但這無疑為我們觀察、理解和引導AI邁向更高級自主智能提供了寶貴的視角和工具

參考：

https://cdn.openai.com/papers/22265bac-3191-44e5-b057-7aaacd8e90cd/paperbench.pdf

?星標AI寒武紀，好內容不錯過?

用你的贊和在看告訴我～

求贊

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.