99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

OpenAI的AI復現論文新基準,Claude拿了第一名

0
分享至




機器之心報道

編輯:+0、澤南

大模型能寫出 ICML Spotlight 論文嗎?

近年來,AI 正從科研輔助工具蛻變為創新引擎:從 DeepMind 破解蛋白質折疊難題的 AlphaFold,到 GPT 系列模型展現文獻綜述與數學推理能力,人工智能正逐步突破人類認知邊界。

今年 3 月 12 日,Sakana AI 宣布他們推出的 AI Scientist-v2 通過了 ICLR 會議一個研討會的同行評審過程。這是 AI 科學家寫出的首篇通過同行評審的科研論文!



這一里程碑事件標志著 AI 在科研領域的突破,同時人們也在進一步探索 AI 智能體的自主研究能力。

4 月 3 日,OpenAI 推出了 PaperBench(論文基準測試),這是一個用于評估 AI 智能體自主復現前沿人工智能研究能力的基準測試系統。如果大模型智能體具備了自動寫 AI / 機器學習研究論文的能力,既可能加速機器學習領域的發展,同時也需要審慎評估以確保 AI 能力的安全發展。

PaperBench 在多個重要的 AI 安全框架中發揮評估作用:

  • 作為 OpenAI 準備框架(OpenAI Preparedness Framework)中評估模型自主性的標準
  • 用于 Anthropic 負責任擴展政策(Responsible Scaling Policy)中的自主能力評估
  • 應用于谷歌 DeepMind 前沿安全框架(Frontier Safety Framework)中的機器學習研發評估



  • 論文標題:PaperBench: Evaluating AI’s Ability to Replicate AI Research
  • 論文鏈接:https://cdn.openai.com/papers/22265bac-3191-44e5-b057-7aaacd8e90cd/paperbench.pdf
  • 代碼地址:https://github.com/openai/preparedness/tree/main/project/paperbench

研究團隊構建了一個測試環境,用于評估具有自主編程能力的 AI 智能體。在該基準測試中,研究團隊要求智能體復現機器學習研究論文中的實驗結果。完整的復現流程包括論文理解、代碼庫開發以及實驗執行與調試。這類復現任務具有較高難度,即便對人類專家而言也需要數天時間完成。

測試基準選取了機器學習頂會 ICML 2024 的 20 篇入選論文,還都是 Spotlight 和 Oral 的。這些論文覆蓋了 12 個不同的研究主題,包括 deep reinforcement learning、robustness 和 probabilistic methods 等。每篇論文都配備了詳細的評分標準,共計 8316 個可獨立評估的復現成果。為確保評估質量,PaperBench 中的評分標準均與原論文作者協作制定,并采用層級結構設計,使復現進度可以在更細粒度上進行衡量。

鑒于機器學習論文的復雜性,人類專家評估單次復現嘗試往往需要數十小時。為提高評估效率,研究團隊開發了基于 LLM 的自動評判系統,并設計了 JudgeEval 輔助評估框架,用于將自動評判結果與人類專家評判的金標數據集進行對比。其中,使用定制框架的 o3-mini-high 評判器表現最佳,在輔助評估中獲得 0.83 的 F1 分數,證明其可作為人類評判的可靠替代方案。



研究表明,智能體在復現機器學習研究論文方面展現出了不容忽視的能力。Claude 3.5 Sonnet (最新版)在配備基礎代理框架的情況下,于 PaperBench 基準測試中獲得了 21.0% 的得分。

研究團隊選取了 3 篇論文組成的測試子集進行深入評估,以機器學習博士的表現作為人類基準(采用 3 次測試中的最優成績)。在 48 小時的測試時間內,人類基準達到了 41.4% 的得分,而 GPT-4(o1)在相同子集上獲得了 26.6% 的得分。此外,研究團隊還開發了一個輕量級評估版本 ——PaperBench Code-Dev,在該版本中,GPT-4 的表現提升至 43.4% 的得分。

PaperBench

任務

對于 PaperBench 中的每個樣本,受評估的智能體會收到論文及其補充說明。

在這里,智能體需要提交一個代碼倉庫,其中包含復現論文實驗結果所需的全部代碼。該倉庫根目錄必須包含一個 reproduce.sh 文件,作為執行所有必要代碼以復現論文結果的入口點。

如果 reproduce.sh 能夠復現論文中報告的實驗結果,則視為成功復現該論文。

該數據集包含了用于定義每篇論文成功復現所需具體結果的評分標準。為防止過度擬合,智能體在嘗試過程中不會看到評分標準,而是需要從論文中推斷出需要復現的內容。

重要的是,該評估禁止智能體使用或查看論文作者的原始代碼庫(如果有的話)。這確保了評估的是智能體從零開始編碼和執行復雜實驗的能力,而不是使用現有研究代碼的能力。



規則

PaperBench 的設計對智能體框架保持中立,因此對其運行環境沒有特定要求。不過為確保公平比較,該基準測試制定了以下規則:

  • 智能體可以瀏覽互聯網,但不得使用團隊為每篇論文提供的黑名單中列出的網站資源。每篇論文的黑名單包括作者自己的代碼倉庫以及任何其他在線復現實現。
  • 智能體可使用的資源,如運行時間和計算資源,不受任何限制。但建議研究人員在結果中報告其具體設置。
  • 開發者應為智能體提供必要的在線服務 API 密鑰(例如用于下載數據集的 HuggingFace 憑證)。獲取在線賬號訪問權限不屬于 PaperBench 意在評估的技能范疇。

評分標準

為每篇論文制定評分標準是開發 PaperBench 最耗時的部分。每份評分標準都是 OpenAI 與每篇論文的一位原作者合作編寫的,從閱讀論文、初步創建、評分標準審查、迭代到最終簽收,每篇論文需要數周時間。

每個評分標準都以樹的形式構建,該樹按層次分解了復現給定論文所需的主要結果。例如,根節點以預期的最高級別結果開始,例如「論文的核心貢獻已被復現」。第一級分解可能會為每個核心貢獻引入一個節點。每個節點的子節點都會更詳細地介紹具體結果,例如「已使用 B.1 節中的超參數在數據集上對 gpt2-xl 進行了微調」。

重要的是,滿足節點的所有子節點表示父節點也已得到滿足,因此對樹的所有葉節點進行評分就足以全面評估整體成功率。

葉節點具有精確而細致的要求。擁有許多細致的要求使我們能夠對部分嘗試進行評分,并使評委更容易對單個節點進行評分。作者不斷分解節點,直到它們所代表的要求足夠精細,以至于估計專家可以在不到 15 分鐘的時間內審查一份提交是否滿足要求(假設熟悉該論文)。在 PaperBench 的 20 篇論文中共有 8316 個葉節點。表 2 顯示了每個評分標準中的節點總數。



所有評分標準節點也都有權重,每個節點的權重表示該貢獻相對于其兄弟節點的重要性,而不一定是節點的實施難度。加權節點獎勵在復現時優先考慮論文中更重要的部分。

用大模型判斷

在初步實驗中,OpenAI 發現使用專家進行手動評分每篇論文需要花費數十小時,因此對于 PaperBench 的實際應用而言,采用自動化方式進行評估是必要的。

為了對 PaperBench 提交的內容進行規模評估,作者開發了一個簡單的基于 LLM 的評判器 SimpleJudge,然后創建了輔助評估 JudgeEval 以評估評判器的表現。

AI 的評委實現被稱為「SimpleJudge」,給定一份提交內容,PaperBench 的 AI 評委將獨立地對評分標準中的每個葉節點進行評分。對于特定的葉節點,評委將收到論文的 Markdown、完整的評分標準 JSON、葉節點的要求和提交內容。

PaperBench 使用 OpenAI 的 o3-mini 作為評委的后端模型,預估對單個提交內容進行評分的成本約為 66 美元(OpenAI API 積分)。對于 PaperBench Code-Dev,成本可以降至每篇論文約 10 美元。



測試結果

OpenAI 基于全部 20 篇論文評估了 GPT-4o、o1、o3-mini、DeepSeek-R1、Claude 3.5 Sonnet(新版本)和 Gemini 2.0 Flash 幾種大模型,每篇論文評估了 3 次。

表 4 列出了每個模型的平均復現分數。可見 Claude 3.5 Sonnet 的表現不錯,得分為 21.0%。OpenAI o1 表現較差,得分為 13.2%,其他模型則表現不佳,得分低于 10%。



檢查智能體工作日志可以發現,除 Claude 3.5 Sonnet 外,其他所有模型經常會提前結束,聲稱自己要么已經完成了整個仿寫,要么遇到了無法解決的問題。所有智能體都未能制定在有限時間內復現論文的最優策略。可以觀察到 o3-mini 經常在工具使用方面遇到困難。

這些情況表明當前模型在執行長期任務方面存在弱點;盡管大模型在制定和編寫多步驟計劃方面表現出足夠的能力,但實際上未能采取一系列行動來執行該計劃。





OpenAI 相信,PaperBench 基準將會推動未來大模型能力繼續上升。

參考內容:

https://openai.com/index/paperbench/

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
A股:大家做好心理準備,股市,很可能重演07年歷史?

A股:大家做好心理準備,股市,很可能重演07年歷史?

生活中的栗子
2025-04-03 13:04:50
那英時隔6個月露面,攜老公回國,58歲孟桐打扮儒雅,倆人好甜

那英時隔6個月露面,攜老公回國,58歲孟桐打扮儒雅,倆人好甜

娛圈小愚
2025-04-11 11:16:42
葉海洋形象崩潰!前女友曬親密合照直播間爆大瓜,網友:顛覆三觀

葉海洋形象崩潰!前女友曬親密合照直播間爆大瓜,網友:顛覆三觀

阿廢冷眼觀察所
2025-04-12 00:12:06
中美開戰,可能性越來越大了

中美開戰,可能性越來越大了

林子說事
2025-04-10 10:01:25
240萬噸巴西大豆5-7月運抵中國,每噸便宜31美元!川普關稅成廢紙

240萬噸巴西大豆5-7月運抵中國,每噸便宜31美元!川普關稅成廢紙

可樂談情感
2025-04-11 13:40:36
高盛狂言?中國的房價,才跌一半而已?啥情況?

高盛狂言?中國的房價,才跌一半而已?啥情況?

巢客HOME
2025-04-09 04:40:02
又對賬了!美國網友對賬車厘子價格:大吃一驚,老胡終于說對一次

又對賬了!美國網友對賬車厘子價格:大吃一驚,老胡終于說對一次

阿鳧愛吐槽
2025-01-17 09:43:14
對等關稅“開錯房、吃錯藥” :多方呼應中方WTO發言

對等關稅“開錯房、吃錯藥” :多方呼應中方WTO發言

第一財經資訊
2025-04-10 22:30:10
華爾街開始坐立不安,一旦重現2008年金融危機,中國不會再救美國

華爾街開始坐立不安,一旦重現2008年金融危機,中國不會再救美國

別人都叫我阿腈
2025-04-11 16:30:59
下周決定反彈生死,會有大規模出逃!

下周決定反彈生死,會有大規模出逃!

我是概念愛好者
2025-04-11 15:38:16
兩國可能合并,一旦成功將成為超級大國,或終結美國一家獨大局面

兩國可能合并,一旦成功將成為超級大國,或終結美國一家獨大局面

史二了
2024-07-27 17:12:02
MVP第九+三陣?勒布朗40后場均25+8+8 美媒曬圖直言前所未有

MVP第九+三陣?勒布朗40后場均25+8+8 美媒曬圖直言前所未有

顏小白的籃球夢
2025-04-11 19:51:47
理想汽車官宣:MEGA Home家庭特別版即將發布,車內可以面對面

理想汽車官宣:MEGA Home家庭特別版即將發布,車內可以面對面

泡泡網
2025-04-11 14:29:11
華人“鋼鐵大王”被綁架撕票 生前疑遭酷刑 家屬付近2700萬元贖金

華人“鋼鐵大王”被綁架撕票 生前疑遭酷刑 家屬付近2700萬元贖金

每日經濟新聞
2025-04-11 18:05:32
要動真格了,公務人員“退三進一”政策可能就要來了

要動真格了,公務人員“退三進一”政策可能就要來了

錘不倒的拖油瓶
2025-04-08 05:56:10
女律師指控帕耶PUA:要我喝尿、喝馬桶水、舔地板證明愛他

女律師指控帕耶PUA:要我喝尿、喝馬桶水、舔地板證明愛他

直播吧
2025-04-11 14:30:07
【2025.4.11】扒醬料不停:那些你不知道的八卦一二三

【2025.4.11】扒醬料不停:那些你不知道的八卦一二三

娛樂真爆姐
2025-04-11 22:41:27
最后一次!中方對美關稅提高至125%!之后將不再陪美國玩數字游戲

最后一次!中方對美關稅提高至125%!之后將不再陪美國玩數字游戲

陳意小可愛
2025-04-11 23:21:08
馬卡:C羅個人品牌價值達到8.5億歐元,創歷史紀錄

馬卡:C羅個人品牌價值達到8.5億歐元,創歷史紀錄

雷速體育
2025-04-11 23:56:32
《破·地獄》加長版,廣州無一影院上映,佛山拿下票房冠軍

《破·地獄》加長版,廣州無一影院上映,佛山拿下票房冠軍

小果趣味體育
2025-04-11 03:48:20
2025-04-12 01:08:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10345文章數 142293關注度
往期回顧 全部

科技要聞

單臺年入20萬!首批人形機器人致富者來了

頭條要聞

專家:不用太擔心關稅 現在要看的是中美雙方誰扛不住

頭條要聞

專家:不用太擔心關稅 現在要看的是中美雙方誰扛不住

體育要聞

球迷天天罵,但我們要進歐冠了

娛樂要聞

汪小菲馬筱梅婚禮又有了耐人尋味的新聞

財經要聞

造假累計數百億 揭秘東旭集團造假手法

汽車要聞

25款風云A8/T9/T10齊上市 多款車型發布一口價

態度原創

旅游
藝術
健康
游戲
公開課

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

在中國,到底哪些人在吃“偉哥”?

鋼嵐:2.3艾達新版本報告!這內容怎么玩著玩著就沒了?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 和平县| 开化县| 三台县| 民乐县| 赣榆县| 永靖县| 三河市| 泰兴市| 宜阳县| 陵川县| 苏尼特右旗| 绥德县| 潞城市| 黑河市| 汾阳市| 定州市| 大化| 新和县| 政和县| 绥棱县| 阿克苏市| 哈巴河县| 龙山县| 沂水县| 云梦县| 固镇县| 新沂市| 金秀| 广州市| 邵武市| 东丽区| 嘉义县| 永安市| 成安县| 屯昌县| 福州市| 台东市| 上犹县| 弥渡县| 松潘县| 额济纳旗|