當地時間4月2日,OpenAI方面宣布推出并開源一個全新的、名為PaperBench的AI智能體(AI Agent)評測基準。據了解,PaperBench是一個用以評估AI智能體復現前沿AI研究能力的評測基準,其要求AI智能體從零開始復現20篇覆蓋12個主題的ICML 2024 Spotlight和Oral論文,包括理解論文貢獻、開發代碼庫并成功執行實驗。
為確保PaperBench能夠客觀進行評估,OpenAI方面與相關論文的原作者共同制定了詳細的評分標準,并將每個復現任務分層分解為具有明確評分標準的較小子任務。總的來說,PaperBench共包含8316個可單獨評分的任務,而且為了實現可擴展的評估,OpenAI還開發了一個基于大模型、能夠根據評分標準自動對AI智能體復現嘗試進行評分的評判員,并通過為評判員創建單獨的基準來評估評判員的表現。
據OpenAI方面透露,其基于PaperBench對GPT-4o、o1、o3-mini、DeepSeek-R1、Claude 3.5 Sonnet(New)和Gemini 2.0 Flash等6款大模型進行了測試。其中,Claude 3.5 Sonnet(New)表現最出色、得分達到21.0%, o1表現次之、得分為13.2%,其他模型的得分則均低于10%。
同時OpenAI方面指出,其還招募了頂尖機器學習博士嘗試部分PaperBench測試集,最終發現參與測試的相關大模型表現尚未超越人類基線。
據了解,這并非OpenAI方面推出的首個AI智能體評測基準,此前在2024年,OpenAI便曾推出用以測試AI智能體機器學習代碼工程能力的評測基準MLE-Bnch。
值得一提的是,不久前OpenAI CEO Sam Altman曾宣布,計劃在未來幾個月內發布自GPT-2以來的首個“開源”語言模型。對此他表示,“接下來幾個月里OpenAI將發布一個強大的、具有推理能力的新開源模型。我們已經考慮這個問題很久了,但之前一直有更重要的事情要做,現在,我覺得做這件事非常重要”。
此外近期有消息源透露,目前OpenAI旗下生成式AI聊天機器人ChatGPT的付費用戶數已超過2000萬,相比2024年年底的1550萬大幅增長。
【本文圖片來自網絡】
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.