網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

AI智能體首次跨實(shí)驗(yàn)室協(xié)作，組隊(duì)「抄作業(yè)」，論文發(fā)不停！科研效率暴增14%

2025-03-25 16:29:21　來(lái)源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：桃子定慧

【新智元導(dǎo)讀】AI不但能寫(xiě)論文，還能自主進(jìn)行科研協(xié)作，讓智能體之間不再是「孤島」。約翰霍普金斯與ETH Zurich聯(lián)合推出了自主科研智能體框架AgentRxiv。該框架允許智能體相互上傳和檢索研究成果，自動(dòng)積累與迭代已有進(jìn)展，顯著提高研究效率。

試想一下，AI智能體某天幫你自主研究、查文獻(xiàn)時(shí)，或許每個(gè)人科研產(chǎn)出直接起飛。

最近，

但問(wèn)題來(lái)了，現(xiàn)在的AI智能體都在各自為戰(zhàn)，無(wú)法協(xié)作和傳承既有的研究成果。

為此，霍普金斯聯(lián)手ETH Zurich研究人員重磅推出AgentRxiv，一個(gè)專為自主研究智能體設(shè)計(jì)的框架。

它的誕生，就為了讓智能體上傳、檢索，并相互借鑒研究成果。

論文地址：https://agentrxiv.github.io/resources/agentrxiv.pdf

簡(jiǎn)單來(lái)說(shuō)，AgentRxiv就像是一個(gè)「預(yù)印本服務(wù)器」，不僅允許研究者設(shè)定方向，讓智能體持續(xù)產(chǎn)出論文。

最重要的是，它還能確保每篇新作都建立在以往研究基礎(chǔ)之上，實(shí)現(xiàn)真正迭代式進(jìn)步。

經(jīng)過(guò)測(cè)試，在數(shù)學(xué)推理任務(wù)中，基于AgentRxiv的智能體在開(kāi)發(fā)全新推理技術(shù)時(shí)，會(huì)參考前人研究報(bào)告。

gpt-4o mini準(zhǔn)確率從70.2%提升至78.2%，相較基線和思維鏈分別飆升11.4%、9.7%。

此外，AI智能體在發(fā)現(xiàn)最佳算法（SDA）的多項(xiàng)基準(zhǔn)測(cè)試中，SDA平均提升3.3%準(zhǔn)確性。

更值得一提的是，在三個(gè)獨(dú)立實(shí)驗(yàn)室通過(guò)AgentRxiv共享預(yù)印本并行實(shí)驗(yàn)中，最優(yōu)方法準(zhǔn)確率高達(dá)79.8%，相較基線提升13.7%。

比傳統(tǒng)的序列實(shí)驗(yàn)，這種協(xié)作模式更快速達(dá)成關(guān)鍵里程碑，從側(cè)面印證了AgentRxiv在加速研究進(jìn)程中巨大潛力。

AgentRxiv讓智能體從協(xié)作中受益

現(xiàn)有的研究框架往往獨(dú)立運(yùn)行，生成的研究成果如同一個(gè)個(gè)「孤島」，智能體之間被完全「隔離」。這種隔離限制了科學(xué)發(fā)現(xiàn)的累積進(jìn)展和泛化。在科學(xué)研究中，研究成果通常是站在「巨人的肩膀」上基于前人的工作來(lái)實(shí)現(xiàn)的。為了讓智能體也能從協(xié)作共享中受益，需要一種結(jié)構(gòu)化的機(jī)制來(lái)打通這些「孤島」。

智能體實(shí)驗(yàn)室工作流程，上圖圖展示了智能體實(shí)驗(yàn)室的三個(gè)階段：文獻(xiàn)回顧、實(shí)驗(yàn)和報(bào)告撰寫(xiě)。

人類研究員與AI智能體（例如博士、博士后）及專門(mén)工具（mle-solver、paper-solver）合作，將任務(wù)自動(dòng)化并產(chǎn)出高質(zhì)量的研究成果。

上圖中展示了兩個(gè)獨(dú)立的自主智能體實(shí)驗(yàn)室通過(guò)AgentRxiv進(jìn)行互動(dòng)過(guò)程。

左側(cè)的實(shí)驗(yàn)室提交搜索請(qǐng)求，從AgentRxiv檢索出相關(guān)研究論文；

右側(cè)實(shí)驗(yàn)室完成實(shí)驗(yàn)后將研究成果上傳至AgentRxiv，供其他實(shí)驗(yàn)室查閱。

發(fā)現(xiàn)推理策略

第一個(gè)目標(biāo)是驗(yàn)證：智能體是否能基于自身過(guò)往研究不斷優(yōu)化成果。

首先使用o3-mini（medium）作為L(zhǎng)LM后端能力，運(yùn)行智能體系統(tǒng)產(chǎn)出了N=40篇論文。

在文獻(xiàn)綜述階段，智能體可以同時(shí)訪問(wèn)AgentRxiv上的5篇論文，和arXiv上的5篇論文。

然后設(shè)定一個(gè)研究方向：「通過(guò)推理與提示工程提升在MATH-500上的準(zhǔn)確率」，實(shí)驗(yàn)中使用的是OpenAI的gpt-4o mini模型。

從圖中可以看出，每篇新論文的產(chǎn)生都帶來(lái)了準(zhǔn)確率的穩(wěn)步提升。

一開(kāi)始，gpt-4o mini的基準(zhǔn)表現(xiàn)為70.2%。通過(guò)一些早期策略，帶來(lái)小幅提升，達(dá)到了71.4%。

隨著推理策略不斷引入，最終SDA策略將準(zhǔn)確率提升到了最高的78.2%。

泛化能力評(píng)估：算法能否遷移

進(jìn)一步評(píng)估SDA策略是否能在其他數(shù)據(jù)集上展現(xiàn)類似效果。

在GPQA（生物/化學(xué)/物理研究問(wèn)答）、MMLU-Pro（跨學(xué)科推理）和MedQA（美國(guó)醫(yī)學(xué)執(zhí)照考試）這三個(gè)基準(zhǔn)上，SDA 均帶來(lái)了顯著提升：

GPQA：從 36.4% 提升到 38.9%（+6.8%）；
MMLU-Pro：從 63.1% 提升到 70.8%（+12.2%）；
MedQA：從 74.9% 提升到 81.6%（+8.9%）；

三項(xiàng)基準(zhǔn)平均提升9.3%，與MATH-500上的+11.4%表現(xiàn)接近，說(shuō)明SDA擁有較強(qiáng)的泛化能力。

研究人員還測(cè)試了 SDA 在不同語(yǔ)言模型上的表現(xiàn)，包括：

Gemini-1.5 Pro；
Gemini-2.0 Flash；
DeepSeek-v3；
gpt-4o；
gpt-4o mini。

結(jié)果顯示，SDA在所有模型上都帶來(lái)了平均+3.3%的性能提升，尤其是在基礎(chǔ)表現(xiàn)較差的模型上效果更明顯（如gpt-4o mini提升5.9%）。

并行智能體實(shí)驗(yàn)室的協(xié)作執(zhí)行
接下來(lái)探索多個(gè)自主實(shí)驗(yàn)室并行運(yùn)行、并借助AgentRxiv實(shí)現(xiàn)研究成果共享的效果。研究人員初始化了三個(gè)配置相同、研究目標(biāo)一致的Agent Laboratory系統(tǒng)，并行運(yùn)行。每個(gè)實(shí)驗(yàn)室獨(dú)立完成文獻(xiàn)綜述、實(shí)驗(yàn)設(shè)計(jì)與論文撰寫(xiě)，同時(shí)通過(guò)AgentRxiv異步訪問(wèn)其他實(shí)驗(yàn)室發(fā)布的論文。

一旦某個(gè)實(shí)驗(yàn)室上傳了新的研究成果，其他實(shí)驗(yàn)室即可即時(shí)獲取，并在后續(xù)實(shí)驗(yàn)中加以利用。

某個(gè)實(shí)驗(yàn)室在性能上有所突破時(shí)，相關(guān)論文就會(huì)上傳到AgentRxiv，供其他實(shí)驗(yàn)室查閱、評(píng)估和借鑒。

這種并行設(shè)置允許多個(gè)研究方向同時(shí)推進(jìn)，有望加快發(fā)現(xiàn)的速度。

在并行設(shè)置下，早期里程碑如達(dá)到76.2%的準(zhǔn)確率僅需7篇論文，而在順序設(shè)置下則需要 23 篇論文。

并行設(shè)計(jì)中表現(xiàn)最好的算法比最佳的順序算法提高了1.6%，并且并行實(shí)驗(yàn)的整體平均準(zhǔn)確率比順序運(yùn)行高出2.4%。

智能體的發(fā)現(xiàn)是否是真正的「創(chuàng)新」

盡管已有研究表明LLM能提出創(chuàng)新性的研究想法。但也有研究指出這些系統(tǒng)存在高比例的「抄襲」問(wèn)題（最高達(dá) 24%）。然而，AI完全生成的研究成果已經(jīng)開(kāi)始被正式學(xué)術(shù)會(huì)議接收。雖然會(huì)議收錄不能完全證明內(nèi)容新穎，但至少說(shuō)明這些成果足以「看起來(lái)像新發(fā)現(xiàn)」。對(duì)上述表現(xiàn)最好的論文摘要進(jìn)行了3個(gè)不同查重系統(tǒng)的檢測(cè)，結(jié)果均未發(fā)現(xiàn)抄襲痕跡。研究人員還對(duì)這些論文進(jìn)行人工檢查，發(fā)現(xiàn)高表現(xiàn)算法確實(shí)包含一定創(chuàng)新，但很多是對(duì)已有技術(shù)的「變種」或「組合」，而非完全原創(chuàng)。比如上述智能體實(shí)驗(yàn)室在開(kāi)發(fā)SDA時(shí)，確實(shí)參考了許多相關(guān)研究。這也表明：雖然SDA在實(shí)現(xiàn)與整合上具備一定新意，但是否構(gòu)成「實(shí)質(zhì)性原創(chuàng)」，在快速發(fā)展的領(lǐng)域中難以一錘定音。因此未來(lái)仍需進(jìn)行大規(guī)模的系統(tǒng)性研究。

作者介紹

Samuel Schmidgall

Samuel Schmidgall是約翰霍普金斯大學(xué)電子與計(jì)算機(jī)工程系的二年級(jí)博士生，同時(shí)也是Google Deepmind醫(yī)療AI 團(tuán)隊(duì)的研究員。

Samuel Schmidgall之前在2024年夏天是斯坦福大學(xué)醫(yī)療AI的實(shí)習(xí)生，在2024年秋天是AMD Gen AI團(tuán)隊(duì)的實(shí)習(xí)生。

Michael Moor

Michael Moor是一名醫(yī)學(xué)博士和哲學(xué)博士，研究領(lǐng)域是醫(yī)療保健領(lǐng)域的機(jī)器學(xué)習(xí)。

自2024年末起，被任命為位于巴塞爾的蘇黎世聯(lián)邦理工學(xué)院（D-BSSE）的醫(yī)學(xué)人工智能方向的終身教職助理教授。

在此之前，Michael Moor在斯坦福大學(xué)計(jì)算機(jī)科學(xué)系與Jure Leskovec教授一起做了博士后研究。

研究重點(diǎn)是開(kāi)發(fā)和評(píng)估大規(guī)模醫(yī)療基礎(chǔ)模型，最終目標(biāo)是解鎖適用于醫(yī)療AI的通用模型。

參考資料：

https://x.com/SRSchmidgall/status/1904172864355410065

https://agentrxiv.github.io/

https://arxiv.org/pdf/2503.18102

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.