新智元報(bào)道
編輯:桃子 定慧
【新智元導(dǎo)讀】AI不但能寫(xiě)論文,還能自主進(jìn)行科研協(xié)作,讓智能體之間不再是「孤島」。約翰霍普金斯與ETH Zurich聯(lián)合推出了自主科研智能體框架AgentRxiv。該框架允許智能體相互上傳和檢索研究成果,自動(dòng)積累與迭代已有進(jìn)展,顯著提高研究效率。
試想一下,AI智能體某天幫你自主研究、查文獻(xiàn)時(shí),或許每個(gè)人科研產(chǎn)出直接起飛。
最近,
但問(wèn)題來(lái)了,現(xiàn)在的AI智能體都在各自為戰(zhàn),無(wú)法協(xié)作和傳承既有的研究成果。
為此,霍普金斯聯(lián)手ETH Zurich研究人員重磅推出AgentRxiv,一個(gè)專為自主研究智能體設(shè)計(jì)的框架。
它的誕生,就為了讓智能體上傳、檢索,并相互借鑒研究成果。
論文地址:https://agentrxiv.github.io/resources/agentrxiv.pdf
簡(jiǎn)單來(lái)說(shuō),AgentRxiv就像是一個(gè)「預(yù)印本服務(wù)器」,不僅允許研究者設(shè)定方向,讓智能體持續(xù)產(chǎn)出論文。
最重要的是,它還能確保每篇新作都建立在以往研究基礎(chǔ)之上,實(shí)現(xiàn)真正迭代式進(jìn)步。
經(jīng)過(guò)測(cè)試,在數(shù)學(xué)推理任務(wù)中,基于AgentRxiv的智能體在開(kāi)發(fā)全新推理技術(shù)時(shí),會(huì)參考前人研究報(bào)告。
gpt-4o mini準(zhǔn)確率從70.2%提升至78.2%,相較基線和思維鏈分別飆升11.4%、9.7%。
此外,AI智能體在發(fā)現(xiàn)最佳算法(SDA)的多項(xiàng)基準(zhǔn)測(cè)試中,SDA平均提升3.3%準(zhǔn)確性。
更值得一提的是,在三個(gè)獨(dú)立實(shí)驗(yàn)室通過(guò)AgentRxiv共享預(yù)印本并行實(shí)驗(yàn)中,最優(yōu)方法準(zhǔn)確率高達(dá)79.8%,相較基線提升13.7%。
比傳統(tǒng)的序列實(shí)驗(yàn),這種協(xié)作模式更快速達(dá)成關(guān)鍵里程碑,從側(cè)面印證了AgentRxiv在加速研究進(jìn)程中巨大潛力。
AgentRxiv讓智能體從協(xié)作中受益
現(xiàn)有的研究框架往往獨(dú)立運(yùn)行,生成的研究成果如同一個(gè)個(gè)「孤島」,智能體之間被完全「隔離」。 這種隔離限制了科學(xué)發(fā)現(xiàn)的累積進(jìn)展和泛化。 在科學(xué)研究中,研究成果通常是站在「巨人的肩膀」上基于前人的工作來(lái)實(shí)現(xiàn)的。 為了讓智能體也能從協(xié)作共享中受益,需要一種結(jié)構(gòu)化的機(jī)制來(lái)打通這些「孤島」。
智能體實(shí)驗(yàn)室工作流程,上圖圖展示了智能體實(shí)驗(yàn)室的三個(gè)階段:文獻(xiàn)回顧、實(shí)驗(yàn)和報(bào)告撰寫(xiě)。
人類研究員與AI智能體(例如博士、博士后)及專門(mén)工具(mle-solver、paper-solver)合作,將任務(wù)自動(dòng)化并產(chǎn)出高質(zhì)量的研究成果。
上圖中展示了兩個(gè)獨(dú)立的自主智能體實(shí)驗(yàn)室通過(guò)AgentRxiv進(jìn)行互動(dòng)過(guò)程。
左側(cè)的實(shí)驗(yàn)室提交搜索請(qǐng)求,從AgentRxiv檢索出相關(guān)研究論文;
右側(cè)實(shí)驗(yàn)室完成實(shí)驗(yàn)后將研究成果上傳至AgentRxiv,供其他實(shí)驗(yàn)室查閱。
發(fā)現(xiàn)推理策略
第一個(gè)目標(biāo)是驗(yàn)證:智能體是否能基于自身過(guò)往研究不斷優(yōu)化成果。
首先使用o3-mini(medium)作為L(zhǎng)LM后端能力,運(yùn)行智能體系統(tǒng)產(chǎn)出了N=40篇論文。
在文獻(xiàn)綜述階段,智能體可以同時(shí)訪問(wèn)AgentRxiv上的5篇論文,和arXiv上的5篇論文。
然后設(shè)定一個(gè)研究方向:「通過(guò)推理與提示工程提升在MATH-500上的準(zhǔn)確率」,實(shí)驗(yàn)中使用的是OpenAI的gpt-4o mini模型。
從圖中可以看出,每篇新論文的產(chǎn)生都帶來(lái)了準(zhǔn)確率的穩(wěn)步提升。
一開(kāi)始,gpt-4o mini的基準(zhǔn)表現(xiàn)為70.2%。通過(guò)一些早期策略,帶來(lái)小幅提升,達(dá)到了71.4%。
隨著推理策略不斷引入,最終SDA策略將準(zhǔn)確率提升到了最高的78.2%。
泛化能力評(píng)估:算法能否遷移
進(jìn)一步評(píng)估SDA策略是否能在其他數(shù)據(jù)集上展現(xiàn)類似效果。
在GPQA(生物/化學(xué)/物理研究問(wèn)答)、MMLU-Pro(跨學(xué)科推理)和MedQA(美國(guó)醫(yī)學(xué)執(zhí)照考試)這三個(gè)基準(zhǔn)上,SDA 均帶來(lái)了顯著提升:
GPQA:從 36.4% 提升到 38.9%(+6.8%);
MMLU-Pro:從 63.1% 提升到 70.8%(+12.2%);
MedQA:從 74.9% 提升到 81.6%(+8.9%);
三項(xiàng)基準(zhǔn)平均提升9.3%,與MATH-500上的+11.4%表現(xiàn)接近,說(shuō)明SDA擁有較強(qiáng)的泛化能力。
研究人員還測(cè)試了 SDA 在不同語(yǔ)言模型上的表現(xiàn),包括:
Gemini-1.5 Pro;
Gemini-2.0 Flash;
DeepSeek-v3;
gpt-4o;
gpt-4o mini。
結(jié)果顯示,SDA在所有模型上都帶來(lái)了平均+3.3%的性能提升,尤其是在基礎(chǔ)表現(xiàn)較差的模型上效果更明顯(如gpt-4o mini提升5.9%)。
并行智能體實(shí)驗(yàn)室的協(xié)作執(zhí)行
接下來(lái)探索多個(gè)自主實(shí)驗(yàn)室并行運(yùn)行、并借助AgentRxiv實(shí)現(xiàn)研究成果共享的效果。 研究人員初始化了三個(gè)配置相同、研究目標(biāo)一致的Agent Laboratory系統(tǒng),并行運(yùn)行。 每個(gè)實(shí)驗(yàn)室獨(dú)立完成文獻(xiàn)綜述、實(shí)驗(yàn)設(shè)計(jì)與論文撰寫(xiě),同時(shí)通過(guò)AgentRxiv異步訪問(wèn)其他實(shí)驗(yàn)室發(fā)布的論文。
一旦某個(gè)實(shí)驗(yàn)室上傳了新的研究成果,其他實(shí)驗(yàn)室即可即時(shí)獲取,并在后續(xù)實(shí)驗(yàn)中加以利用。
某個(gè)實(shí)驗(yàn)室在性能上有所突破時(shí),相關(guān)論文就會(huì)上傳到AgentRxiv,供其他實(shí)驗(yàn)室查閱、評(píng)估和借鑒。
這種并行設(shè)置允許多個(gè)研究方向同時(shí)推進(jìn),有望加快發(fā)現(xiàn)的速度。
在并行設(shè)置下,早期里程碑如達(dá)到76.2%的準(zhǔn)確率僅需7篇論文,而在順序設(shè)置下則需要 23 篇論文。
并行設(shè)計(jì)中表現(xiàn)最好的算法比最佳的順序算法提高了1.6%,并且并行實(shí)驗(yàn)的整體平均準(zhǔn)確率比順序運(yùn)行高出2.4%。
智能體的發(fā)現(xiàn)是否是真正的「創(chuàng)新」
盡管已有研究表明LLM能提出創(chuàng)新性的研究想法。 但也有研究指出這些系統(tǒng)存在高比例的「抄襲」問(wèn)題(最高達(dá) 24%)。 然而,AI完全生成的研究成果已經(jīng)開(kāi)始被正式學(xué)術(shù)會(huì)議接收。 雖然會(huì)議收錄不能完全證明內(nèi)容新穎,但至少說(shuō)明這些成果足以「看起來(lái)像新發(fā)現(xiàn)」。 對(duì)上述表現(xiàn)最好的論文摘要進(jìn)行了3個(gè)不同查重系統(tǒng)的檢測(cè),結(jié)果均未發(fā)現(xiàn)抄襲痕跡。 研究人員還對(duì)這些論文進(jìn)行人工檢查,發(fā)現(xiàn)高表現(xiàn)算法確實(shí)包含一定創(chuàng)新,但很多是對(duì)已有技術(shù)的「變種」或「組合」,而非完全原創(chuàng)。 比如上述智能體實(shí)驗(yàn)室在開(kāi)發(fā)SDA時(shí),確實(shí)參考了許多相關(guān)研究。 這也表明:雖然SDA在實(shí)現(xiàn)與整合上具備一定新意,但是否構(gòu)成「實(shí)質(zhì)性原創(chuàng)」,在快速發(fā)展的領(lǐng)域中難以一錘定音。 因此未來(lái)仍需進(jìn)行大規(guī)模的系統(tǒng)性研究。
作者介紹
Samuel Schmidgall
Samuel Schmidgall是約翰霍普金斯大學(xué)電子與計(jì)算機(jī)工程系的二年級(jí)博士生,同時(shí)也是Google Deepmind醫(yī)療AI 團(tuán)隊(duì)的研究員。
Samuel Schmidgall之前在2024年夏天是斯坦福大學(xué)醫(yī)療AI的實(shí)習(xí)生,在2024年秋天是AMD Gen AI團(tuán)隊(duì)的實(shí)習(xí)生。
Michael Moor
Michael Moor是一名醫(yī)學(xué)博士和哲學(xué)博士,研究領(lǐng)域是醫(yī)療保健領(lǐng)域的機(jī)器學(xué)習(xí)。
自2024年末起,被任命為位于巴塞爾的蘇黎世聯(lián)邦理工學(xué)院(D-BSSE)的醫(yī)學(xué)人工智能方向的終身教職助理教授。
在此之前,Michael Moor在斯坦福大學(xué)計(jì)算機(jī)科學(xué)系與Jure Leskovec教授一起做了博士后研究。
研究重點(diǎn)是開(kāi)發(fā)和評(píng)估大規(guī)模醫(yī)療基礎(chǔ)模型,最終目標(biāo)是解鎖適用于醫(yī)療AI的通用模型。
參考資料:
https://x.com/SRSchmidgall/status/1904172864355410065
https://agentrxiv.github.io/
https://arxiv.org/pdf/2503.18102
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.