99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI智能體首次跨實(shí)驗(yàn)室協(xié)作,組隊(duì)「抄作業(yè)」,論文發(fā)不停!科研效率暴增14%

0
分享至


新智元報(bào)道

編輯:桃子 定慧

【新智元導(dǎo)讀】AI不但能寫(xiě)論文,還能自主進(jìn)行科研協(xié)作,讓智能體之間不再是「孤島」。約翰霍普金斯與ETH Zurich聯(lián)合推出了自主科研智能體框架AgentRxiv。該框架允許智能體相互上傳和檢索研究成果,自動(dòng)積累與迭代已有進(jìn)展,顯著提高研究效率。

試想一下,AI智能體某天幫你自主研究、查文獻(xiàn)時(shí),或許每個(gè)人科研產(chǎn)出直接起飛。

最近,

但問(wèn)題來(lái)了,現(xiàn)在的AI智能體都在各自為戰(zhàn),無(wú)法協(xié)作和傳承既有的研究成果。

為此,霍普金斯聯(lián)手ETH Zurich研究人員重磅推出AgentRxiv,一個(gè)專為自主研究智能體設(shè)計(jì)的框架。

它的誕生,就為了讓智能體上傳、檢索,并相互借鑒研究成果。


論文地址:https://agentrxiv.github.io/resources/agentrxiv.pdf

簡(jiǎn)單來(lái)說(shuō),AgentRxiv就像是一個(gè)「預(yù)印本服務(wù)器」,不僅允許研究者設(shè)定方向,讓智能體持續(xù)產(chǎn)出論文。


最重要的是,它還能確保每篇新作都建立在以往研究基礎(chǔ)之上,實(shí)現(xiàn)真正迭代式進(jìn)步。


經(jīng)過(guò)測(cè)試,在數(shù)學(xué)推理任務(wù)中,基于AgentRxiv的智能體在開(kāi)發(fā)全新推理技術(shù)時(shí),會(huì)參考前人研究報(bào)告。

gpt-4o mini準(zhǔn)確率從70.2%提升至78.2%,相較基線和思維鏈分別飆升11.4%、9.7%。

此外,AI智能體在發(fā)現(xiàn)最佳算法(SDA)的多項(xiàng)基準(zhǔn)測(cè)試中,SDA平均提升3.3%準(zhǔn)確性。

更值得一提的是,在三個(gè)獨(dú)立實(shí)驗(yàn)室通過(guò)AgentRxiv共享預(yù)印本并行實(shí)驗(yàn)中,最優(yōu)方法準(zhǔn)確率高達(dá)79.8%,相較基線提升13.7%。

比傳統(tǒng)的序列實(shí)驗(yàn),這種協(xié)作模式更快速達(dá)成關(guān)鍵里程碑,從側(cè)面印證了AgentRxiv在加速研究進(jìn)程中巨大潛力。


AgentRxiv讓智能體從協(xié)作中受益

現(xiàn)有的研究框架往往獨(dú)立運(yùn)行,生成的研究成果如同一個(gè)個(gè)「孤島」,智能體之間被完全「隔離」。 這種隔離限制了科學(xué)發(fā)現(xiàn)的累積進(jìn)展和泛化。 在科學(xué)研究中,研究成果通常是站在「巨人的肩膀」上基于前人的工作來(lái)實(shí)現(xiàn)的。 為了讓智能體也能從協(xié)作共享中受益,需要一種結(jié)構(gòu)化的機(jī)制來(lái)打通這些「孤島」。


智能體實(shí)驗(yàn)室工作流程,上圖圖展示了智能體實(shí)驗(yàn)室的三個(gè)階段:文獻(xiàn)回顧、實(shí)驗(yàn)和報(bào)告撰寫(xiě)。

人類研究員與AI智能體(例如博士、博士后)及專門(mén)工具(mle-solver、paper-solver)合作,將任務(wù)自動(dòng)化并產(chǎn)出高質(zhì)量的研究成果。


上圖中展示了兩個(gè)獨(dú)立的自主智能體實(shí)驗(yàn)室通過(guò)AgentRxiv進(jìn)行互動(dòng)過(guò)程。

左側(cè)的實(shí)驗(yàn)室提交搜索請(qǐng)求,從AgentRxiv檢索出相關(guān)研究論文;

右側(cè)實(shí)驗(yàn)室完成實(shí)驗(yàn)后將研究成果上傳至AgentRxiv,供其他實(shí)驗(yàn)室查閱。


發(fā)現(xiàn)推理策略

第一個(gè)目標(biāo)是驗(yàn)證:智能體是否能基于自身過(guò)往研究不斷優(yōu)化成果。

首先使用o3-mini(medium)作為L(zhǎng)LM后端能力,運(yùn)行智能體系統(tǒng)產(chǎn)出了N=40篇論文。

在文獻(xiàn)綜述階段,智能體可以同時(shí)訪問(wèn)AgentRxiv上的5篇論文,和arXiv上的5篇論文。

然后設(shè)定一個(gè)研究方向:「通過(guò)推理與提示工程提升在MATH-500上的準(zhǔn)確率」,實(shí)驗(yàn)中使用的是OpenAI的gpt-4o mini模型。


從圖中可以看出,每篇新論文的產(chǎn)生都帶來(lái)了準(zhǔn)確率的穩(wěn)步提升。

一開(kāi)始,gpt-4o mini的基準(zhǔn)表現(xiàn)為70.2%。通過(guò)一些早期策略,帶來(lái)小幅提升,達(dá)到了71.4%。

隨著推理策略不斷引入,最終SDA策略將準(zhǔn)確率提升到了最高的78.2%。


泛化能力評(píng)估:算法能否遷移

進(jìn)一步評(píng)估SDA策略是否能在其他數(shù)據(jù)集上展現(xiàn)類似效果。

在GPQA(生物/化學(xué)/物理研究問(wèn)答)、MMLU-Pro(跨學(xué)科推理)和MedQA(美國(guó)醫(yī)學(xué)執(zhí)照考試)這三個(gè)基準(zhǔn)上,SDA 均帶來(lái)了顯著提升:

  • GPQA:從 36.4% 提升到 38.9%(+6.8%);

  • MMLU-Pro:從 63.1% 提升到 70.8%(+12.2%);

  • MedQA:從 74.9% 提升到 81.6%(+8.9%);

三項(xiàng)基準(zhǔn)平均提升9.3%,與MATH-500上的+11.4%表現(xiàn)接近,說(shuō)明SDA擁有較強(qiáng)的泛化能力。

研究人員還測(cè)試了 SDA 在不同語(yǔ)言模型上的表現(xiàn),包括:

  • Gemini-1.5 Pro;

  • Gemini-2.0 Flash;

  • DeepSeek-v3;

  • gpt-4o;

  • gpt-4o mini。

結(jié)果顯示,SDA在所有模型上都帶來(lái)了平均+3.3%的性能提升,尤其是在基礎(chǔ)表現(xiàn)較差的模型上效果更明顯(如gpt-4o mini提升5.9%)。



并行智能體實(shí)驗(yàn)室的協(xié)作執(zhí)行
接下來(lái)探索多個(gè)自主實(shí)驗(yàn)室并行運(yùn)行、并借助AgentRxiv實(shí)現(xiàn)研究成果共享的效果。 研究人員初始化了三個(gè)配置相同、研究目標(biāo)一致的Agent Laboratory系統(tǒng),并行運(yùn)行。 每個(gè)實(shí)驗(yàn)室獨(dú)立完成文獻(xiàn)綜述、實(shí)驗(yàn)設(shè)計(jì)與論文撰寫(xiě),同時(shí)通過(guò)AgentRxiv異步訪問(wèn)其他實(shí)驗(yàn)室發(fā)布的論文。

一旦某個(gè)實(shí)驗(yàn)室上傳了新的研究成果,其他實(shí)驗(yàn)室即可即時(shí)獲取,并在后續(xù)實(shí)驗(yàn)中加以利用。

某個(gè)實(shí)驗(yàn)室在性能上有所突破時(shí),相關(guān)論文就會(huì)上傳到AgentRxiv,供其他實(shí)驗(yàn)室查閱、評(píng)估和借鑒。

這種并行設(shè)置允許多個(gè)研究方向同時(shí)推進(jìn),有望加快發(fā)現(xiàn)的速度。

在并行設(shè)置下,早期里程碑如達(dá)到76.2%的準(zhǔn)確率僅需7篇論文,而在順序設(shè)置下則需要 23 篇論文。

并行設(shè)計(jì)中表現(xiàn)最好的算法比最佳的順序算法提高了1.6%,并且并行實(shí)驗(yàn)的整體平均準(zhǔn)確率比順序運(yùn)行高出2.4%。


智能體的發(fā)現(xiàn)是否是真正的「創(chuàng)新」

盡管已有研究表明LLM能提出創(chuàng)新性的研究想法。 但也有研究指出這些系統(tǒng)存在高比例的「抄襲」問(wèn)題(最高達(dá) 24%)。 然而,AI完全生成的研究成果已經(jīng)開(kāi)始被正式學(xué)術(shù)會(huì)議接收。 雖然會(huì)議收錄不能完全證明內(nèi)容新穎,但至少說(shuō)明這些成果足以「看起來(lái)像新發(fā)現(xiàn)」。 對(duì)上述表現(xiàn)最好的論文摘要進(jìn)行了3個(gè)不同查重系統(tǒng)的檢測(cè),結(jié)果均未發(fā)現(xiàn)抄襲痕跡。 研究人員還對(duì)這些論文進(jìn)行人工檢查,發(fā)現(xiàn)高表現(xiàn)算法確實(shí)包含一定創(chuàng)新,但很多是對(duì)已有技術(shù)的「變種」或「組合」,而非完全原創(chuàng)。 比如上述智能體實(shí)驗(yàn)室在開(kāi)發(fā)SDA時(shí),確實(shí)參考了許多相關(guān)研究。 這也表明:雖然SDA在實(shí)現(xiàn)與整合上具備一定新意,但是否構(gòu)成「實(shí)質(zhì)性原創(chuàng)」,在快速發(fā)展的領(lǐng)域中難以一錘定音。 因此未來(lái)仍需進(jìn)行大規(guī)模的系統(tǒng)性研究。

作者介紹

Samuel Schmidgall


Samuel Schmidgall是約翰霍普金斯大學(xué)電子與計(jì)算機(jī)工程系的二年級(jí)博士生,同時(shí)也是Google Deepmind醫(yī)療AI 團(tuán)隊(duì)的研究員。

Samuel Schmidgall之前在2024年夏天是斯坦福大學(xué)醫(yī)療AI的實(shí)習(xí)生,在2024年秋天是AMD Gen AI團(tuán)隊(duì)的實(shí)習(xí)生。

Michael Moor


Michael Moor是一名醫(yī)學(xué)博士和哲學(xué)博士,研究領(lǐng)域是醫(yī)療保健領(lǐng)域的機(jī)器學(xué)習(xí)。

自2024年末起,被任命為位于巴塞爾的蘇黎世聯(lián)邦理工學(xué)院(D-BSSE)的醫(yī)學(xué)人工智能方向的終身教職助理教授。

在此之前,Michael Moor在斯坦福大學(xué)計(jì)算機(jī)科學(xué)系與Jure Leskovec教授一起做了博士后研究。

研究重點(diǎn)是開(kāi)發(fā)和評(píng)估大規(guī)模醫(yī)療基礎(chǔ)模型,最終目標(biāo)是解鎖適用于醫(yī)療AI的通用模型。

參考資料:

https://x.com/SRSchmidgall/status/1904172864355410065

https://agentrxiv.github.io/

https://arxiv.org/pdf/2503.18102

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
深圳年薪百萬(wàn)的時(shí)間管理大師

深圳年薪百萬(wàn)的時(shí)間管理大師

一個(gè)島島
2025-04-08 23:03:39
這算不算變相裁員?杭州一公司放假4個(gè)月,每月發(fā)2280元補(bǔ)貼

這算不算變相裁員?杭州一公司放假4個(gè)月,每月發(fā)2280元補(bǔ)貼

小人物看盡人間百態(tài)
2025-04-09 19:42:19
澤連斯基:烏克蘭獲知有150多名中國(guó)公民站在俄羅斯一邊作戰(zhàn)

澤連斯基:烏克蘭獲知有150多名中國(guó)公民站在俄羅斯一邊作戰(zhàn)

仗劍看世界
2025-04-11 07:33:04
火力全開(kāi)!杰羅姆半場(chǎng)10中6轟下16分3助 三分2中2

火力全開(kāi)!杰羅姆半場(chǎng)10中6轟下16分3助 三分2中2

直播吧
2025-04-11 08:07:12
換帥+出售毒瘤!輸球后皇馬迎巨變,高層扶正姆巴佩,更衣室力挺

換帥+出售毒瘤!輸球后皇馬迎巨變,高層扶正姆巴佩,更衣室力挺

祥談體育
2025-04-10 11:24:00
流量用完就扔?洋媳婦猝死引眾怒,官方"已到期"聲明遭炮轟

流量用完就扔?洋媳婦猝死引眾怒,官方"已到期"聲明遭炮轟

新語(yǔ)愛(ài)八卦
2025-04-07 17:21:30
北京大風(fēng)最新消息!涉航班取消、游船停航、戶外游樂(lè)設(shè)施停運(yùn)、高校暫停參觀等

北京大風(fēng)最新消息!涉航班取消、游船停航、戶外游樂(lè)設(shè)施停運(yùn)、高校暫停參觀等

環(huán)球網(wǎng)資訊
2025-04-10 21:06:55
西安一物業(yè)公司被認(rèn)定為“高新技術(shù)企業(yè)”引質(zhì)疑 官方:經(jīng)兩輪嚴(yán)格審核符合條件

西安一物業(yè)公司被認(rèn)定為“高新技術(shù)企業(yè)”引質(zhì)疑 官方:經(jīng)兩輪嚴(yán)格審核符合條件

紅星新聞
2025-04-09 20:18:08
中方砍掉7成訂單,特朗普沒(méi)料到,中方的反制又快又狠

中方砍掉7成訂單,特朗普沒(méi)料到,中方的反制又快又狠

擲低有聲
2025-04-10 18:45:04
為什么說(shuō)俄羅斯的勒拿河才是中俄的最佳分界線?

為什么說(shuō)俄羅斯的勒拿河才是中俄的最佳分界線?

譚老師地理工作室
2025-04-10 17:43:12
豐塞卡:我對(duì)結(jié)果并不完全滿意,曼聯(lián)攻防轉(zhuǎn)換非常高效

豐塞卡:我對(duì)結(jié)果并不完全滿意,曼聯(lián)攻防轉(zhuǎn)換非常高效

懂球帝
2025-04-11 08:02:06
探長(zhǎng):有點(diǎn)心疼吳前&他也是老將了 但目前絲毫看不到奪冠的希望

探長(zhǎng):有點(diǎn)心疼吳前&他也是老將了 但目前絲毫看不到奪冠的希望

直播吧
2025-04-10 22:10:25
“天津之眼”4月13日起暫停運(yùn)營(yíng),計(jì)劃4月底恢復(fù)運(yùn)營(yíng)

“天津之眼”4月13日起暫停運(yùn)營(yíng),計(jì)劃4月底恢復(fù)運(yùn)營(yíng)

新京報(bào)北京知道
2025-04-10 16:16:05
掣肘毀了U17國(guó)足!助教頻搞小動(dòng)作,媒體人:學(xué)生不好學(xué)還不謙虛

掣肘毀了U17國(guó)足!助教頻搞小動(dòng)作,媒體人:學(xué)生不好學(xué)還不謙虛

奧拜爾
2025-04-10 16:12:29
脂肪肝泛濫背后,是中國(guó)人的代謝危機(jī)

脂肪肝泛濫背后,是中國(guó)人的代謝危機(jī)

果殼
2025-04-10 16:08:27
三只松鼠新總部大樓:一座8萬(wàn)平米的“洞穴”

三只松鼠新總部大樓:一座8萬(wàn)平米的“洞穴”

GA環(huán)球建筑
2025-04-06 22:50:28
江蘇一廳級(jí)干部,任上被查!

江蘇一廳級(jí)干部,任上被查!

魯中晨報(bào)
2025-04-10 17:11:11
20萬(wàn)畢業(yè)生集體赴死,19萬(wàn)人無(wú)—生還,今天必須讓國(guó)人知道他們!

20萬(wàn)畢業(yè)生集體赴死,19萬(wàn)人無(wú)—生還,今天必須讓國(guó)人知道他們!

坦然風(fēng)云
2025-04-04 08:51:30
小S二女兒性感旅行照,春暖花開(kāi)的感覺(jué),在鏡頭里不停燦笑

小S二女兒性感旅行照,春暖花開(kāi)的感覺(jué),在鏡頭里不停燦笑

素素娛樂(lè)
2025-04-10 07:11:33
商務(wù)部:擴(kuò)消費(fèi)將重點(diǎn)突出四個(gè)方面

商務(wù)部:擴(kuò)消費(fèi)將重點(diǎn)突出四個(gè)方面

人民資訊
2025-04-10 17:44:13
2025-04-11 08:20:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
12504文章數(shù) 66010關(guān)注度
往期回顧 全部

科技要聞

連夜包機(jī)!蘋(píng)果急運(yùn)600噸印度產(chǎn)iPhone回美

頭條要聞

媒體:特朗普急剎車 到底想單挑中國(guó)還是單談值得玩味

頭條要聞

媒體:特朗普急剎車 到底想單挑中國(guó)還是單談值得玩味

體育要聞

趙勇任中國(guó)女排主教練 楊昊加盟教練組

娛樂(lè)要聞

葉童給《浪姐》女星們狠狠上了一課!

財(cái)經(jīng)要聞

專家提議重啟樓市應(yīng)對(duì)美國(guó)關(guān)稅戰(zhàn)

汽車要聞

11萬(wàn)即搭載激光雷達(dá) 零跑B10上市售9.98萬(wàn)起

態(tài)度原創(chuàng)

時(shí)尚
家居
藝術(shù)
數(shù)碼
公開(kāi)課

該換新包啦!這3款平價(jià)春日包包,好看還不易撞款!

家居要聞

追夢(mèng)駐境 一步一景

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫(xiě)法

數(shù)碼要聞

美光、三星等公司已開(kāi)始爭(zhēng)奪HBM3E的主導(dǎo)地位

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 翼城县| 仁布县| 儋州市| 都兰县| 易门县| 大悟县| 万宁市| 永泰县| 屏山县| 桐城市| 闵行区| 上杭县| 民丰县| 瓮安县| 仁布县| 方城县| 江口县| 浮山县| 姚安县| 大方县| 嫩江县| 都安| 永胜县| 永定县| 托克逊县| 昌吉市| 洪湖市| 靖江市| 且末县| 三亚市| 津南区| 岑巩县| 武陟县| 德惠市| 保康县| 苏尼特左旗| 成都市| 沭阳县| 十堰市| 正蓝旗| 望谟县|