提出一個(gè)新穎可行的研究方向,并清楚地知道如何進(jìn)行后續(xù)的探索,對(duì)于加速科學(xué)發(fā)現(xiàn)至關(guān)重要。
然而,對(duì)于人類科學(xué)家而言,這是一個(gè)既有廣度又有深度的難題,不僅需要了解本領(lǐng)域的最新進(jìn)展,還需要整合陌生領(lǐng)域的知識(shí)。
今天,谷歌推出的虛擬科學(xué)合作伙伴 AI co-scientist,或許可以在「幫助人類追求科學(xué)進(jìn)步」這件事上大有可為。
論文鏈接:
https://storage.googleapis.com/coscientist_paper/ai_coscientist.pdf
據(jù)介紹,AI co-scientist 是一個(gè)基于 Gemini 2.0 構(gòu)建的多智能體 AI 系統(tǒng),旨在反映科學(xué)方法的推理過程,發(fā)掘新的、原創(chuàng)性的知識(shí)。它并非要實(shí)現(xiàn)科學(xué)過程的自動(dòng)化,而是一個(gè)“幫助專家收集研究成果和完善其工作的協(xié)作工具”、“虛擬的科學(xué)合作伙伴”。
自此,人類科學(xué)家只需使用自然語言指定一個(gè)研究目標(biāo)——例如,更好地了解一種致病微生物的傳播——AI co-scientist 便會(huì)提出可驗(yàn)證假設(shè),以及相關(guān)已發(fā)表文獻(xiàn)的摘要和可能的實(shí)驗(yàn)方法。
谷歌首席執(zhí)行官 Sundar Pichai 在 X 上表示,在 AI co-scientist 的幫助下,人類科學(xué)家已經(jīng)“在肝纖維化治療、抗菌素耐藥性和藥物再利用等重要研究領(lǐng)域看到了有希望的早期成果”。
賦能人類科學(xué)家,加速科學(xué)發(fā)現(xiàn)
根據(jù)谷歌官方博客的介紹,AI co-scientist 使用了一系列專業(yè)化的智能體(涉及生成、反思、排序、進(jìn)化、接近和元評(píng)審),這些智能體受到科學(xué)方法本身的啟發(fā),并通過自動(dòng)反饋來迭代生成、評(píng)估和優(yōu)化假設(shè),從而形成一個(gè)自我改進(jìn)的循環(huán),生成越來越高質(zhì)量和新穎的輸出。
視頻|AI co-scientist 概述
AI co-scientist 專為協(xié)作而構(gòu)建,科學(xué)家可以通過多種方式與系統(tǒng)互動(dòng),包括直接提供自己的不成熟想法來探索,或用自然語言對(duì)生成的輸出提供反饋。AI co-scientist 還使用網(wǎng)頁搜索和專門的 AI 模型等工具,來提高生成假設(shè)的基礎(chǔ)和質(zhì)量。
圖|AI co-scientist 的不同組成部分,以及其與科學(xué)家之間的互動(dòng)模式。
AI co-scientist 能夠?qū)⒅付ǖ哪繕?biāo)解析為研究計(jì)劃配置,并由監(jiān)督智能體(Supervisor agent)進(jìn)行管理。監(jiān)督智能體將專業(yè)智能體分配到工作隊(duì)列中,并分配資源。這個(gè)設(shè)計(jì)使得 AI co-scientist 能夠靈活地?cái)U(kuò)展計(jì)算能力,并通過迭代改進(jìn)其科學(xué)推理能力,以實(shí)現(xiàn)指定的研究目標(biāo)。
圖|AI co-scientist 系統(tǒng)概覽。專業(yè)智能體(紅色方框,具有獨(dú)特的角色和邏輯);科學(xué)家輸入和反饋(藍(lán)色方框);系統(tǒng)信息流(深灰色箭頭);智能體間反饋(智能體部分內(nèi)的紅色箭頭)。
擴(kuò)展測(cè)試時(shí)計(jì)算,進(jìn)行高級(jí)科學(xué)推理
AI co-scientist 利用測(cè)試時(shí)計(jì)算擴(kuò)展,進(jìn)行迭代推理、演化和改進(jìn)輸出。關(guān)鍵的推理步驟包括基于自我博弈的科學(xué)辯論(用于生成新的假設(shè))、排名賽(用于進(jìn)行假設(shè)比較),和“演化”過程(用于提高質(zhì)量)。該系統(tǒng)的代理(agentic)特性促進(jìn)了遞歸的自我批判,包括使用反饋工具完善假設(shè)和建議。
AI co-scientist 的自我完善依賴于從其競(jìng)賽中得出的 Elo 自動(dòng)評(píng)估指標(biāo)。由于 Elo 評(píng)分在系統(tǒng)中的核心作用,谷歌團(tuán)隊(duì)評(píng)估了更高的 Elo 評(píng)分是否與更高的輸出質(zhì)量相關(guān),并分析了 Elo 自動(dòng)評(píng)分與 GPQA 基準(zhǔn)測(cè)試準(zhǔn)確率在具有挑戰(zhàn)性的鉆石問題集中的一致性,結(jié)果表明,較高的 Elo 評(píng)分與較高的正確答案概率呈正相關(guān)。
圖|AI co-scientist(藍(lán)線)和 Gemini 2.0(紅線)回答 GPQA 鉆石問題的平均準(zhǔn)確率,按 Elo 評(píng)級(jí)分組。Elo 是一種自動(dòng)評(píng)估,并非基于獨(dú)立的基本事實(shí)。
7 位領(lǐng)域?qū)<也邉澚?15 個(gè)開放式研究目標(biāo)和他們專業(yè)領(lǐng)域的最佳解決方案。通過使用自動(dòng)化的 Elo 評(píng)分指標(biāo),谷歌團(tuán)隊(duì)觀察到,AI co-scientist 在這些復(fù)雜問題上的表現(xiàn)優(yōu)于其他 SOTA 智能體和推理模型,這體現(xiàn)了利用科學(xué)方法中的歸納偏差進(jìn)行測(cè)試時(shí)計(jì)算的優(yōu)勢(shì)。隨著系統(tǒng)在推理和改進(jìn)上花費(fèi)更多時(shí)間,自我評(píng)分的結(jié)果質(zhì)量也得到了提升,并超過了其他模型和無輔助的人類專家。
圖|AI co-scientist 的性能隨著系統(tǒng)計(jì)算時(shí)間的增加而提高。這可以從自動(dòng) Elo 指標(biāo)比其他基線逐步提高中看出。上圖為評(píng)級(jí)最佳的假設(shè)的 Elo,下圖為前 10 名假設(shè)的平均 Elo。
在一個(gè)包含 11 個(gè)研究目標(biāo)的較小子集上,專家們?cè)u(píng)估了 AI co-scientist 生成的結(jié)果在新穎性和影響力方面與其他相關(guān)基準(zhǔn)相比的表現(xiàn),并且提供了整體偏好。盡管樣本量較小,但專家們?cè)u(píng)估認(rèn)為 AI co-scientist 在新穎性和影響力方面具有更高的潛力。此外,這些人類專家的偏好似乎與之前介紹的 Elo 自動(dòng)評(píng)估指標(biāo)一致。
圖|人類專家認(rèn)為,AI co-scientist 的成果具有更高的新穎性和影響力(上圖),與其他模型相比更受青睞(下圖)。
在真實(shí)世界的表現(xiàn)如何?
為了評(píng)估該系統(tǒng)新穎預(yù)測(cè)的實(shí)際效用,谷歌團(tuán)隊(duì)評(píng)估了端到端的實(shí)驗(yàn)室實(shí)驗(yàn),在 3 個(gè)關(guān)鍵的生物醫(yī)學(xué)應(yīng)用中探究了 AI co-scientist 生成的假設(shè)和研究建議:藥物再利用、提出新的治療靶點(diǎn)以及闡明抗菌藥耐藥性的機(jī)制。這些實(shí)驗(yàn)都涉及專家參與的指導(dǎo):
1.急性髓性白血病的藥物再利用
藥物開發(fā)是一個(gè)日益耗時(shí)且昂貴的過程,新療法需要針對(duì)每個(gè)適應(yīng)癥或疾病重新啟動(dòng)發(fā)現(xiàn)和開發(fā)過程的多個(gè)方面。為了應(yīng)對(duì)這一挑戰(zhàn),藥物再利用技術(shù)為現(xiàn)有藥物發(fā)現(xiàn)了超出其原始用途的新治療應(yīng)用。然而,由于這項(xiàng)任務(wù)的復(fù)雜性,它需要廣泛的跨學(xué)科專業(yè)知識(shí)。
谷歌團(tuán)隊(duì)?wèi)?yīng)用AI共同科學(xué)家來協(xié)助預(yù)測(cè)藥物再利用的機(jī)會(huì),并與其團(tuán)隊(duì)合作伙伴一起,通過計(jì)算生物學(xué)、專家臨床反饋和體外實(shí)驗(yàn)來驗(yàn)證預(yù)測(cè)結(jié)果。
值得注意的是,AI共同科學(xué)家提出了急性髓性白血病(AML)的新型再利用候選藥物。隨后的實(shí)驗(yàn)驗(yàn)證了這些提議,確認(rèn)所提議的藥物在多個(gè)AML細(xì)胞系中,在臨床相關(guān)濃度下抑制了腫瘤細(xì)胞的存活能力。
圖|由 AI co-scientist 預(yù)測(cè)的急性髓細(xì)胞性白血病再利用藥物之一的劑量-反應(yīng)曲線。在臨床相關(guān)濃度下,KIRA6 可抑制 KG-1(急性髓系白血病細(xì)胞株)的活力。以較低的藥物濃度降低癌細(xì)胞活力具有多種優(yōu)勢(shì),例如,它可以降低產(chǎn)生脫靶副作用的可能性。
2.推動(dòng)肝纖維化的靶點(diǎn)發(fā)現(xiàn)
識(shí)別新治療靶點(diǎn)比藥物再利用更為復(fù)雜,往往會(huì)導(dǎo)致體外和體內(nèi)實(shí)驗(yàn)的假設(shè)選擇效率低下、優(yōu)先級(jí)排序不當(dāng)。AI 輔助的靶點(diǎn)發(fā)現(xiàn)有助于簡(jiǎn)化實(shí)驗(yàn)驗(yàn)證過程,從而降低研發(fā)時(shí)間成本。
谷歌團(tuán)隊(duì)以肝臟纖維化為重點(diǎn),測(cè)試了 AI co-scientist 提出、排列和生成靶點(diǎn)發(fā)現(xiàn)假設(shè)和實(shí)驗(yàn)方案的能力。AI co-scientist 通過在人類肝臟器官組織(源自人類細(xì)胞的三維多細(xì)胞組織培養(yǎng)物,旨在模擬人類肝臟的結(jié)構(gòu)和功能)中識(shí)別具有顯著抗纖維化活性的臨床前證據(jù)基礎(chǔ)的表觀遺傳靶點(diǎn),證明了其潛力。
圖|AI co-scientist 建議的肝纖維化靶點(diǎn)治療與纖維化誘導(dǎo)劑(陰性對(duì)照)和抑制劑(陽性對(duì)照)的比較。AI co-scientist 建議的所有治療方法都顯示出良好的活性(所有建議藥物的 p 值均小于 0.01),包括可能逆轉(zhuǎn)疾病表型的候選藥物。
3.解釋抗菌藥耐藥性機(jī)制
作為第三項(xiàng)驗(yàn)證,谷歌團(tuán)隊(duì)側(cè)重于提出假設(shè),解釋與抗菌藥耐藥性(AMR)相關(guān)的細(xì)菌基因轉(zhuǎn)移進(jìn)化機(jī)制,即微生物進(jìn)化出的抵抗治療感染藥物的機(jī)制。這是另一個(gè)復(fù)雜的挑戰(zhàn),涉及到理解基因轉(zhuǎn)移的分子機(jī)制(共軛、轉(zhuǎn)導(dǎo)和轉(zhuǎn)化),以及推動(dòng) AMR 基因傳播的生態(tài)和進(jìn)化壓力。
在此測(cè)試中,專家研究人員指示 AI co-scientist 探討一個(gè)已在他們小組中取得新發(fā)現(xiàn),但尚未公開的主題,即解釋衣殼形成的噬菌體誘導(dǎo)型染色體島(cf-PICI)如何在多種細(xì)菌物種中存在。
AI co-scientist 獨(dú)立提出了“cf-PICI 與不同噬菌體尾部相互作用以擴(kuò)大其宿主范圍”的觀點(diǎn)。在使用 AI co-scientist 之前,谷歌團(tuán)隊(duì)已經(jīng)在原始的實(shí)驗(yàn)室實(shí)驗(yàn)中驗(yàn)證了這一發(fā)現(xiàn)。這展示了 AI co-scientist 作為輔助技術(shù)的價(jià)值,因?yàn)樗軌蚶脭?shù) 10 年的研究成果,包括之前所有關(guān)于這一主題的開放存取文獻(xiàn)。
局限性與展望
在技術(shù)報(bào)告中,谷歌團(tuán)隊(duì)也討論了 AI co-scientist 的幾個(gè)局限性和改進(jìn)機(jī)會(huì),包括增強(qiáng)文獻(xiàn)綜述、事實(shí)核查、與外部工具的交叉檢查、自動(dòng)評(píng)估技術(shù),以及涉及更多學(xué)科專家和多樣化研究目標(biāo)的大規(guī)模評(píng)估。
他們也表示,AI co-scientist 代表了向 AI 輔助技術(shù)邁出的重要一步,有助于科學(xué)家加速發(fā)現(xiàn)。其在多個(gè)科學(xué)和生物醫(yī)學(xué)領(lǐng)域生成新穎、可驗(yàn)證的假設(shè)的能力,以及通過增加計(jì)算能力進(jìn)行遞歸自我改進(jìn)的能力,展示了它在加速科學(xué)家應(yīng)對(duì)科學(xué)和醫(yī)學(xué)重大挑戰(zhàn)方面的潛力。
整理:陳小宇 編審:學(xué)術(shù)君
如需轉(zhuǎn)載或投稿,請(qǐng)直接在公眾號(hào)內(nèi)留言
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.