新智元報道
編輯:桃子
【新智元導讀】o3病毒學能力擊敗了94%博士級專家,準確率高達43.8%。多家研究機構聯手,通過VCT測試揭示,頂尖LLM不僅能解決復雜實驗難題,直接拉低了生物武器制造門檻。
AI又來攻占生物學領域了。
來自SecureBio、Center for AI Safety等機構研究人員發現,o3病毒學能力已超越了94%病毒學專家。
他們開發了一項「毒學能力測試」(VCT),包含了322道多選題,涵蓋了文本、圖像,聚焦實驗室中實際操作復雜問題。
這些難題由57位病毒學家共同設計,模擬了現實實驗中,難以上網搜索解決的場景。
測試結果令人震驚:
o3準確率高達43.8%,Gemini 2.5 Pro為37.6%,要知道,博士級病毒學專家平均得分僅為22.1%。
與此同時,31頁技術報告已發布。這一發現確實令人振奮,但也敲響了警鐘。
論文共同作者Seth Donoughe直言,「這些驚人的結果讓人有些緊張」。
論文地址:https://www.virologytest.ai/vct_paper.pdf
這也是歷史上首次,幾乎任何人都可以訪問「AI病毒學專家」,將大幅降低制造生物武器門檻。
在最新ARC-AGI測試中,o3(medium)成績再創SOTA,而成本僅為1/20(每個任務1.5美元≈11元)
若不采取及時行動,屆時,AI或將成為毀滅文明的黑洞。
AI踢破病毒學門檻
一直以來,病毒學知識,通常被局限在一小群專業人士之中。
若想成為病毒學領域頂尖專家,需要多年的學術訓練、多次學位認證。
即便是公開,專業文獻中充斥著術語,也讓外行人望而卻步。然而,AI快速發展正打破這一壁壘。
此外,在涉及生物安全3級(BSL-3)病原體,比如SARS、炭疽、H5N1流感的實驗,均需要審批流程,包括設施認證、安全許可、專業培訓和持續的醫療監控。
正是這些高門檻,有效限制了掌握病毒學雙重= 用途(dual-use)知識的人群,降低了被誤用風險。
然而,AI加速發展正打破這一壁壘——不僅將這些專業技能帶給普通人,甚至可能為惡意的人提供便利。
o3準確率43.8%,超越人類專家
如前所述,最新研究中,多家機構聯手開發出VCT基準測試,專為評估頂尖LLM在病毒學領域實際操作能力。
57位病毒專家設計的322道多選題,靈感來源于自身實驗中遇到具體難題,并且僅通過簡單搜索,是無法獲得答案。
如下,是一個典型的VCT問題,描述了一個場景,并且只能通過視覺信息解決,最后從提供的7個答案陳述中確定哪些是正確的。
整個VCT基準測試,主要專注于實用、特定領域的病毒學知識,同時排除生物學各學科共有的基礎主題,以及明確雙重用途的內容。
如下圖所示,橫軸代表著濫用潛力的增加,縱軸表示知識抽象的水平(高度概念性到高度實用性)。
實驗中,研究團隊選取了一系列前沿模型參與VCT評估,包括來自OpenAI、谷歌、Anthropic多模態模型,以及純文本DeepSeek-R1和o3-mini模型。
結果顯示,大模型在濕實驗室(wet lab)中問題解決能力,已經超越了博士級病毒學家。
具體來說,GPT-4o的表現優于53%專家,Gemini 1.5 Pro超越67%專家,Claude Sonnet 3.5為75%,o1達到了89%。
更值得一提的是,o3在所有模型中最為亮眼,準確率位43.8%,擊敗了94%的人類專家。
除了GPT-4o,這些頂尖AI在專業領域的表現也超過了人類專家平均得分(22.1%)。
此外,研究人員還將模型與個別專家進行比較,然后在整個專家池中對模型排名。
如下圖B所示,所有模型得分均高于中位數人類專家,OpenAI的o3甚至超過了36位專家中的34位,在病毒學家中位列94%。
AI在STEM全面崛起
在AI專家Dan Hendrycks的一篇長文分析中稱,VCT的結果并非是孤立現象。
近年來,前沿LLM在數學、物理、生物科學等STEM學科中表現持續提升,尤其在生物科學領域進步尤為顯著。
比如,在「大規模殺傷性武器代理」(WMDP)測試中,o1得分高達87%,遠超人類專家60%基準。
還有其他測試,如ProtocolQA、BioLP-bench顯示,AI在生物實驗室協議的推理和故障排查能力上,接近甚至超過人類專家。
病毒學作為STEM的一部分,其知識體系對于AI來說并不例外。如果AI在其他學科已經達到博士級水平,那么在病毒學領域也是如此。
生物安全警鐘長鳴
問題在于,病毒學知識是雙重用途——一位博士級病毒學家既能推動醫學進步,也能制造生物武器。
生物武器的風險主要取決于三點:掌握技能的人數、制造武器的意圖,以及武器的潛在危害。
而現在,AI正迅速放大第一個因素。
Hendrycks警告,「如果這些能力被廣泛濫用,惡意者制造致命病原體的可能性,將增加多個數量級」。
「我們不能等到威脅完全顯現才開始行動,那樣已經太晚了」。
參考資料:
https://x.com/DanHendrycks/status/1914696657813561799
https://time.com/7279010/ai-virus-lab-biohazard-study/
https://www.ai-frontiers.org/articles/ais-are-disseminating-expert-level-virology-skills
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.