99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

o3攻陷病毒學,超越94%博士級專家!生物武器門檻徹底崩塌?

0
分享至


新智元報道

編輯:桃子

【新智元導讀】o3病毒學能力擊敗了94%博士級專家,準確率高達43.8%。多家研究機構聯手,通過VCT測試揭示,頂尖LLM不僅能解決復雜實驗難題,直接拉低了生物武器制造門檻。

AI又來攻占生物學領域了。

來自SecureBio、Center for AI Safety等機構研究人員發現,o3病毒學能力已超越了94%病毒學專家。


他們開發了一項「毒學能力測試」(VCT),包含了322道多選題,涵蓋了文本、圖像,聚焦實驗室中實際操作復雜問題。

這些難題由57位病毒學家共同設計,模擬了現實實驗中,難以上網搜索解決的場景。

測試結果令人震驚:

o3準確率高達43.8%,Gemini 2.5 Pro為37.6%,要知道,博士級病毒學專家平均得分僅為22.1%。


與此同時,31頁技術報告已發布。這一發現確實令人振奮,但也敲響了警鐘。

論文共同作者Seth Donoughe直言,「這些驚人的結果讓人有些緊張」。


論文地址:https://www.virologytest.ai/vct_paper.pdf

這也是歷史上首次,幾乎任何人都可以訪問「AI病毒學專家」,將大幅降低制造生物武器門檻。


在最新ARC-AGI測試中,o3(medium)成績再創SOTA,而成本僅為1/20(每個任務1.5美元≈11元)

若不采取及時行動,屆時,AI或將成為毀滅文明的黑洞。

AI踢破病毒學門檻

一直以來,病毒學知識,通常被局限在一小群專業人士之中。

若想成為病毒學領域頂尖專家,需要多年的學術訓練、多次學位認證。

即便是公開,專業文獻中充斥著術語,也讓外行人望而卻步。然而,AI快速發展正打破這一壁壘。


此外,在涉及生物安全3級(BSL-3)病原體,比如SARS、炭疽、H5N1流感的實驗,均需要審批流程,包括設施認證、安全許可、專業培訓和持續的醫療監控。

正是這些高門檻,有效限制了掌握病毒學雙重= 用途(dual-use)知識的人群,降低了被誤用風險。

然而,AI加速發展正打破這一壁壘——不僅將這些專業技能帶給普通人,甚至可能為惡意的人提供便利。

o3準確率43.8%,超越人類專家

如前所述,最新研究中,多家機構聯手開發出VCT基準測試,專為評估頂尖LLM在病毒學領域實際操作能力。

57位病毒專家設計的322道多選題,靈感來源于自身實驗中遇到具體難題,并且僅通過簡單搜索,是無法獲得答案。

如下,是一個典型的VCT問題,描述了一個場景,并且只能通過視覺信息解決,最后從提供的7個答案陳述中確定哪些是正確的。


整個VCT基準測試,主要專注于實用、特定領域的病毒學知識,同時排除生物學各學科共有的基礎主題,以及明確雙重用途的內容。

如下圖所示,橫軸代表著濫用潛力的增加,縱軸表示知識抽象的水平(高度概念性到高度實用性)。


實驗中,研究團隊選取了一系列前沿模型參與VCT評估,包括來自OpenAI、谷歌、Anthropic多模態模型,以及純文本DeepSeek-R1和o3-mini模型。

結果顯示,大模型在濕實驗室(wet lab)中問題解決能力,已經超越了博士級病毒學家。

具體來說,GPT-4o的表現優于53%專家,Gemini 1.5 Pro超越67%專家,Claude Sonnet 3.5為75%,o1達到了89%。

更值得一提的是,o3在所有模型中最為亮眼,準確率位43.8%,擊敗了94%的人類專家。


除了GPT-4o,這些頂尖AI在專業領域的表現也超過了人類專家平均得分(22.1%)。

此外,研究人員還將模型與個別專家進行比較,然后在整個專家池中對模型排名。

如下圖B所示,所有模型得分均高于中位數人類專家,OpenAI的o3甚至超過了36位專家中的34位,在病毒學家中位列94%。


AI在STEM全面崛起

在AI專家Dan Hendrycks的一篇長文分析中稱,VCT的結果并非是孤立現象。

近年來,前沿LLM在數學、物理、生物科學等STEM學科中表現持續提升,尤其在生物科學領域進步尤為顯著。


比如,在「大規模殺傷性武器代理」(WMDP)測試中,o1得分高達87%,遠超人類專家60%基準。

還有其他測試,如ProtocolQA、BioLP-bench顯示,AI在生物實驗室協議的推理和故障排查能力上,接近甚至超過人類專家。


病毒學作為STEM的一部分,其知識體系對于AI來說并不例外。如果AI在其他學科已經達到博士級水平,那么在病毒學領域也是如此。

生物安全警鐘長鳴

問題在于,病毒學知識是雙重用途——一位博士級病毒學家既能推動醫學進步,也能制造生物武器。

生物武器的風險主要取決于三點:掌握技能的人數、制造武器的意圖,以及武器的潛在危害。

而現在,AI正迅速放大第一個因素。

Hendrycks警告,「如果這些能力被廣泛濫用,惡意者制造致命病原體的可能性,將增加多個數量級」。

「我們不能等到威脅完全顯現才開始行動,那樣已經太晚了」。

參考資料:

https://x.com/DanHendrycks/status/1914696657813561799

https://time.com/7279010/ai-virus-lab-biohazard-study/

https://www.ai-frontiers.org/articles/ais-are-disseminating-expert-level-virology-skills

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
被小權力毀掉的人生,平靜得連個泡兒都不冒

被小權力毀掉的人生,平靜得連個泡兒都不冒

末名先生
2025-04-23 15:31:39
多國將推遲在倫敦舉行烏克蘭問題會談

多國將推遲在倫敦舉行烏克蘭問題會談

界面新聞
2025-04-23 15:30:31
美媒忍不住了:中國向埃及派出殲-10C,外銷中東依然有戲?

美媒忍不住了:中國向埃及派出殲-10C,外銷中東依然有戲?

空天力量
2025-04-23 17:06:52
成龍兒子消失了10年,房祖名近照曝光,他定居臺北,43歲未婚無子

成龍兒子消失了10年,房祖名近照曝光,他定居臺北,43歲未婚無子

小咪侃娛圈
2025-04-23 14:11:24
4月23日突然宣布降息!深夜的四大消息沖擊股市!A股將會受影響

4月23日突然宣布降息!深夜的四大消息沖擊股市!A股將會受影響

風風順
2025-04-23 06:30:38
尹力、殷勇檢查調度順義區順平路潮白河大橋事故應急處置工作,要求筑牢城市運行安全屏障

尹力、殷勇檢查調度順義區順平路潮白河大橋事故應急處置工作,要求筑牢城市運行安全屏障

政知新媒體
2025-04-23 21:03:32
美得失真!聽障女孩:微調三處,努力生活|大象夜讀

美得失真!聽障女孩:微調三處,努力生活|大象夜讀

大象新聞
2025-04-23 19:16:21
曝劉國梁辭職真因!馬龍退役最后一戰敲定,樊振東回歸王楚欽擔心

曝劉國梁辭職真因!馬龍退役最后一戰敲定,樊振東回歸王楚欽擔心

詹妹侃體育
2025-04-23 11:24:29
王勵勤上任三把火!樊振東重磅表態球迷直呼天亮,王楚欽再接代言

王勵勤上任三把火!樊振東重磅表態球迷直呼天亮,王楚欽再接代言

詹妹侃體育
2025-04-23 11:26:49
準備離國,特朗普首訪國已定,中國先一步撥通電話,對美稱呼已變

準備離國,特朗普首訪國已定,中國先一步撥通電話,對美稱呼已變

際匯陣地
2025-04-22 14:24:31
特朗普:將大幅降低對華關稅 美財長貝森特此前表態:高關稅是不可持續的

特朗普:將大幅降低對華關稅 美財長貝森特此前表態:高關稅是不可持續的

每日經濟新聞
2025-04-23 15:05:16
阿薩德出逃揭秘:路上被兩架戰機鎖定,一部中國手機讓他絕處逢生

阿薩德出逃揭秘:路上被兩架戰機鎖定,一部中國手機讓他絕處逢生

歷史八卦社
2025-04-11 17:16:04
奪冠太難!廣廈23歲前鋒賽季報銷,朱俊龍沒幫手,胡金秋夢想泡湯

奪冠太難!廣廈23歲前鋒賽季報銷,朱俊龍沒幫手,胡金秋夢想泡湯

體壇大事記
2025-04-23 16:00:08
我勒個去!拿著4800萬合同,季后賽場均1分,湖人今夏還會留他嗎

我勒個去!拿著4800萬合同,季后賽場均1分,湖人今夏還會留他嗎

球毛鬼胎
2025-04-23 19:02:14
熟悉的味道,真的回來了

熟悉的味道,真的回來了

毛豆論道
2025-04-23 10:08:01
理想MEGA Home家庭特別版售價55.98萬元!李想:很久不見,甚是想念!支持對坐大客廳模式,可以辦公、打摜蛋

理想MEGA Home家庭特別版售價55.98萬元!李想:很久不見,甚是想念!支持對坐大客廳模式,可以辦公、打摜蛋

和訊網
2025-04-23 11:08:51
董明珠再次內涵雷軍!揭小米SU7事故傷疤,稱格力電車跑了十幾年從沒有火災事故

董明珠再次內涵雷軍!揭小米SU7事故傷疤,稱格力電車跑了十幾年從沒有火災事故

金融界
2025-04-23 10:15:15
事出反常必有妖,目前廣州上海正悄悄出現九項反常現象,讓人深思…

事出反常必有妖,目前廣州上海正悄悄出現九項反常現象,讓人深思…

娛樂圈見解說
2025-04-23 12:25:50
一覺醒來,轉口貿易天塌了!

一覺醒來,轉口貿易天塌了!

羅sir財話
2025-04-23 10:18:45
趁著中美掀翻桌,中國不再克制,把一些不好辦的事情辦了

趁著中美掀翻桌,中國不再克制,把一些不好辦的事情辦了

允華說
2025-04-22 17:53:13
2025-04-23 22:11:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12581文章數 66020關注度
往期回顧 全部

科技要聞

馬斯克:中國用戶對FSD"最為苛刻"

頭條要聞

特朗普稱"若未達成協議中方按美方說的辦" 外交部回應

頭條要聞

特朗普稱"若未達成協議中方按美方說的辦" 外交部回應

體育要聞

金牌和金子,劉國梁改變國乒的這些年

娛樂要聞

于和偉領銜,央視諜戰劇要有天花板了

財經要聞

董明珠放話"海歸有間諜" 打工人破防了

汽車要聞

以經緯敘事 奇瑞瑞虎新旗艦SUV瑞虎9L快評

態度原創

家居
健康
教育
數碼
時尚

家居要聞

開闊空間 家居輕智能

唇皰疹和口腔潰瘍是"同伙"嗎?

教育要聞

孩子不社交,家長應該怎么辦

數碼要聞

一眼看去就與眾不同!索泰 RTX 5060 Ti 8GB 月白 OC評測:超頻有點小驚喜

堆在一起的靴子,到底是誰在穿?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 博爱县| 棋牌| 涟水县| 平昌县| 汉阴县| 罗山县| 泾阳县| 泗洪县| 江山市| 永嘉县| 武穴市| 红河县| 桑日县| 翁源县| 田林县| 铜陵市| 锦屏县| 云龙县| 神池县| 马尔康县| 象州县| 永吉县| 昆山市| 连城县| 太原市| 炉霍县| 吉水县| 阿瓦提县| 中西区| 肃宁县| 甘肃省| 沁阳市| 安吉县| 肥乡县| 乐业县| 德安县| 轮台县| 桂东县| 阿巴嘎旗| 桦甸市| 织金县|