99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

從0編寫基因組!史上最大生物學模型Evo-2全面開源:硅基生命能創造細胞?

0
分享至


新智元報道

編輯:LRS

【新智元導讀】史上最大的基因組AI模型Evo 2使用超過12.8萬個基因組數據訓練,包含9.3萬億個核苷酸,能預測突變效應、設計 DNA 序列,并通過可視化工具展示學習到的生物特征,為生成生物學和疾病研究提供新思路。

生命的一切表現,基本都可以從DNA編碼中找到答案。

基因組(Genome)包含了生物體所有基因以及非編碼的DNA序列,承載了生物體發育、生長、繁殖和適應環境所需的全部遺傳信息,近年來基因組相關的測序、合成和編輯工具已經徹底改變了生物學研究。


然而,基因組的復雜性是巨大的,即使是最簡單的微生物,也包含數百萬個DNA堿基對,要智能地構建新的生物系統,研究人員還需要深入理解基因組編碼的復雜信息。

2024年11月,研究人員在Science上發表了一項研究Evo 1,基于單細胞(270萬個原核生物和噬菌體)基因組進行訓練,具有70億個參數,在單核苷酸(構成DNA或RNA的基本單元)設置下實現了13萬堿基的上下文長度。


Evo 1論文鏈接:https://www.science.org/doi/10.1126/science.ado9336

Evo 1在DNA、RNA 和蛋白質模式上展示了更好的零樣本功能預測能力,并通過實驗驗證了Evo 1生成的CRISPR-Cas分子復合物以及IS200和IS605轉座系統的功能活性,證明了使用語言模型進行蛋白質-RNA和蛋白質-DNA代碼設計的前景。

最近,Arc Institute宣布與英偉達(NVIDIA)合作,開發了迄今為止最大的生物領域AI模型Evo 2,在超過12.8萬個全基因組以及宏基因組數據的基礎上,訓練數據超過9.3萬億個核苷酸。

除了細菌、古菌和噬菌體基因組外,Evo 2的訓練數據還包括人類、植物以及其他真核生物域的單細胞和多細胞物種的信息。


論文鏈接:https://www.biorxiv.org/content/10.1101/2025.02.18.638918v1

Evo Designer鏈接:https://arcinstitute.org/tools/evo/evo-mech-interp

隨文章一起發布的,還有一個Evo Designer的用戶友好界面,作為機制可解釋性可視化器,揭示了模型在基因組序列中學習的關鍵生物特征和模式,展示了Evo 2在生成DNA序列時的思考過程,其中許多功能與基因組概念類別高度相關,用戶可以在參考基因組和Evo 2中的相應特征激活中看到基因組概念。

研究人員完全開源了Evo 2的訓練數據、訓練和推理代碼以及模型權重,并集成到了NVIDIA BioNeMo框架中。

考慮到潛在的倫理和安全風險,研究人員將感染人類和其他復雜生物體的病原體排除在Evo 2的基礎數據集之外,并確保模型不會對關于這些病原體的查詢返回有價值的答案。

Arc研究所聯合創始人、Arc核心研究員、加州大學伯克利分校生物工程助理教授Patrick Hsu認為,Evo 1和Evo 2的成功是「生成生物學」領域的關鍵時刻,讓機器也能夠用核苷酸的語言進行閱讀、寫作和思考,Evo 2對生命之樹具有通才式的理解,對于很多任務來說都有價值,比如預測致病突變、設計人工生命的潛在編碼。

Evo 2及其后續版本是基因組和表觀基因組設計領域邁向生成式生物學的第一步,結合現有的、在大規模可編程DNA操作方面的最新實驗進展,Evo 2有望實現多樣化合成生命的直接編程。


此外,借助特定應用的評分函數為推理過程提供指導,Evo 2能夠設計出超越DNA本身的復雜生物架構。

Evo 2在預測「哪些突變是無害的」與「潛在的致病性」方面實現了超過90%的準確率,可以通過找到人類疾病的遺傳原因并加速新藥的開發,節省無數小時的研究時間和資金。

在未來,研究人員或許可以借助Evo 2的力量,解決人類那些「不治之癥」,徹底消滅疾病。

Evo2架構:向光榮進化的硅基生物

Evo 2能夠對DNA序列進行建模,并在中心法則的各個層面實現應用,涵蓋分子和細胞尺度;模型基于DNA序列學習,無需針對特定任務進行微調,就能準確預測遺傳變異的功能影響,例如非編碼致病變異和具有臨床意義的BRCA1基因變異。


Evo 2采用新的多混合StripedHyena 2架構,展示了短顯式(SE)、中正則化(MR)和長隱式(LI)Hyena運算符的高效塊布局,使Evo 2能夠使用比Evo 1使用多30倍的數據進行訓練,并且每次推理的核苷酸數量提升8倍。


Evo 2采用「兩階段」訓練策略,在AWS上的NVIDIA DGX Cloud AI平臺上經過幾個月的訓練,使用了超過2000塊NVIDIA H100 GPU,可以一次性處理高達100萬個核苷酸的長基因序列,使其能夠理解基因組中相隔較遠部分之間的關系。

在預訓練階段,Evo 2通過新穎的數據增強和權重分配方法,優先學習功能性的遺傳元素;在中訓練階段,則專注于長序列的構建。

Evo 2的40B和7B版本在訓練時分為短序列預訓練階段和長上下文中訓練階段。

在1024個GPU、40B規模下,StripedHyena 2相較于StripedHyena 1和Transformer架構,展現出更高的吞吐量。


Evo 2的中訓練驗證困惑度表明,隨著模型規模和上下文長度的增加,模型性能得到提升。

通過修改后的「大海撈針」任務,Evo 2展示了其在長達100萬個序列長度的長上下文中進行有效回憶的能力。

實驗結果

通過在大規模的進化訓練數據集上學習序列的概率,生物序列模型能夠在沒有任何針對特定任務的微調或監督的情況下,了解突變效應與生物功能之間的相關性,即零樣本預測。

此前有效的零樣本突變效應預測僅在「僅用蛋白質序列」訓練的語言模型,或「僅用原核生物序列」訓練的基因組語言模型中得到證實。

Evo 2能夠在中心法則下的三種形式(DNA、RNA、蛋白質)和生命的三個領域(原核生物、古菌、真核生物)中學習序列可能性的分布,因此研究人員評估了Evo 2是否能夠在所有這些形式和生物體中實現突變效應的預測。


所有生命領域的編碼序列都遵循一個基本結構:以起始密碼子開始,以終止密碼子結束,并使用三聯密碼子來定義閱讀框架。

為了評估Evo 2是否掌握了這些基本的生物學原理,研究人員首先測試了單核苷酸變異(SNVs)對Evo 2在蛋白質編碼基因起始密碼子周圍基因組序列中的可能性的影響。他們在野生型序列的每個位置引入這些突變,并計算了Evo 2預測的可能性在數千個這樣的位點上的變化。


結果表明,在原核生物和真核生物中,起始密碼子內的突變會導致更劇烈的可能性變化,呈現出三聯密碼子的周期性模式,其中擺動位置的突變對可能性的影響較小。

在原核生物和真核生物的基因組中,研究人員還觀察到一個與保守的核糖體結合位點一致的模式,證實了模型已經學會了這些基本的遺傳特征,盡管模型在訓練數據中從未見過這些序列的標注。

人類目前對基因組的理解認為,特定的遺傳變化應該導致不同的表型后果。

例如,錯義突變應該比同義突變更具破壞性,移碼突變和提前終止密碼子應該是最具破壞性的,而在必需的非編碼元件中,缺失的影響應該比在基因間區域的缺失更大。

通過測量非編碼和編碼序列中各種突變的影響,研究人員評估了Evo 2的概率是否能夠捕捉到這些已知的生物學規律。


在20種原核生物和16種真核生物中,模型的概率變化與已知的生物學限制一致。

在編碼序列中,錯義變異、提前終止密碼子和移碼突變導致的可能性變化遠大于同義突變;

在非編碼區域中,tRNA和rRNA中的缺失比基因間區域和其他非編碼位點的缺失有更大的影響,符合對RNA重要性的已知信息。

未來,硅基智能創造細胞?

展望未來,研究人員設想了多種策略來提高Evo 2預測和設計的質量,目前可能更注重基因組序列的普遍進化分布,而不是特定的分類學特征。

將Evo 2與更多特征和人類基因組變異數據相結合,可能有助于改善致病性預測或分析結構變異;

利用機制可解釋性,學習到的特征還可以增強對更復雜生物學概念的檢測能力,并通過激活引導和特征限制來指導模型生成,從而實現對生成結果的可編程控制;

為了提高Evo 2生成功能的質量,可能需要通過實驗反饋進行監督微調或強化學習;

Evo2初步證明了通過推理時計算設計復雜生物系統的概念,未來這種方法還可以擴展到包括其他特性,例如選擇性剪接、細胞類型特異性或基因回路功能。

進化論是生物學的統一理論,從基因到群體,通過DNA這一基礎信息層傳遞自然選擇的功能效應,Evo系列模型為生物學建模和設計奠定了基礎,將生物學中不同尺度的信息統一到一個共同的表征中。

未來的工作如果將這一表征與表觀基因組學和轉錄組學等更多模態信息相結合,可能會產生一個虛擬細胞模型,能夠有效地模擬健康和疾病中的復雜細胞表型。

參考資料:

https://x.com/pdhsu/status/1892243493445050606

https://x.com/MichaelPoli6/status/1892242976942035029

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
演員劉詩詩發文告別

演員劉詩詩發文告別

喬話
2025-04-10 19:57:48
英國宣布:航母打擊群將動身

英國宣布:航母打擊群將動身

環球時報國際
2025-04-09 17:10:26
WTT爆冷門!世界冠軍2-3一輪游出局,向鵬丟局逆轉,陳垣宇險勝

WTT爆冷門!世界冠軍2-3一輪游出局,向鵬丟局逆轉,陳垣宇險勝

知軒體育
2025-04-10 23:10:24
馬英九:若大陸統一臺灣的手段不和平,過程不民主,臺灣人不接受

馬英九:若大陸統一臺灣的手段不和平,過程不民主,臺灣人不接受

紅色鑒史官
2025-04-08 23:05:02
斷骨拔高,魔鬼的契約!

斷骨拔高,魔鬼的契約!

燕梳樓頻道
2025-04-11 09:49:08
上海地鐵猥褻事件持續發酵!高薪同事爆已開除,老婆在家鬧離婚

上海地鐵猥褻事件持續發酵!高薪同事爆已開除,老婆在家鬧離婚

阿鳧愛吐槽
2025-04-10 11:57:36
馮紹峰帶高燒兒子就醫,剛進醫院,趙麗穎便飛奔而來,兩人被盛贊

馮紹峰帶高燒兒子就醫,剛進醫院,趙麗穎便飛奔而來,兩人被盛贊

手工制作阿殲
2025-04-11 01:15:41
大反轉,巴拿馬政府說長和違規經營,李嘉誠港口賣不出還倒貼12億

大反轉,巴拿馬政府說長和違規經營,李嘉誠港口賣不出還倒貼12億

二月侃事
2025-04-10 16:20:43
打死西湖鴛鴦的人是他!景區通報

打死西湖鴛鴦的人是他!景區通報

澎湃新聞
2025-04-09 22:58:04
“長期以來,為什么不把實情報告國內?”回答是:“不敢講”

“長期以來,為什么不把實情報告國內?”回答是:“不敢講”

小刀99
2025-04-05 14:57:20
女局長低調外出,被地頭蛇霸王硬上弓,不料一舉動讓他嚇破膽

女局長低調外出,被地頭蛇霸王硬上弓,不料一舉動讓他嚇破膽

蘭姐說故事
2025-04-10 15:10:06
十字韌帶撕裂兩次的天才,20歲是荷甲最佳球員,28歲被巴薩放逐

十字韌帶撕裂兩次的天才,20歲是荷甲最佳球員,28歲被巴薩放逐

95帕爾馬
2025-04-11 10:25:24
老鷹大勝籃網:狀元38+6三分生涯新高 特雷楊24+12奇兵超艾弗森

老鷹大勝籃網:狀元38+6三分生涯新高 特雷楊24+12奇兵超艾弗森

醉臥浮生
2025-04-11 09:58:17
咖啡店被砸后續!商場強硬收回,10年合同單方撕毀,老板維權無果

咖啡店被砸后續!商場強硬收回,10年合同單方撕毀,老板維權無果

奇思妙想草葉君
2025-04-10 22:35:34
70歲離異老太慘死,法醫檢測體內男性DNA,竟與老太自己高度吻合

70歲離異老太慘死,法醫檢測體內男性DNA,竟與老太自己高度吻合

蘇大強專欄
2024-03-27 22:12:23
史無前例,中方突然給特朗普發了一頁“無字天書”,信息量異常大

史無前例,中方突然給特朗普發了一頁“無字天書”,信息量異常大

布谷BUGU
2025-04-10 09:01:56
西部排名又變了:森林狼創NBA奇跡,勇士收大禮,6-7排名互換

西部排名又變了:森林狼創NBA奇跡,勇士收大禮,6-7排名互換

籃球大視野
2025-04-11 14:24:34
41歲男子地鐵猥褻后續!同事稱已被開除,曝妻子顏值秒殺全列車!

41歲男子地鐵猥褻后續!同事稱已被開除,曝妻子顏值秒殺全列車!

明月聊史
2025-04-10 08:39:15
美國終于頂不住壓力了,被迫宣布了繼續接受我們的郵件

美國終于頂不住壓力了,被迫宣布了繼續接受我們的郵件

風華講史
2025-02-07 09:39:28
特朗普支持者、美國大豆協會主席敦促美方停止對中國貿易戰:50%美國大豆用于出口,現在豆農生計岌岌可危

特朗普支持者、美國大豆協會主席敦促美方停止對中國貿易戰:50%美國大豆用于出口,現在豆農生計岌岌可危

和訊網
2025-04-11 12:44:03
2025-04-11 15:12:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12505文章數 66010關注度
往期回顧 全部

科技要聞

單臺年入20萬!首批人形機器人致富者來了

頭條要聞

美媒:中國對美國加征84%關稅 后果可能很嚴重

頭條要聞

美媒:中國對美國加征84%關稅 后果可能很嚴重

體育要聞

球迷天天罵,但我們要進歐冠了

娛樂要聞

汪小菲馬筱梅婚禮又有了耐人尋味的新聞

財經要聞

專家提議重啟樓市應對美國關稅戰

汽車要聞

25款風云A8/T9/T10齊上市 多款車型發布一口價

態度原創

家居
教育
藝術
公開課
軍事航空

家居要聞

浪漫與優雅 不被定義的現代法式

教育要聞

老師帶學生們做實驗,孩子們的眼睛里,躍動著求知的小火苗

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

蘇丹西部一難民營遭炮擊 至少150人傷亡

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚东县| 彭水| 堆龙德庆县| 江口县| 南昌县| 全州县| 神农架林区| 保康县| 汕尾市| 穆棱市| 弋阳县| 汽车| 盐边县| 永和县| 肇源县| 剑川县| 三都| 当雄县| 南平市| 鲁山县| 湛江市| 安龙县| 宁强县| 易门县| 蒲江县| 宁海县| 鄂托克旗| 鹿泉市| 屯门区| 西和县| 周至县| 广昌县| 苏尼特右旗| 肥西县| 固阳县| 平谷区| 康马县| 哈尔滨市| 乌拉特前旗| 丹棱县| 洛阳市|