99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

Science:AI模擬5億年生物進化,創造了一種「前所未有」的蛋白質

0
分享至


蛋白質是生物體中非常重要的功能性分子,它們的形成過程經過了數十億年的自然選擇和進化。在這一過程中,蛋白質的序列和結構經過無數次隨機突變,并通過生物系統的選擇機制進行篩選,最終形成那些具有特定生物學功能的蛋白質

近年來,隨著深度學習和語言模型(LM)的發展,科學家們開始嘗試將這些工具應用于理解生物系統,尤其是蛋白質

今天,Science 雜志發表了一項重要研究成果,展示了如何利用語言模型來生成和推理蛋白質序列、結構和功能,并提出了一個名為 ESM3 的多模態生成式模型。該模型不僅能夠生成功能性蛋白質,還能夠模擬超過 5 億年的進化過程,生成與自然界已知蛋白序列不同的全新蛋白質。


ESM3 模型由人工智能初創公司 Evolutionary Scale 研發,旨在幫助科學家理解、構思和創造蛋白質。在這項工作中,研究人員通過 ESM3 設計了一個新的綠色熒光蛋白(GFP),其基因序列與已知熒光蛋白的差異巨大,如果通過天然熒光蛋白的生物進化,則需要超過 5 億年左右的時間。

這意味著,語言模型不僅可以解讀自然進化中積累的生物數據,還能通過分析進而生成新型生物分子,開辟蛋白質設計和藥物開發的新路徑。

AI 解碼生物語言

生物體本質上是可編程的。

這是因為自然界的每個生物體都共享相同的遺傳密碼,構成生命物質基礎的蛋白質就是僅由 20 種氨基酸組成。也因此,有人將其比作生命的“字母表”。

生物體中復雜的蛋白質信息蘊含著深層的生物學規律和演化歷史。近年來,科學家們通過對基因組序列和蛋白質結構的測序,積累了大量的蛋白質數據,包括數十億條序列和數億個結構信息。

隨著 AI 技術的發展,科學家們開始嘗試利用深度學習模型,如大語言模型(LLM),將這些遺傳信息“解碼”,以揭示蛋白質序列中隱藏的深層模式和邏輯,并通過這些模式推斷、設計全新的蛋白質結構和功能。

當前,已有多個語言模型(如 ProtBERT、ProtGPT)證明了蛋白質序列中的模式能夠被語言模型“解碼”,從而可以幫助理解其功能。這一領域的研究還表明,隨著模型規模的擴大,語言模型的能力和準確性也隨之提升。

為此,研究人員使用了超過 31.5 億條蛋白質序列2.36 億個蛋白質結構,以及 5.39 億個帶有功能注釋的蛋白質數據來訓練 ESM3 模型。該模型總共有三種不同的規模,分別為 14 億、70 億和 980 億參數。

實驗表明,隨著模型參數規模的增加,ESM3 在生成能力和表示學習上的性能有顯著提升,特別是在生成蛋白質結構時,980 億參數的模型表現出超越現有模型的強大能力。

作為該領域的前沿成果,ESM3 不僅僅是一個傳統的序列生成模型,而是一個多模態生成模型,能夠同時處理蛋白質的序列、三維結構和功能

ESM3 還展示了其在多種生成任務上的卓越性能。ESM3 使用了一種名為“生成掩碼語言模型”的方法,在輸入中對蛋白質的序列、結構和功能進行隨機掩碼,然后通過模型推理生成缺失的部分。


(來源:Evolutionary Scale)

研究人員通過隨機掩碼并生成序列和結構,對比生成結果與真實蛋白質的匹配情況,發現模型能夠生成高質量的蛋白質序列和結構,其與真實結構的平均差異僅為 0.5?

此外,研究表明,ESM3 能夠通過不同的提示生成具有目標功能的蛋白質,這為蛋白質設計帶來了高度靈活性。與傳統的三維空間中的復雜建模方法不同,ESM3 將三維結構離散化為 token,這使得它能夠與序列和功能信息一同被輸入模型進行處理。這種方法避免了復雜的三維空間擴散架構,使得生成過程更加高效、可控。

生成需 5 億年進化的熒光蛋白

為了展示了 ESM3 模型在生成全新蛋白質方面的巨大潛力,研究人員嘗試選擇綠色熒光蛋白進行挑戰。

綠色熒光蛋白在生物學研究中是非常重要的工具,用于標記和跟蹤細胞內的分子與結構。然而,現有的熒光蛋白大多數來自自然界,且其突變通常限制在已有序列周圍,很難大幅度改變其序列。在少數情況下,利??通量實驗和機器學習,科學家僅能夠引?至多 40-50 個突變(即 80% 的序列同源性),同時保留蛋白的熒光功能。


(來源:Evolutionary Scale)

為了突破這一瓶頸,研究人員通過對 ESM3 模型進行特定的功能提示,嘗試生成生成一個全新的綠色熒光蛋白,要求該蛋白的序列與已知的綠色熒光蛋白序列相似性較低,但仍要保持其熒光特性。

首先,研究人員定義了一個 229 個氨基酸長的蛋白質序列,其中包含了與綠色熒光蛋白熒光活性相關的關鍵氨基酸,研究人員還提供了綠色熒光蛋白的三維信息,尤其是與形成熒光色素的活性位點相關的氨基酸殘基。

ESM3 模型在接收到這些提示后,會生成一個蛋白質的三維結構,尤其是確保活性位點的氨基酸位置協調良好。然后,基于生成的結構,模型進一步推理生成合適的氨基酸序列,并嘗試保持活性位點的正確結構。

在這個過程中,ESM3 不僅僅是根據已有的綠色熒光蛋白結構生成新的序列,還能夠在“已知”結構的基礎上進行創新,生成具有低序列相似性的新型蛋白質。

經過一系列的生成和優化步驟,研究人員獲得了多個新的綠色熒光蛋白,其中一個特別的設計被命名為 esmGFP。這個全新的蛋白質與現有的熒光蛋白(如 tagRFP)之間的序列相似性為 58%,與最接近的天然蛋白(eqFP578)之間的序列差異為 107 個氨基酸,序列相似性為 53%。

研究人員還進一步驗證了生成的綠色熒光蛋白是否具有實際的熒光功能。結果表明,盡管 esmGFP 發光特性有所延遲,成熟時間較長,但最終的熒光亮度與已知的綠色熒光蛋白相似,且具有穩定的熒光特性

研究人員還提供了時間校準系統發育分析,指出如果通過現有蛋白的自然界進化過程得到 esmGFP,則需要超過 5 億年的等效時間。

ESM3 的未來潛力與應用


ESM3 的另一個顯著亮點是其在多模態條件下的生成和控制能力。

也就是說,研究人員能夠通過提示特定的蛋白質結構、功能或特定的關鍵氨基酸,生成滿足這些條件的新型蛋白質。例如,模型能夠生成具有特定功能位點的蛋白質,同時保持整體結構的完整性。

此外,通過組合不同的提示,模型也能夠生成符合復雜要求的蛋白質。例如,研究人員提示蛋白質的二級結構和功能關鍵詞,并生成了與這些提示高度一致的蛋白質。

ESM3 模型的這種提示響應能力和可控特性,使得它在蛋白質設計領域具有高度實用價值,尤其是在生成與現有已知蛋白質具有顯著差異的新型蛋白質方面。

在 ESM3 模型的幫助下,研究人員不僅能夠設計出新型的綠色熒光蛋白,還能在設計中創新,突破自然進化的局限。這為未來蛋白質工程、合成生物學和藥物開發等領域提供了新的可能性,也為蛋白質的設計和功能驗證提供了更加高效的工具。

例如,與自然進化相比,ESM3 能夠大大加速蛋白質設計的速度,并生成在自然界中無法輕易獲得的新蛋白質,而這對于基礎研究和應用研究來說都是巨大的突破。

另外,在藥物設計領域中,生成具有特定功能的蛋白質是一個重要的研究方向,而通過 ESM3,研究人員能夠設計出符合特定靶點的蛋白質,減少實驗驗證的時間和成本

而在合成生物學領域中,ESM3 能夠為開發新的合成途徑提供幫助,生成具備新功能的酶或代謝途徑。

研究人員還指出,隨著模型規模和數據量的進一步增加,ESM3 有潛力生成更加復雜和創新的蛋白質。未來,ESM3 的應用可能涵蓋從基礎研究到藥物設計等更多領域,為蛋白質工程開辟全新的可能性。

目前,ESM3 已通過 API 推出公開測試版,使科學家能夠通過編程或基于瀏覽器的交互式 app 來設計蛋白質。科學家們可以通過免費學術訪問層使用 EvolutionaryScale Forge API,也可以使用開放模型的代碼和權重。

作者:木木

如需轉載或投稿,請直接在公眾號內留言

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
特朗普終于有臺階了? 中方開出三大條件,兩岸統一已指日可待

特朗普終于有臺階了? 中方開出三大條件,兩岸統一已指日可待

愛看劇的阿峰
2025-04-26 10:49:16
中美貿易越打越兇,我國存在美國的黃金六百余噸,還能要回來嗎?

中美貿易越打越兇,我國存在美國的黃金六百余噸,還能要回來嗎?

百態人間
2025-04-17 16:23:57
董大姐拒聘海歸惹眾怒,間諜頻現已成事實,不能低估西方的手段

董大姐拒聘海歸惹眾怒,間諜頻現已成事實,不能低估西方的手段

君明觀世界
2025-04-27 01:05:04
日本網上瘋傳“4·26東京8.3級大地震”

日本網上瘋傳“4·26東京8.3級大地震”

揚子晚報
2025-04-25 20:14:21
皮爾斯:我給哈登很多贊賞 原以為喬治走了快船的窗口會關閉

皮爾斯:我給哈登很多贊賞 原以為喬治走了快船的窗口會關閉

直播吧
2025-04-26 20:20:15
突然起火!北京全市車主趕緊檢查!

突然起火!北京全市車主趕緊檢查!

美麗大北京
2025-04-26 18:19:05
胡伯說每火化30具尸體,就有一具是活的,我問法醫后才得知真相!

胡伯說每火化30具尸體,就有一具是活的,我問法醫后才得知真相!

貓眼觀史
2025-04-16 10:57:05
38歲趙麗穎在上海逛街,素顏憔悴疲憊,旁邊表妹很青春但沒她好看

38歲趙麗穎在上海逛街,素顏憔悴疲憊,旁邊表妹很青春但沒她好看

史行途
2025-04-26 11:20:46
尤文圖斯或迎陣容大換血:無緣歐冠恐觸發全員清洗

尤文圖斯或迎陣容大換血:無緣歐冠恐觸發全員清洗

星耀國際足壇
2025-04-27 01:01:29
世錦賽8強決出1席!趙心童領先,肖國棟戰平希金斯,丁俊暉將出戰

世錦賽8強決出1席!趙心童領先,肖國棟戰平希金斯,丁俊暉將出戰

小李子愛體育
2025-04-26 12:00:45
逼死劉啟不久,母親竇漪房隨即身亡,劉徹:立即處死她的侄子竇嬰

逼死劉啟不久,母親竇漪房隨即身亡,劉徹:立即處死她的侄子竇嬰

史筆似塵鉤
2025-04-26 23:00:26
遼寧備戰G1!楊鳴調侃王博,弗格眼神堅定,張鎮麟韓德君無不適!

遼寧備戰G1!楊鳴調侃王博,弗格眼神堅定,張鎮麟韓德君無不適!

籃球資訊達人
2025-04-26 14:07:20
震驚!景德鎮車禍背后隱藏的真相曝光,網友怒吼:兇手必遭報應!

震驚!景德鎮車禍背后隱藏的真相曝光,網友怒吼:兇手必遭報應!

小毅說事
2025-04-26 19:03:05
王鷗的孩子已經1歲多了,何九華在綜藝節目首度公開:我還沒結婚

王鷗的孩子已經1歲多了,何九華在綜藝節目首度公開:我還沒結婚

歸史
2025-04-20 12:56:59
澤連斯基對華指控升級:俄竊取中國技術;中國在俄境內生產無人機

澤連斯基對華指控升級:俄竊取中國技術;中國在俄境內生產無人機

頭條爆料007
2025-04-23 22:32:24
暗黑界“一姐”的蛻變之路:Anna Claire Clouds的突圍

暗黑界“一姐”的蛻變之路:Anna Claire Clouds的突圍

吃瓜黨二號頭目
2025-04-23 09:14:21
恒大有多奢侈?高管的2小時工作日常,說明一切!

恒大有多奢侈?高管的2小時工作日常,說明一切!

愛看劇的阿峰
2025-04-27 01:18:23
外交部:高度贊賞阿盟外長理事會會議通過對華友好決議

外交部:高度贊賞阿盟外長理事會會議通過對華友好決議

新華社
2025-04-25 18:18:46
績效一降再降,安徽某市縣二甲,醫技科室待遇分享

績效一降再降,安徽某市縣二甲,醫技科室待遇分享

老莊聊薪水
2025-04-26 18:54:00
湖南4歹徒綁架女富豪,將其監禁并強奸,3天后歹徒卻被她嚇到報警

湖南4歹徒綁架女富豪,將其監禁并強奸,3天后歹徒卻被她嚇到報警

罪案洞察者
2025-04-08 10:03:59
2025-04-27 05:24:49
學術頭條
學術頭條
致力于學術傳播和科學普及,重點關注人工智能、生命科學等前沿科學進展。
1247文章數 5069關注度
往期回顧 全部

科技要聞

百度心響實測:“能用版Manus”開了個好頭

頭條要聞

特朗普將舉行集會慶祝執政100天 美媒:時機不妙

頭條要聞

特朗普將舉行集會慶祝執政100天 美媒:時機不妙

體育要聞

廣廈19分勝遼寧獲開門紅 孫銘徽13分3助崴腳

娛樂要聞

金掃帚獎出爐,包貝爾意外獲“影帝”

財經要聞

韓國的"宇樹科技" 是怎樣被財閥毀掉的?

汽車要聞

充電5分鐘續航100公里 探訪華為兆瓦超充站

態度原創

藝術
旅游
親子
家居
軍事航空

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

親子要聞

這首歌是為有兒子的家庭量身打造的吧? 楊雪呀

家居要聞

清徐現代 有溫度有態度

軍事要聞

白宮爭吵后特朗普與澤連斯基"首度"碰面

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 罗甸县| 图木舒克市| 邹平县| 弥勒县| 尚义县| 墨脱县| 平罗县| 九台市| 商都县| 克什克腾旗| 建阳市| 广饶县| 浙江省| 收藏| 汉源县| 惠东县| 石台县| 海门市| 家居| 浪卡子县| 嫩江县| 甘德县| 济阳县| 灵寿县| 德昌县| 盘锦市| 灵璧县| 阳原县| 张家界市| 安平县| 台山市| 海兴县| 揭东县| 三都| 公安县| 东乡族自治县| 吐鲁番市| 平果县| 青田县| 拉萨市| 高邑县|