天然生物基因組編碼海量的功能基因,這些基因在長期進化選擇過程中,占據了廣泛的序列空間,并發展出精巧多樣的功能活性,為生物體在復雜環境中的生存和繁衍提供了獨特優勢。
隨著測序獲得的生物序列累計達數十億量級,這些潛在的功能基因也為生物制造和合成生物技術提供了基因元件的“寶庫”。然而,盡管天然基因具備極為豐富的功能和應用潛力,目前只有一小部分熱門的功能基因(如基因編輯工具酶)被高質量注釋并構建了序列或結構模型。因此,基于序列、結構或深度學習的基因挖掘和蛋白質設計方法無法拓展至復雜功能基因,限制了對高價值基因元件的挖掘與開發利用。
針對上述問題,北京大學定量生物學中心錢瓏團隊于近日推出了一款面向合成生物學元件挖掘與生物制造應用的大語言模型 SYMPLEX,該模型通過融合領域大語言模型訓練、合成生物專家知識對齊和大規模生物信息分析,實現了從海量文獻中自動化挖掘功能基因元件并精準推薦其工程化應用潛力。
此外,團隊與中科院深圳先進技術研究院婁春波研究員合作,將 SYMPLEX 應用于 mRNA 疫苗生物制造關鍵酶——加帽酶的挖掘,成功獲得多種高性能新型加帽酶。第三方公司實驗驗證顯示,這些酶在催化效率上超越 New England Biolabs(NEB)商業化加帽酶 2 倍以上,顯著提升了 mRNA 疫苗生產的產率和成本效益。相關成果以題為“Discovery of Diverse and High-quality mRNA Capping Enzymes through a Language Model-enabled Platform”發表在 Science Advances 期刊。
圖 | 用于合成生物學部分挖掘的 SYMPLEX
在這項研究中,研究人員將大型語言模型(LLM)與結構化生物知識庫深度融合,開發出 SYMPLEX 智能基因挖掘平臺。SYMPLEX 通過自動化閱讀和理解千萬級體量的生物學文獻,在基因、功能和知識水平上對文獻內容進行提取分析,并與專家數據庫進行概念對齊、交互和基于先進生物信息技術的統計模式生成,從而產生證據鏈完整的高質量候選基因集合。不僅有效規避了大語言模型幻覺,還能自動生成與基因功能相關的細粒度知識樹,引導科學家探索廣泛的生物機制和分子過程。
對比結果表明,SYMPLEX 大模型相比傳統的生物信息學方法在挖掘基因的深度、數量和多樣性上具有顯著優勢,其基因多樣性也超越了現有蛋白質功能預測模型的預測邊界。
在研究中,團隊應用 SYMPLEX 大規模挖掘了 mRNA 加帽酶,并進行了實驗驗證。加帽過程對于穩定 mRNA、促進翻譯和減少免疫反應至關重要,而目前 mRNA 疫苗生產工藝中使用的仍是傳統的痘病毒雙蛋白(Vaccinia D1/D12)加帽酶,選擇極為有限且價格昂貴。
SYMPLEX 通過生物學文獻的批量處理和生物信息分析,識別出 16,685 個與 mRNA 加帽相關的基因,并進一步篩選出 75 類(18,779 條序列)高置信度的完整加帽酶基因。經過 46 種候選基因實測,獲得 14 種可在哺乳動物和酵母細胞中穩定發揮作用的加帽酶,以及 2 種體外活性比商業化痘病毒加帽酶高兩倍的新型加帽酶。值得一提的是,該研究挖掘的新型加帽酶與已知加帽酶的序列相似性低于 20%,且編碼序列長度縮減 30%,有望為 mRNA 疫苗和基于 mRNA 的基因療法研究提供關鍵使能技術。
圖 | 候選加帽酶在細胞體系和體外轉錄體系中表現出跨物種、跨體系的高加帽效率
SYMPLEX 的挖掘還揭示了加帽酶在自然界中多樣的構型與進化策略。研究發現了加帽酶 TPase 功能域的桶狀外圍結構的保守與可設計區間,以及 MTase 功能域新的酶活中心模體。這些發現表明,SYMPLEX 的基因挖掘能力有助于理解自然界各種生物過程的多樣化策略,還可提供高質量數據集服務于酶的理性工程優化或生成式蛋白設計。
目前,SYMPLEX 在線交互式平臺已上線,供研究人員免費使用,該平臺采用模塊化設計,提供三個核心功能:文獻智能提取引擎 PubEngine:支持高通量的文獻智能檢索分析與可視化交互;基因功能標注系統 GeneTagger:實現從分子機制到生物過程的細粒度自動化基因與功能提取;標準化知識中樞 GeneNorm:實現與專家知識庫的概念對齊與標準化,使知識樹構建和功能模式識別成為可能。各模塊既可無縫協同實現高效數據流轉,又能獨立運行,以期加速功能基因挖掘以及蛋白質設計。
據悉,該團隊正在利用 SYMPLEX 進行更多可用于生物制造和合成生物學的關鍵酶元件的挖掘,并將該平臺拓展至合成通路設計等領域,有望推動生物制造進入"AI for Science"的新紀元。
1. Tianze Wang et al. ,Discovery of diverse and high-quality mRNA capping enzymes through a language model–enabled platform.Sci. Adv.11,eadt0402(2025).DOI:10.1126/sciadv.adt0402
2. https://cqb.pku.edu.cn/info/1065/2994.htm
免責聲明:本文旨在傳遞合成生物學最新訊息,不代表平臺立場,不構成任何投資意見和建議,以官方/公司公告為準。本文也不是治療方案推薦,如需獲得治療方案指導,請前往正規醫院就診。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.