圖|Bo Wang,多倫多大學醫學生物物理學助理教授
隨著 AlphaFold 在蛋白質折疊上的突破,以及 AI for Science 領域的不斷創新,人工智能(AI)正勢不可擋地重構生命科學的研究范式。
高通量組學技術的快速發展,使生物學數據量呈指數級增長,遠遠超出了我們從中提取分子層面信息的能力。大語言模型(LLM)通過整合海量數據并實現多任務應用,為解決海量數據處理問題提供了思路。
受此啟發,華裔學者、多倫多大學醫學生物物理學助理教授 Bo Wang 團隊及其合作者提出了“開發面向分子細胞生物學的多模態基礎模型(MFM)”的構想,這類模型在基因組學、轉錄組學、表觀基因組學、蛋白質組學、代謝組學和空間剖析進行預訓練,能夠表征細胞分子狀態,構建細胞、基因和組織的整體圖譜。
相關觀點文章以“
Towards multimodal foundation models in molecular cell biology”為題,已發布在國際權威科學期刊
Nature上。
文章鏈接:
https://www.nature.com/articles/s41586-025-08710-y
研究團隊表示,通過遷移學習,MFM 可以應用于多種下游任務,例如新型細胞類型識別、生物標志物發現、基因調控推斷和虛擬擾動等,有望開啟 AI 賦能的生物學分析新時代,揭示分子細胞生物學的復雜機制,支持實驗設計,并擴展我們對生命科學的理解。
圖|多模態分析技術及其應用。A. 各種分析技術可提供豐富多樣的單細胞分辨率和空間剖析數據;B. 來自分析方法的數據可揭示跨越中心法則的多個步驟;C. 重建細胞動力學的重要潛在應用機會。箭頭表示這些應用的基本機制是相互關聯的,使用 MFM 解決一項任務可以促進其他任務的完成。
MFM 與分子細胞生物學:Lab-in-the-loop
基礎模型是通過對海量數據集進行自監督學習訓練的深度神經網絡計算模型,因此通過遷移學習在廣泛的下游任務中展現出強大的能力。
在自然語言處理領域,基于 Transformer 的基礎模型,如 GPT 和 Llama 系列,在龐大的文本語料庫上進行訓練,可以通過微調或上下文學習快速適應各種下游任務。基礎模型也已擴展到了自然圖像和視頻,并具備了語言與圖像之間的跨模態生成能力。
在分子細胞生物學領域,基礎模型為整合多樣生物過程的認知提供了一種方法。生物基礎模型的核心優勢在于其能夠學習并表征細胞系統復雜的相互關聯特性。通過在多組學數據上進行訓練,這些模型能夠揭示孤立實驗或單一模態分析中不易察覺的細微模式與關聯,可能揭示出在更狹窄研究中被掩蓋的普遍生物學原理。
圖|傳統機器學習模型與分子細胞生物學 MFM 的比較
MFM 通過自監督學習在海量多組學數據上進行預訓練,能夠捕捉生物分子間隱秘的交互模式。例如,基于 Transformer 架構的 MFM 利用注意力機制模擬 DNA 序列到基因表達的動態過程,其核心優勢在于打破單一模態分析的局限,揭示跨組學數據的深層關聯。這種能力使得 MFM 在下游任務中展現出驚人潛力:從重建細胞發育軌跡,到預測基因擾動響應,再到發現新型生物標志物,均能提供超越傳統方法的精準洞察。
研究團隊特別強調了 Lab-in-the-loop 的創新工作流程。在這種模式下,實驗設計與計算模擬形成閉環反饋:MFM 通過預測未知細胞系的藥物敏感性指導實驗方向,實驗結果又反哺模型訓練,形成知識迭代。這種數據驅動的跨領域知識遷移,突破了傳統假設驅動研究的局限,為復雜生物系統建模提供了全新思路。
圖|不同數據背景下的預訓練和 Lab-in-the-loop 迭代改進。a. MFM 在來自豐富背景的生物數據上進行訓練。在預訓練期間,可以概括來自特定上下文條件的多樣化數據,豐富已知和未知條件下的生物學知識表示。面板中的示例場景說明了在不同細胞狀態下概括基因功能的想法,這有助于在應用中推斷出未見過的功能;b. 模型 - 數據 - 實驗,形成一個主動學習循環。Lab-in-the-loop 模式產生迭代反饋,以不斷提升多模態基礎模型的能力和生成的生物學假設的質量。
機遇
通過整合多模態數據,MFM 在表征細胞狀態、預測基因功能以及重建基因調控網絡等方面展示出了獨特的優勢。
在表征細胞狀態方面,MFM 能夠通過整合不同組學數據,更全面地理解細胞狀態的連續性,從而更準確地比較不同細胞狀態,并補全缺失的組學數據,例如在臨床樣本中預測代謝組學數據。
在預測基因功能和調控方面,MFM 能夠學習多組學數據中的統一模式,從而預測基因功能,并重建特定環境下的基因調控網絡,例如結合轉錄組和染色質可及性數據,揭示重要的調控因子。
在虛擬擾動方面,MFM 能夠預測遺傳或化學擾動對細胞狀態的影響,從而加速基因調控理解和新治療方法發現,例如預測藥物在未知細胞系上的療效,并指導實驗驗證。
為了實現這些潛在應用,研究團隊指出了分子細胞生物學 MFM 應具備的一些關鍵技術特性。
首先,MFM 的訓練需要大規模、多樣化的多組學數據,包括單細胞測序、空間轉錄組學和縱向樣本等,這些數據可以從全球細胞圖譜等資源中獲得,但需要進一步整合和標準化。研究團隊表示,為了解決數據量不足的問題,可以考慮利用合成數據作為補充。
其次,研究團隊提出了 MFM 的計算組件,包括統一的多模態數據表示、混合多層注意力機制、提示驅動的訓練任務和人類知識的整合。
為了應對不同尺度的生物分子相互作用,MFM 需要構建統一 token,實現早期融合,并采用混合多層注意力機制,區分局部(單模態)和全局(跨模態)注意力。為了實現多種下游任務,MFM 需要設計提示 token 控制的統一框架,并包含單模態和跨模態的自監督學習任務,例如掩碼語言模型、對比學習、跨模態預測和條件生成等。
此外,研究團隊認為,將人類知識融入 MFM 預訓練過程十分重要,例如將通路、基因本體、蛋白質相互作用網絡和文獻等知識以圖嵌入或向量嵌入的形式加入模型,從而提供有用的歸納偏差,增強模型的預測能力。
挑戰和展望
然而,在推廣應用 MFM 的過程中,仍然存在技術和監管方面的挑戰和限制。盡管在構建分子細胞生物學 MFM 時遇到的這些挑戰與一般領域的基礎模型有一些相似之處,但研究團隊發現,該領域的具體要求和潛在解決方案往往獨特。他們強調了以下幾個問題:
數據和計算資源:需要多樣化和大量的多原子數據;并行和加速計算資源;努力擴大訓練和部署基礎模型。
開放科學與倫理考慮:生物基礎模型應向公眾開放;明確傳達能力、局限性和使用案例;保障數據隱私。
嚴格的評估:標準化數據集上的各種基準;評估包括預測、生成、擾動和其他生物洞察力在內的能力;公開的排行榜和競賽。
可解釋性和幻覺風險:解讀大型深度學習網絡具有挑戰性;預測需要以訓練數據為基礎,并提供生物背景;模型應能接受不確定的輸出結果。
將 MFM 應用于整合多種組學數據,有望以前所未有的規模和精度,推動分子生物學的變革。要實現這一構想,需要生物學家、數據科學家、人工智能研究人員和倫理學家通力合作,以生成高質量數據、完善模型并確保可訪問性。
展望未來,將 MFM 融入醫學領域,可推動個性化治療、疾病建模和藥物發現等領域的創新。這與細胞圖譜(如 HCA)在醫學研究中已經發揮的變革性作用如出一轍。從本質上講,分子發現的未來將由一個充滿活力、具有共同愿景的合作生態系統來孕育,使科學界有能力解決生物學和醫學中一些最緊迫的挑戰。
作者:錦鯉
如需轉載或投稿,請直接在公眾號內留言
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.