生成性藥物設計是一種利用人工智能和機器學習技術來設計新藥物的方法。它涉及到使用算法從頭開始設計新分子,優化化合物的特性,以及預測化合物的生物活性和毒性等。
該方法有可能識別未被充分探索的化合物類別和現有庫中不存在的新化合物,促進創新治療策略的發展。
然而,生成的分子的實用性往往有限,因為許多設計只關注一組狹窄的藥物相關特性,無法提高后續藥物發現過程的成功率。
10 月 29 日,發表在 Nature Communications 上的一篇文章顯示,來自微軟研究院科學智能中心的團隊提出了一種名為TamGen(目標感知分子生成)的方法,TamGen 具有類似 GPT 的化學語言模型,旨在生成類似藥物的化合物。
他們證明 TamGen 生成的化合物具有更好的分子質量和活力,并通過 TamGen 確定了 14 種對結核病 ClpP 蛋白酶具有顯著抑制活性的化合物,其中最有效的化合物表現出半數最大抑制濃度 (IC50 ) 為 1.9 μM。相關文章題為“TamGen: drug design with target-aware molecule generation through a chemical language model”。
生成式預訓練 Transformer(GPT)是大型語言模型的骨干,它不僅能生成文本,還能生成圖像和語音,以及理解和解決科學問題 。
TamGen 具有三個模塊:(1)化合物解碼器,一種類似 GPT 的化學語言模型和 TamGen 的核心組件,為化學空間中的化合物生成奠定了基礎;(2)蛋白質編碼器,一種基于 Transformer 的模型,用于編碼目標蛋白質的結合位;(3)用于化合物編碼和細化的上下文編碼器。
圖 | TamGen 的架構
為了對 TamGen 的整體性能進行基準測試,研究人員將其與 5 種方法進行了比較:liGAN、3D-AR 、Pocket2Mol、ResGen 和 TargetDiff 。這些方法專注于在 3D 空間中直接生成化合物,以便將蛋白質結合位點與多種深度學習技術相匹配。
他們在 CrossDocked2020 數據集上評估了這些方法和 TamGen,該數據集是從 PDBbind 精選出來的成熟基準數據集。使用每種方法在 CrossDocked2020 測試集中為每種目標蛋白生成了 100 種化合物。
評估指標包括:與目標蛋白的結合親和力;藥物相似性;合成可及性評分 (SAS);LogP,分子親脂性的指標。此外,研究人員還量化了每種方法生成具有分子多樣性的多樣化化合物的能力。
結果發現,每種方法在不同指標上各有優劣,TamGen 整體表現性較好。例如,TamGen 在 6 個指標中的 5 個中排名第一或第二,并表現出最佳的整體性能。這一發現表明 TamGen 能夠在生成過程中同時優化化合物的多個方面。
圖 | TamGen 在化合物生成方面實現了最先進的性能
其中,合成可及性是這些指標中影響候選藥物實用性的重要因素,特別是對于新型化合物。為了弄清 TamGen 為何能生成具有高結合親和力和高合成可及性評分的化合物,他們檢查了 TamGen 和其他方法生成的得分最高的化合物。
分析表明,TamGen 傾向于生成具有較少稠環的化合物。且其生成的化合物中稠環的數量與 FDA 批準的藥物非常接近。
接下來,研究人員使用 TamGen 生成了針對結核病 ClpP 蛋白酶的化合物,結核病是一種由結核分枝桿菌(Mtb) 引起的傳染病。除了之前發現的硼替佐米(一種靶向人類 26S 蛋白酶體并表現出對細菌 ClpP 的抑制活性的肽模擬化合物)外,目前尚無記錄的先進抗生素 ClpP 抑制劑。ClpP 是酪蛋白水解蛋白酶P,它是細菌蛋白質降解系統中必需的絲氨酸蛋白酶,也是抗生素開發的新興靶點。
團隊采用了由 TamGen 驅動的設計-改進-測試流程來識別潛在的 ClpP 抑制劑。在設計階段,利用從蛋白質結構獲得的 ClpP 結合口袋,TamGen 生成了 2612 種獨特的化合物。
然后使用分子對接和 Ligandformer(一種用于表型活性預測的 AI 模型)篩選這些化合物。在此階段,排除了與硼替佐米相比對接得分較差的化合物和 Ligandformer 預測的無活性化合物。肽模擬物也被排除在外,因為它們的 ADME(吸收、分布、代謝、排泄) 特性不理想,這是硼替佐米的已知缺點。最后,確定了 4 種種子化合物,用于接下來的改進階段。
在優化改進階段,使用 TamGen 生成以目標蛋白和種子化合物為條件的化合物。在這里,除了 TamGen 生成的 4 種代表性化合物外,研究人員還從之前的實驗中確定了 3 種具有弱抑制活性的化合物(IC50在 100–200 μM 范圍內對結核分枝桿菌 ClpP 有效)。以 ClpP 和這 7 種種子化合物為條件,使用 TamGen 生成了 8,635 種獨特化合物,并按照與設計階段相同的程序篩選化合物。最后,從這些生成的化合物中選出 296 種用于測試階段。
在測試階段,確定了 159 種類似物,其中有 5 種在 ClpP1P2 肽酶活性測定中表現出顯著的抑制作用。后續劑量反應實驗表明,這 5 種化合物的 IC50值均低于 20 μM,其中 Analog-005 脫穎而出,IC50為 1.9 μM。
圖 | 結核病藥物生成的設計-改進-測試流程圖
隨后,研究人員利用 TamGen 合成了上述篩選出來的化合物中,抑制效果優良的化合物的衍生物。均證實具有抑制效果。
總而言之,通過 TamGen 支持的設計-改進-測試過程,研究人員確定了與 ClpP 蛋白相互作用的方式與硼替佐米不同的化合物,從而揭示了未來發現 ClpP 抑制劑的新機制。這些化合物具有苯磺酰胺和二苯脲基團作為骨架,與肽模擬物硼替佐米完全不同,為提高 ClpP 抑制劑的生物利用度和分子穩定性提供了一種可能的解決方案。
最后,作者也討論了 TamGen 成功的原因,并將其歸因于 3 個主要因素。首先,嵌入在預訓練化合物解碼器模型中的化學知識能夠生成符合化學規則并具有有利于藥物開發的特性的高質量化合物;其次,結合順序和幾何信息的有效結合口袋表示支持穩健的化合物生成;最后,基于變分自動編碼器 (VAE) 的上下文解碼器允許使用文獻中報道的或在前幾輪中確定的候選分子來細化命中化合物,從而為給定目標生成改進的化合物。
然而,TamGen 并非沒有局限性。例如,它不夠靈敏,無法區分具有微小差異的靶標,例如點突變或蛋白質異構體,而這對于針對癌癥相關蛋白質和其他疾病的藥物設計至關重要;此外,作為一種基于結構的藥物設計方法,TamGen 的應用需要靶蛋白的結構和潛在的結合口袋信息。
作者也提到,由于 TamGen 主要專注于識別和擴展目標化合物,尚未對所提議化合物的細胞活性和毒性進行廣泛測試。為了進一步推進藥物發現流程,需要對這些候選化合物進行額外的評估和優化。
1.Wu, K., Xia, Y., Deng, P. et al. TamGen: drug design with target-aware molecule generation through a chemical language model. Nat Commun 15, 9360 (2024). https://doi.org/10.1038/s41467-024-53632-4
免責聲明:本文旨在傳遞生命科學和醫療健康產業最新訊息,不代表平臺立場,不構成任何投資意見和建議,以官方/公司公告為準。本文也不是治療方案推薦,如需獲得治療方案指導,請前往正規醫院就診。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.