99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

增強人工智能藥物研發的四種方法

0
分享至


2025年2月27日,Nature期刊發布《增強人工智能藥物研發的四種方法》(Four ways to power-up AI for drug discovery),文章探討了人工智能在藥物研發中的挑戰和機遇。啟元洞見編譯文章主要內容,旨在為讀者了解增強人工智能藥物研發的方法提供參考。

藥物研發極其困難,德國漢堡生物技術公司Evotec的計算化學家大衛·帕多(David Pardoe)說道:“在大約100年的現代醫學發展歷程中,我們僅為約7000種罕見疾病中的500種找到了治療方法。這一過程耗時過長,成本過高。”但理論上,人工智能有望解決這兩個問題。

人工智能應當能夠整合潛在藥物分子的三維幾何結構和原子結構,并構建它如何與靶蛋白結合的圖譜。隨后,研究人員可以調整設計,使潛在藥物更具效力,或者算法可以識別全新的靶點進行探索。此外,人工智能系統還可能考慮到藥物與靶點相互作用的復雜生物環境。某些潛在藥物可能會因與多種非靶蛋白產生不良相互作用而帶來副作用,從而影響其應用前景。

開發能夠加速藥物發現的系統的關鍵在于大量優質數據。與其他一些人工智能應用領域的科學家相比,藥物研發領域的研究人員具有扎實的數據基礎:全球各地的實驗室正在源源不斷地產生大量生物數據,為人工智能技術的應用奠定了堅實基礎。

然而,盡管龐大的數據規模似乎表明人工智能變革藥物研發只是時間問題,但事實并非如此。數據質量往往難以達標,因為大多數數據的采集并未專門針對機器學習進行設計。實驗方法和數據記錄方式缺乏一致性,以及研究結果偏向于發表積極結論,而忽略負面或無效數據,這些因素都會帶來問題。盡管有些人認為,只要數據量足夠大,就能自動解決這些問題,但也有人認為,學術界和工業界的研究人員需要攜手合作,提高用于機器學習模型的數據質量。

哪些問題最緊迫?哪些解決方案應當優先實施?這些問題仍存在爭議。為進一步探討如何讓人工智能真正實現對藥物研發的變革,達到許多人所期望的程度,本文采訪了多位該領域的研究人員,以梳理出可采取的具體行動。

一、標準化報告和實驗方法

巴黎人工智能生物技術公司Owkin的首席數據科學官艾瑞克·杜蘭德(Eric Durand)說道:“人工智能面臨的一個巨大挑戰是數據的生成方式。”

當不同實驗室使用不同的方法、試劑和儀器時,數據中可能會引入所謂的“批次效應”(batch effects)。例如,樣本處理過程中的細微差異、不同批次試劑和細胞之間的變異,甚至是分子結構的命名和描述方式,都會導致數據的變化。而這些變化可能被人工智能模型誤判為具有生物學意義的特征。杜蘭德解釋道:“你不能直接拿兩個實驗室生成的數據集進行聯合分析,而不進行預處理。”

美國馬薩諸塞州劍橋生物技術公司Relay Therapeutics的計算化學家帕特·沃爾特斯(Pat Walters)說道:“必須小心對待這些數據。它們來自不同實驗室,而這些實驗室的實驗方式并不相同,因此很難做到‘同類對比’(apples-to-apples comparisons)。”

有些人認為,生成符合人工智能需求的有序數據的最佳方式是制定實驗運行和報告的規則。例如,可以從一開始就統一疾病和基因的命名,并提前達成實驗協議。一個成功的案例是人類細胞圖譜(Human Cell Atlas),這是一個于2016年啟動的全球項目,目前已以嚴格標準化的方法繪制了數百萬個人體細胞圖譜。這些一致的數據為人工智能算法提供了基礎,有助于尋找潛在的藥物靶點。

一個名為Polaris的項目——一個用于藥物研發的基準測試平臺——也旨在幫助清理和標準化機器學習所需的數據集。該項目在2024年底發布了一篇預印本論文,提出了相關指南,并正在征求反饋意見。

Polaris規定了數據集的基本審核標準。例如,數據創建者必須說明數據的生成方式及其適用范圍,并明確引用其信息來源。此外,該平臺提醒研究人員自行檢查數據集中是否存在明顯的重復項或不明確的信息。計算化學家沃爾特斯說道:“我們還邀請專家對部分公開數據集進行審核,以便向學術界和工業界提供高質量數據的參考。”為了進一步提升數據質量,Polaris還引入了一種認證標章,用于標識那些符合標準的數據集。

帕多指出,如果不進一步努力生成統一且高質量的數據,那么繼續研發更先進的算法可能意義不大。他表示:“一旦這些‘優質’數據可用,我們就能在正確的方向上取得快速且顯著的進展。”

二、認識到負面結果的價值

人工智能訓練的數據通常來自已發表的研究,而這些研究往往更傾向于展示成功結果,這就導致人工智能在學習時對生物學領域形成了一種扭曲且過于樂觀的認知。例如,已有的研究數據中,更多記錄的是在動物實驗中表現良好、無明顯毒性的成熟化合物,而對那些失敗的化合物記錄較少。因此,人工智能在進行藥物發現時,可能會因缺乏大量隱藏失敗的案例,而無法全面評估藥物的潛力。

倫敦國王學院的藥物化學家米拉茲·拉赫曼(Miraz Rahman)提出了一例這樣的偏見問題,即在新型抗生素的研究中,人工智能可能會產生誤導性的建議。抗生素要發揮作用,首先必須成功進入細菌細胞。許多已發表的研究表明,伯胺(primary amines,一種結構類似氨的小分子)可以幫助藥物進入細菌體內。因此,人工智能若基于這些研究進行分析,就會不斷推薦含有伯胺基團的化合物。

但拉赫曼認為,這種推薦是不可靠的。他說:“我的實驗室已經積累了大量數據,表明這并不可行。”然而,這些失敗的數據并未發表,導致人工智能無法識別這個錯誤,從而繼續做出錯誤的預測。

制藥公司同樣受到偏向于分享正面結果的影響。“被發表的總是成功案例,”拉赫曼說道。當公司選擇不公開其負面研究結果時,呈現給算法的表象就會比現實更加簡單、光鮮。

一種解決方法是從一開始就明確收集正面和負面結果的意圖。其中一個受到關注的項目由美國加州大學舊金山分校的結構生物學家詹姆斯·弗雷澤(James Fraser)領導,并由美國先進研究計劃署(ARPA-H)資助。該項目關注的是藥代動力學(pharmacokinetics),即研究人體對化合物的作用方式。

一種藥物在體內的去向取決于其在體內的吸收、分布、代謝和排泄(ADME)。如果人體清除某種化合物的速度過慢,可能會帶來安全風險。但如果它被排出得太快,藥效可能也會大打折扣。“你可以設計出一個能緊密結合目標蛋白的分子,但如果該分子被迅速排出體外,它就無法作為有效的藥物,”該項目的支持者沃爾特斯說道。此外,藥物還可能與體內的非目標蛋白相互作用,從而引發毒性反應,并減緩或減少藥物到達預期目標部位的量。

這些ADME問題通常在藥物研發的后期才顯現出來,可能導致昂貴的失敗。“目前的過程就像打地鼠一樣,”弗雷澤說道,“你設計新的分子來消除一個問題,但另一個問題又冒出來了,然后你再圍繞它進行優化。”

弗雷澤將他目前的研究稱為“avoid-ome”項目,因為它旨在為人工智能工具提供必要的數據,以識別這些潛在問題。該項目的目標并不是生成關于藥物靶點的數據,而是研究那些科學家通常希望避免的蛋白質。其核心是建立一個實驗數據和結構數據的數據庫,專注于與ADME相關的蛋白質結合信息。自去年10月獲得資金支持以來,弗雷澤的實驗室已開始針對ADME的代謝環節進行測試。

這些研究成果將有助于開發預測性人工智能模型,從而優化候選藥物的藥代動力學特性。“研究人員將需要合成更少的分子,同時能更全面地評估所有潛在問題,從而更快地找到符合所有標準、可以進入人體試驗的藥物分子。”弗雷澤說道。

三、共享行業數據與專業知識

制藥公司掌握著大量數據,包括負面研究結果,并以標準化方式收集這些數據,使其更適用于人工智能模型的分析。然而,只有一小部分數據被公開。拉赫曼估計,即使是相對開放的制藥公司,也僅公開其數據的15%–30%,而臨床試驗數據的公開比例可達到50%。

這些數據的價值,制藥公司自身當然深知。2018年,瑞士巴塞爾諾華制藥公司(Novartis)的首席執行官瓦斯·納拉西姆漢(Vas Narasimhan)曾提出,要將公司重新定位為“醫藥與數據科學公司”,并強調其在新藥研發中擁抱人工智能技術的雄心。因此,大多數制藥公司對于與學術界或其他企業共享數據持極大的抗拒態度。

“像諾華這樣的大公司——我曾在其中工作多年——擁有成千上萬個化合物的測試數據,這些化合物曾被用于評估與特定蛋白質的結合情況,”杜蘭德說道,“但他們不愿意與競爭對手分享這些數據,因為這是他們的核心資產。”

四、促進制藥公司間的數據共享

為了推動制藥公司之間的數據共享,Owkin參與了一項歐盟資助的項目——Melloddy。該項目采用聯邦學習(federated learning)方法,使十家制藥公司能夠在不向競爭對手披露敏感生物和化學數據的情況下,共同訓練預測軟件。在該項目中,訓練模型用來關聯分子的化學結構與其生物活性,最終其預測準確性遠超大多數公司的現有模型。

然而,并非所有人都對這一成果感到滿意。不同公司采用不同方式生產的數據,在整合時往往會遇到熟悉的問題。此外,對數據進行匿名化處理可能會降低其信息的豐富度。“想要在不泄露化學結構及實驗方法的前提下整合數據集,這非常困難。”沃爾特斯解釋道。

此外,該項目并未改善學術界所依賴的公共數據庫現狀。學者們深知,光靠請求是不可能讓他們輕易獲得制藥公司的數據。因此,一些研究人員呼吁制藥公司在數據共享方面發揮另一項優勢——資金支持。

目前,最具研究價值的數據庫之一是英國生物樣本庫(UK Biobank),該項目系統性地收集了50萬名英國人的基因、生活方式、健康信息及生物樣本。該項目已獲得超過5億英鎊(約6.32億美元)的資助,但主要資金來源是政府和慈善機構。波士頓人工智能生物科技公司Insilico Medicine的創始人兼首席執行官阿列克謝·扎沃隆科夫(Alex Zhavoronkov)表示,“大型制藥公司應該資助像英國生物樣本庫這樣的項目。”

五、充分利用現有資源

一些研究人員認為,龐大的數據量和更智能的數據處理可以在很大程度上克服人工智能在新藥研發中的挑戰。“只要數據足夠多,人工智能就能學會如何進行泛化,”扎沃隆科夫表示。

Insilico Medicine通過整合美國政府數十億美元研究資助所產生的數據,將其與學術論文、臨床試驗、專利以及基因和化學數據存儲庫相鏈接。“現代人工智能工具可以追溯某項創新的來源,甚至具體到最初的研究資助項目,”扎沃隆科夫解釋道。

這些原始數據隨后被進一步處理。在Insilico,這一過程包括引入評分機制,例如幫助人工智能算法衡量研究結果的重要性或可信度。“我們有一款工具,可以評估發表論文的科學家的可信度,”扎沃隆科夫說,“如果一個人之前撒過謊,那么他再次撒謊的概率就會更高。”

此外,Insilico還會跟蹤公司在公布臨床試驗結果后的股價波動。如果股價大幅下跌,那么無論公司如何表述,我們都會認為試驗結果是負面的。

2019年末,Insilico Medicine的人工智能驅動藥物研發平臺PandaOmics發現了一種針對纖維化疾病的新靶點,該類疾病涉及過度的瘢痕組織增生。隨后,公司利用其生成式人工智能平臺Chemistry42設計了能夠阻斷該靶點的化合物。該算法利用ChEMBL等大型分子數據庫,學習化學結構的模式,并生成潛在藥物。

2023年8月,Insilico完成了一項IIa期臨床試驗,研究對象為特發性肺纖維化(idiopathic pulmonary fibrosis,IPF)成人患者,這是一種導致肺部瘢痕化的疾病。公司目前正籌備后續試驗,而扎沃隆科夫對未來充滿信心:“自2019年以來,我們已確定了22種臨床前候選藥物。”

一些大型公共數據池無疑更難被人工智能利用。例如,批量RNA測序(bulk RNA sequencing),其數據來源于混合的組織樣本,因此反映的是多個細胞的基因表達平均水平。而如今,單細胞測序(single-cell sequencing)被認為更具優勢,因為它可以檢測稀有細胞所產生的蛋白質,并在組織映射中提供更高的分辨率。

然而,扎沃隆科夫認為,不應忽視這些并不完美的公共數據。他表示:“這些數據必須被重復利用,畢竟已經有大量動物因此被犧牲,而人工智能需要依賴這些數據進行訓練。”他主張創建小規模、高質量的數據集,以用于測試人工智能模型的預測能力,確保其在使用大規模、可能存在缺陷的數據集訓練后仍能做出準確預測。

他進一步建議,這些高質量數據應來自自動化實驗室,通過標準化方式專門生成某些類型的數據,以提高人工智能訓練的可靠性。

免責聲明:本文轉自啟元洞見。文章內容系原作者個人觀點,本公眾號編譯/轉載僅為分享、傳達不同觀點,如有任何異議,歡迎聯系我們!

轉自丨啟元洞見

研究所簡介

國際技術經濟研究所(IITE)成立于1985年11月,是隸屬于國務院發展研究中心的非營利性研究機構,主要職能是研究我國經濟、科技社會發展中的重大政策性、戰略性、前瞻性問題,跟蹤和分析世界科技、經濟發展態勢,為中央和有關部委提供決策咨詢服務。“全球技術地圖”為國際技術經濟研究所官方微信賬號,致力于向公眾傳遞前沿技術資訊和科技創新洞見。

地址:北京市海淀區小南莊20號樓A座

電話:010-82635522

微信:iite_er

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

全球技術地圖 incentive-icons
全球技術地圖
洞見前沿,引領未來
3727文章數 13379關注度
往期回顧 全部

專題推薦

第十個全民國家安全教育日

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 郓城县| 古交市| 祁阳县| 姜堰市| 兴业县| 诸暨市| 丰顺县| 图木舒克市| 万宁市| 民勤县| 连山| 和林格尔县| 皋兰县| 潍坊市| 广水市| 高陵县| 昭觉县| 宝鸡市| 龙山县| 贞丰县| 剑阁县| 新津县| 南平市| 凤阳县| 阿拉善左旗| 鄯善县| 宁强县| 稻城县| 南澳县| 明水县| 霸州市| 西和县| 金沙县| 大冶市| 南康市| 留坝县| 罗田县| 巢湖市| 永昌县| 九江县| 麟游县|