撰文丨王聰
編輯丨王多魚
排版丨水成文
人工智能(AI)在專業診斷方面取得了顯著進展,但在復雜臨床場景中仍面臨挑戰,例如罕見病診斷和急診決策。
2025 年 4 月 4 日,澳門科技大學/溫州醫科大學張康教授聯合 溫州醫科大學金勝威教授、黃曉穎教授、瞿佳教授、解放軍總醫院段煉教授,在 Cell 子刊Cell Reports Medicine上發表了題為 : MetaGP: A generative foundation model integrating electronic health records and multimodal imaging for addressing unmet clinical needs 的研究論文。
該研究開發了一個擁有 320 億參數的醫療 生成式基礎模型——“元全科醫生”(MetaGP),通過在超過 800 萬份電子健康記錄、 540 萬篇生物醫學文獻,以及 1.5 萬本醫學專著等大量數據集上的訓練,MetaGP 展示了強大的診斷能力,其準確率可與經驗豐富的臨床醫生相媲美。
在罕見病診斷中, MetaGP 平均診斷得分達到 1.57 分(滿分為 2 分),超過了資深全科醫生的 1.50 分以及 GPT-4 的 0.93 分。對于急診診斷,它分別將初級醫師和主治醫師的診斷準確率提高了 53% 和 46%。此外,MetaGP 還具有出色的生成醫學影像報告的能力,能夠為胸部 X 光片和計算機斷層掃描(CT)生成高質量的報告,其質量往往與醫生撰寫的報告相當,甚至更優。這些結果突顯了 MetaGP 在各種醫療情境中變革臨床決策的潛力。
人工智能(AI)的出現開啟了醫療保健和醫學的新紀元。近期取得的突破使 AI 工具能夠成功解讀各種類型的醫療數據,例如皮膚鏡圖像、視網膜圖像、電子健康記錄(EHR)、心電圖以及腫瘤學試驗數據。
雖然這些 AI 模型在其專門的任務上表現出色,但在涉及多個學科的診斷任務方面卻常常力不從心。例如,專注于心臟病學的 AI 模型可能會忽略神經病學中的神經癥狀。
當前 AI 模型的這種“管中窺豹”,有可能導致漏診或對患者整體健康需求的理解不全面。如果沒有廣闊的視野或知識基礎,這些工具可能會損害對患者的全面護理。
此外,這些 AI 模型的開發需要整合大量結構化數據,而將醫療數據結構化的過程通常依賴于豐富的專業知識和定制化的數據處理程序。例如,在將 AI 應用于電子健康記錄(EHR)之前,通常需要將異構的原始數據轉換為結構良好的輸入,這不僅費時費力,而且容易造成信息丟失。此外,隨著所需數據量的增加,這種模式可能會限制構建更高級人工智能系統的可擴展性。
應對上述挑戰需要一種基礎人工智能模型(foundation AI model),它能將專業見解與全面的概覽相結合,并且在訓練時只需少量的人工結構化數據。
近年來,大語言模型(large language model,LLM)在包括醫學在內的多個領域展現出了非凡的能力。這些模型,例如GPT-4和BERT,在諸如醫療問答、報告生成和臨床決策支持等任務中展現出了潛力。然而,這些模型中的許多主要是基于通用的互聯網知識進行訓練的,而這類知識往往缺乏高風險醫療應用所需的專門背景。
為彌補這一不足,近期的研究進展集中在諸如 PMC-LLaMA、BiomedGPT 和 GatorTronGPT 等特定領域的模型上,這些模型利用 PubMed 論文、電子健康記錄和教科書等醫學數據庫來增強其領域知識。
這些模型在將大語言模型(LLM)應用于醫學方面邁出了重要的一步,但在罕見病診斷、緊急狀況識別以及多模態數據整合等領域仍存在挑戰。
在這項最新研究中,研究團隊推出了一種醫學生成式基礎模型——“元全科醫生”(Meta General Practitioner,簡稱為MetaGP),參數量高達 320 億。其訓練數據包括來自不同醫療系統的 830 萬份電子健康記錄(EHR)、540 萬篇生物醫學文獻,以及 1.5 萬本醫學專著等大量數據集,相當于熟讀全球頂尖醫院的 50 年診療記錄,這確保了 MetaGP 對醫學理論和實踐有著廣泛而深入的理解。
MetaGP 基于開源的通義千問Qwen-1.5-32B大模型框架構建,,兼具通用性和靈活性,所需計算資源顯著減少。在預訓練階段,使用了 120 塊 NVIDIA A100 圖形處理單元(GPU),配備 80GB 顯存(VRAM),歷時四周,隨后在每次迭代中使用 48 塊 A100 GPU 進行微調,每次迭代耗時五天。
MetaGP 整合了罕見病專業知識庫,覆蓋了 413 種罕見病診療路徑,還內置了 2000+ 種急診鑒別診療流程,并通過醫生反饋持續優化診療邏輯,實現動態學習。因此,其有可能在廣泛的診斷場景中提供準確的決策支持,應對醫療領域的各種挑戰。
作為概念驗證,研究團隊驗證了 MetaGP 在應對兩個未解決的臨床挑戰方面的能力:1)罕見病診斷;2)緊急狀況識別。為了應對評估生成式醫療 AI 模型預測準確性的挑戰,研究團隊在醫療保健專家的幫助下實施了嚴格的評估方案,并進行了全面的測試。
評估結果顯示,MetaGP 展示了強大的診斷能力,其準確率可與經驗豐富的臨床醫生相媲美。
對于罕見病診斷中,MetaGP 平均診斷得分為 1.57 分(滿分為2分),超過了資深全科醫生的 1.50 分以及 GPT-4 的 0.93 分。例如,一名反復暈厥的 18 歲患者,傳統 AI 模型給出了“心律失常”的診斷,而 MetaGP 通過分析心電圖的細微異常,以及家族史和心肌酶譜,準確識別出其患有罕見的“致心律失常性右室心肌病”。
對于急診診斷,MetaGP 分別將初級醫師和主治醫師的診斷準確率提高了 53% 和 46%,將危重癥漏診率降低 68%。
此外,MetaGP 在生成醫學影像報告方面也表現出色,能夠為胸部 X 光片和計算機斷層掃描(CT)生成高質量的報告,其質量通常與醫生撰寫的報告相當,甚至更優。
該研究的亮點:
MetaGP 通過整合海量醫療數據,實現精準可靠的診斷;
MetaGP 在罕見病和緊急護理診斷方面表現出色;
MetaGP 提升了臨床醫生在關鍵醫療場景中的準確性;
MetaGP 可為影像數據生成可靠、準確的報告。
這些結果突顯了 MetaGP 在各種醫療情境中變革臨床決策的潛力。MetaGP 的出現,標志著醫療 AI 從單科冠軍向全能選手的進化,它不僅可以作為醫生的智能助手,更能成為醫療資源分配的均衡器。研究團隊認為,MetaGP 不是為了取代醫生,而是幫助放大人類醫學智慧,未來,這種人機協作的診療模式,或將成為破解看病難、降低誤診率、實現醫療平權的新鑰匙。
論文鏈接:
https://www.cell.com/cell-reports-medicine/fulltext/S2666-3791(25)00129-6
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.