網易首頁 > 網易號 > 正文申請入駐

DeepSeek登上醫學頂刊：兩篇Nature Medicine論文評估DeepSeek在醫療領域的表現

2025-04-24 11:36:44　來源: 生物世界

上海舉報

分享至

撰文丨王聰

編輯丨王多魚

排版丨水成文

2025 年 1 月 20 日，中國杭州的初創公司深度求索（DeepSeek）發布了一款大語言模型（LLM）——DeepSeek-R1，這是一個部分開源（訓練數據未公開，因此并非完全開源）的“推理”模型，其能夠以與OpenAI于 2024 年年底發布的最先進的專注于“推理”的大語言模型ChatGPT-o1相近的水平解決一些科學問題。

更重要的是，DeepSeek-R1 的訓練成本遠低于美國科技巨頭們開發的主流大語言模型，DeepSeek-R1 的高性能與超低成本引起了全世界科學界的驚嘆。

2025 年4 月 23 日，國際頂尖醫學期刊Nature Medicine背靠背發表了兩篇關于DeepSeek的論文。這兩項研究分別評估了DeepSeek在醫療任務、臨床推理和臨床決策中的能力，并與ChatGPT-o1、Llama 3.1-405B、ChatGPT-4o和Gemini-2.0 Flash Thinking Experimental進行了比較。

DeepSeek 在醫療任務和臨床推理方面的比較基準測試

DeepSeek是一款新推出的大語言模型（LLM），旨在提升推理能力，但其在醫療領域的表現尚未得到評估。

在這項研究中，西奈山伊坎醫學院Xueyan Mei團隊等評估了三款大型語言模型——DeepSeek-R1、ChatGPT-o1和Llama 3.1-405B在執行四項不同醫療任務方面的能力：回答美國醫師執照考試（USMLE）中的問題、基于文本的診斷和管理案例進行解讀和推理、根據 RECIST 1.1 標準對腫瘤進行分類，以及對多模態的診斷影像報告進行總結。

評估結果顯示，在美國醫師執照考試（USMLE）中，DeepSeek-R1（準確率=0.92）的表現略遜于 ChatGPT-o1（準確率=0.95），但優于 Llama 3.1-405B（準確率=0.83）。在基于文本的病例挑戰中，DeepSeek-R1 的表現與 ChatGPT-o1 相當（分別使用《新英格蘭醫學雜志》和 Medicilline 數據庫時，準確率分別為 0.57 vs 0.55 和 0.74 vs 0.76）。對于 RECIST 腫瘤分類，DeepSeek-R1 的表現也與 ChatGPT-o1 相似（0.73 vs 0.81）。

DeepSeek 提供的診斷推理步驟被認為比 ChatGPT 和 Llama 3.1-405B 提供的更準確（平均Likert評分分別為 3.61、3.22 和 3.13）。但 DeepSeek-R1 提供的總結影像報告的整體質量略低于 ChatGPT-o1 提供的報告（Likert評分為4.5 vs 4.8）。

總的來說，這項研究突顯了 DeepSeek-R1 大語言模型在醫療應用方面的潛力，并指出了一些需要改進的地方。

DeepSeek 在臨床決策中的基準評價

大語言模型（LLM）正在不斷改變醫療應用領域。然而，像ChatGPT-4o這樣的專有模型在臨床應用方面面臨重大障礙，因為它們無法在醫療機構內部署，從而不符合嚴格的隱私法規。

近期，諸如DeepSeek之類的開源大語言模型取得的進展提供了一個很有前景的替代方案，因為它們能夠在擁有先進信息技術基礎設施的醫院里，對本地數據進行高效的微調。

為了展示 DeepSeek-V3 和 DeepSeek-R1 的臨床實用性，柏林夏里特大學醫學院的Roland Eils團隊在臨床決策支持任務上對其性能進行了基準測試，測試對象還包括專有的大語言模型，例如ChatGPT-4o和Gemini-2.0 Flash Thinking Experimental。

通過涵蓋常見和罕見疾病的 125 個具有充分統計效力的患者病例，研究團隊發現，DeepSeek 的表現與專有的大型語言模型相當，在某些情況下甚至更優。

這項研究表明，開源的大言模型能夠提供一條可擴展的途徑，用于安全的模型訓練，從而在符合數據隱私和醫療保健法規的前提下，實現現實世界中的醫療應用。

論文鏈接：

https://www.nature.com/articles/s41591-025-03726-3

https://www.nature.com/articles/s41591-025-03727-2

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.