撰文丨王聰
編輯丨王多魚
排版丨水成文
2025 年 1 月 20 日,中國杭州的初創公司深度求索(DeepSeek)發布了一款大語言模型(LLM)——DeepSeek-R1,這是一個部分開源(訓練數據未公開,因此并非完全開源)的“推理”模型,其能夠以與OpenAI于 2024 年年底發布的最先進的專注于“推理”的大語言模型ChatGPT-o1相近的水平解決一些科學問題。
更重要的是,DeepSeek-R1 的訓練成本遠低于美國科技巨頭們開發的主流大語言模型,DeepSeek-R1 的高性能與超低成本引起了全世界科學界的驚嘆。
2025 年4 月 23 日,國際頂尖醫學期刊Nature Medicine背靠背發表了兩篇關于DeepSeek的論文。這兩項研究分別評估了DeepSeek在醫療任務、臨床推理和臨床決策中的能力,并與ChatGPT-o1、Llama 3.1-405B、ChatGPT-4o和Gemini-2.0 Flash Thinking Experimental進行了比較。
DeepSeek 在醫療任務和臨床推理方面的比較基準測試
DeepSeek是一款新推出的大語言模型(LLM),旨在提升推理能力,但其在醫療領域的表現尚未得到評估。
在這項研究中,西奈山伊坎醫學院Xueyan Mei團隊等評估了三款大型語言模型——DeepSeek-R1、ChatGPT-o1和Llama 3.1-405B在執行四項不同醫療任務方面的能力:回答美國醫師執照考試(USMLE)中的問題、基于文本的診斷和管理案例進行解讀和推理、根據 RECIST 1.1 標準對腫瘤進行分類,以及對多模態的診斷影像報告進行總結。
評估結果顯示,在美國醫師執照考試(USMLE)中,DeepSeek-R1(準確率=0.92)的表現略遜于 ChatGPT-o1(準確率=0.95),但優于 Llama 3.1-405B(準確率=0.83)。在基于文本的病例挑戰中,DeepSeek-R1 的表現與 ChatGPT-o1 相當(分別使用《新英格蘭醫學雜志》和 Medicilline 數據庫時,準確率分別為 0.57 vs 0.55 和 0.74 vs 0.76)。對于 RECIST 腫瘤分類,DeepSeek-R1 的表現也與 ChatGPT-o1 相似(0.73 vs 0.81)。
DeepSeek 提供的診斷推理步驟被認為比 ChatGPT 和 Llama 3.1-405B 提供的更準確(平均Likert評分分別為 3.61、3.22 和 3.13)。但 DeepSeek-R1 提供的總結影像報告的整體質量略低于 ChatGPT-o1 提供的報告(Likert評分 為4.5 vs 4.8)。
總的來說,這項研究突顯了 DeepSeek-R1 大語言模型在醫療應用方面的潛力,并指出了一些需要改進的地方。
DeepSeek 在臨床決策中的基準評價
大語言模型(LLM)正在不斷改變醫療應用領域。然而,像ChatGPT-4o這樣的專有模型在臨床應用方面面臨重大障礙,因為它們無法在醫療機構內部署,從而不符合嚴格的隱私法規。
近期,諸如DeepSeek之類的開源大語言模型取得的進展提供了一個很有前景的替代方案,因為它們能夠在擁有先進信息技術基礎設施的醫院里,對本地數據進行高效的微調。
為了展示 DeepSeek-V3 和 DeepSeek-R1 的臨床實用性,柏林夏里特大學醫學院的Roland Eils團隊在臨床決策支持任務上對其性能進行了基準測試,測試對象還包括專有的大語言模型,例如ChatGPT-4o和Gemini-2.0 Flash Thinking Experimental。
通過涵蓋常見和罕見疾病的 125 個具有充分統計效力的患者病例,研究團隊發現,DeepSeek 的表現與專有的大型語言模型相當,在某些情況下甚至更優。
這項研究表明,開源的大言模型能夠提供一條可擴展的途徑,用于安全的模型訓練,從而在符合數據隱私和醫療保健法規的前提下,實現現實世界中的醫療應用。
論文鏈接:
https://www.nature.com/articles/s41591-025-03726-3
https://www.nature.com/articles/s41591-025-03727-2
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.