在人工智能(AI)技術飛速發展的當下,AI在醫療領域的應用一直備受關注。然而,一項最新的研究結果卻給AI醫生的前景潑了一盆冷水。據報道,大阪都會大學醫學研究生院的研究團隊深入評估了生成式AI在診斷醫療狀況方面的表現,并將其與醫生進行了對比,發現結果不那么如人意。
研究團隊從18371項研究中篩選出83項進行詳細分析,涵蓋了GPT-4、Llama3 70B、Gemini 1.5 Pro和Claude 3 Sonnet等主流生成式AI模型,覆蓋了多個醫療領域。結果顯示,這些AI模型的平均診斷準確率僅為52.1%(95%置信區間:47.0% - 57.1%),這一數字遠遠低于人們的預期。
更令人意外的是,AI的診斷準確率與非專家醫生相當,兩者之間沒有顯著統計差異(準確率差異:0.6%[95%置信區間:-14.5%至15.7%],p=0.93)。這意味著,盡管AI在某些領域表現出色,但在整體醫療診斷中,其能力并不比普通醫生更強。而與專家醫生相比,AI的差距則更為明顯,專家醫生的準確率高出AI 15.8%(95%置信區間:4.4% - 27.1%,p=0.007)。
研究還發現,AI在大多數醫學??频谋憩F較為一致,但在皮膚科和泌尿科這兩個領域卻出現了例外。在皮膚科,AI的表現相對出色,這可能是因為該領域涉及模式識別,而這是AI的強項。然而,皮膚科同樣需要復雜的推理和針對患者的決策,AI的優勢并不能完全反映其在該領域的實際應用價值。對于泌尿科,研究結果僅基于一項大型研究,結論的普適性受到一定限制。
研究團隊指出,盡管生成式AI在醫學教育中具有一定的潛力,可以用于模擬真實病例,幫助醫學生和受訓者學習和評估技能,但在實際醫療診斷中,其局限性仍然明顯。研究人員強調,未來的研究需要在更復雜的臨床場景中進行評估,使用實際病歷進行性能評估,提高AI決策的透明度,并在不同患者群體中進行驗證,以進一步證實AI的能力。
此外,研究還對AI模型的透明度和偏見提出了擔憂。許多AI系統并未公開其訓練數據的詳細信息,這引發了關于其結果是否適用于所有人群的疑問。研究人員指出,透明度是確保對模型知識、背景和局限性理解的關鍵,而目前AI系統的不透明性可能會限制其在醫療領域的廣泛應用。
總之,盡管生成式AI具有巨大潛力,但在涉及詳細患者信息的復雜病例中仍面臨巨大挑戰。這項研究結果表明,AI在醫療診斷領域的應用仍需謹慎,其距離真正替代醫生還有很長的路要走。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.