*僅供醫學專業人士閱讀參考
eHCC-pred模型將HCC早期診斷的準確率從78.15%提升至97%。
肝細胞癌(HCC)的診斷通常依賴于影像學檢查或組織活檢。盡管大多數HCC病例在影像學上具有特異性表現,但仍有約10%的腫瘤(在直徑為1-2cm的腫瘤中,這一比例可高達30%)缺乏典型的影像學特征[1]。在臨床上懷疑HCC但影像學特征不典型的情況下,不應推遲進行活檢或安排復查。若復查結果仍然不明確,則應進行活檢[2]。然而,活檢樣本若采集位置不精確,可能導致誤診(即假陰性結果)。對于從非腫瘤(如肝硬化或正常)組織中采集到的HCC活檢樣本,小活檢樣本的診斷假陰性率大約在30%-50%[3,4]。因此,開發新的分子標志物對于早期HCC的診斷尤為關鍵,特別是在活檢樣本位置可能存在偏差的情況下。
近期,一項研究利用大樣本數據,結合最小冗余最大相關性(mRMR)和最大相關性最大距離(MRMD)兩種特征選擇方法,并融合八種基于機器學習的算法,開發出一種用于HCC早期預測的模型(eHCC-pred)。該模型將HCC早期診斷的準確率從78.15%提升至97%,有望在個體化水平上穩定地應用于臨床實踐,助力HCC的早期診斷。該模型可于http://www.dulab.com.cn/eHCC-pred/免費獲取[5]。醫學界整理該研究內容如下,以供參考。
研究方法
本項研究采用了來自三個公共數據庫(GEO、ICGC和TCGA)的46個數據集,共計5586個組織樣本,其中包含4045個肝細胞癌(HCC)樣本、416個未發生HCC的肝硬化(CwoHCC)樣本、334個伴有HCC的肝硬化(CwHCC)樣本以及791個未發生HCC的正常肝組織(NwHCC)樣本。
GEO數據庫的44個轉錄組數據集包含3431個HCC樣本、416個CwoHCC樣本、334個CwHCC樣本和741個NwHCC樣本。數據通過Affymetrix、Agilent和Illumina平臺檢測,Affymetrix芯片數據集經RMA方法處理,Agilent和Illumina芯片數據集使用預處理數據。ICGC和TCGA數據集分別包含243個和371個HCC樣本,以及50個NwHCC樣本。研究還使用了HPA數據庫下載的2902個分泌基因數據。
研究結果
▌1.HCC預測模型的推導
本研究的整體分析流程如圖1所示。首先,基于988個HCC樣本和332個CwoHCC樣本的基因表達譜,分別獲得了25,341,086對和20,559,429對穩定的基因對。在這兩組基因對中,有5765對基因對在HCC組織和CwoHCC組織之間表現出穩定的逆轉關系。接著,通過篩選2902個分泌基因中的基因對,最終獲得了242對基因對,這些基因對中的基因i和基因j均為分泌基因。隨后,基于包含242個特征(基因對)的新數據集提取了最佳特征。
圖1. 整體分析流程
表1展示了基于準確率、F1分數適應函數和AUC值對不同預測模型分類性能的比較。表1的結果表明,包括mRMR?+?KNN、mRMR?+?SVM、mRMR?+?LR、mRMR?+?XGBoost、mRMR?+?LMT、MRMD?+?KNN、MRMD?+?SVM、MRMD?+?LR和MRMD?+?LMT在內的九種預測模型,在所有性能指標上均表現優異,準確率、F1分數和AUC值均達到1。
在這九種預測模型中,mRMR?+?KNN和mRMR?+?SVM的基因對數量最少,僅包含11對基因對(表2)。
▌2.HCC預測模型的驗證
使用獨立數據集(包括測試集、GEO數據集、ICGC數據集和TCGA數據集)對各種算法的性能進行了驗證。如表3所示,對于3057個HCC樣本和84個CwoHCC樣本,MRMD?+?SVM預測模型(包含28對基因對)在獨立數據集中獲得了最高的準確率和F1分數,其準確率、F1分數和AUC值分別為0.9834、0.9915和0.9278。而mRMR?+?SVM預測模型(包含11對基因對)在獨立數據集中獲得了最高的AUC值0.9384,高于其他預測模型。因此,在后續分析中重點關注這三個預測模型。他們在活檢樣本和手術樣本中的詳細驗證結果如表4所示。
活檢樣本
在測試集(29個HCC樣本和48個CwoHCC樣本)中,mRMR?+?SVM預測模型和mRMR?+?KNN預測模型均實現了1的敏感性和1的特異性,而MRMD?+?SVM預測模型的敏感性為1,特異性為0.8542。在GEO活檢數據集中(GSE121248, GSE47197),mRMR?+?SVM預測模型正確分類了96.18%的HCC樣本,mRMR?+?KNN預測模型正確分類了66.41%的HCC樣本,而MRMD?+?SVM預測模型對131個HCC樣本的分類準確率達到了100%。
手術樣本
在測試集(220個HCC樣本和36個CwoHCC樣本)中,mRMR?+?SVM預測模型和mRMR?+?KNN預測模型的敏感性和特異性均為1,而MRMD?+?SVM預測模型的敏感性為1,特異性為0.8889。
這些結果表明,在使用活檢樣本時,mRMR?+?SVM預測模型、mRMR?+?KNN預測模型和MRMD?+?SVM預測模型均能夠準確區分HCC和CwoHCC。
▌3.與現有預測模型的比較
對于1800個HCC樣本,Ao教授團體開發的模型、本研究團隊既往開發的模型以及本次提出的mRMR?+?SVM預測模型和MRMD?+?SVM預測模型的準確度分別為0.6639、0.7656、0.8428和0.9872。對于1931個HCC樣本,Ao方法的準確度為0.6572,本研究團隊既往方法的準確度為0.7815,而mRMR?+?SVM預測模型和MRMD?+?SVM預測模型的準確度分別提高到0.8503和0.97。上述結果表明,mRMR?+?SVM預測模型和MRMD?+?SVM預測模型在與現有預測模型相比,表現更為優越。
最終,本研究成功開發了一種基于機器學習的HCC早期診斷預測模型eHCC-pred。該模型集成了兩種不同的機器學習預測算法:MRMD?+?SVM和mRMR?+?SVM,將HCC早期識別的準確率從78.15%提升至97%,將為臨床醫生提供了更為精確的工具,以期在HCC的早期階段就進行有效的干預和治療。
醫生站網頁版上線啦
無需下載便可瀏覽更多外科資訊
參考文獻:
[1]Llovet JM, Kelley RK, Villanueva A, et al. Hepatocellular carcinoma. Nat Rev Dis Primers. 2021 Jan 21;7(1):6. doi: 10.1038/s41572-020-00240-3. Erratum in: Nat Rev Dis Primers. 2024 Feb 12;10(1):10.
[2]Marrero JA, Kulik LM, Sirlin CB, et al. Diagnosis, Staging, and Management of Hepatocellular Carcinoma: 2018 Practice Guidance by the American Association for the Study of Liver Diseases. Hepatology. 2018 Aug;68(2):723-750.
[3]Forner A, Llovet JM, Bruix J. Hepatocellular carcinoma. Lancet. 2012 Mar 31;379(9822):1245-55.
[4]Villanueva A, Minguez B, Forner A, et al. Hepatocellular carcinoma: novel molecular approaches for diagnosis, prognosis, and therapy. Annu Rev Med. 2010;61:317-28.
[5]Zhang ZM, Huang Y, Liu G, et al. Development of machine learning-based predictors for early diagnosis of hepatocellular carcinoma. Sci Rep. 2024 Mar 4;14(1):5274.
審批編號:CN-150407 有效期至:2025-12-18
本材料由阿斯利康提供,僅供醫療衛生專業人士參考
此文僅用于向醫療衛生專業人士提供科學信息,不代表平臺立場。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.