2025 年 4 月 4 日起,美國國立衛生研究院(NIH)將正式對包括中國在內的多個受關注國家實施數據訪問限制。NIH 主任辦公室已于 4 月 2 日在官網發布《實施更新:增強 NIH 受控訪問數據的安全措施》文件,明確禁止位于中國、俄羅斯、伊朗等受關注國家的機構訪問 NIH 的受控數據存儲庫及相關資料。
例如,NCBI 等國際知名數據庫的突然「斷供」,讓廣大科研工作者措手不及,仿佛一夜之間失去了重要的研究工具。
圖片來源:NIH 官網
被禁用的國外數據庫
NCBI ——作為 NIH 下屬的數據庫中心,負責維護 GenBank(全球最大的公共 DNA 序列數據庫,存儲著數百萬物種的基因數據)、PubMed(收錄超過 3500 萬篇生物醫學文獻摘要)、dbGaP(基因型和表型數據庫)、SRA(序列讀取存檔)、ClinVar(記錄基因變異與疾病關聯的臨床數據庫)、Protein(存儲蛋白質序列和結構數據)等重要生物醫學數據庫,可以說是無數科研人的數據「糧倉」。
圖片來源:NCBI 官網
GenBank 數據庫——作為 NCBI 精心打造并維護的一級核酸序列數據庫,匯聚并詳盡注釋了全球所有公開的核酸及蛋白序列信息。
其豐富數據源自全球科研工作者直接向 DNA 序列數據庫的積極貢獻,無論是作為研究論文的重要組成,還是直接公開的序列數據,GenBank 都為其提供了堅實的存儲與分享的平臺。
GenBank 數據庫的禁用對科研工作帶來了多方面的挑戰,中國科研人員將無法直接訪問 GenBank 數據庫中的受控數據,包括人類基因組數據、健康記錄等敏感信息。
這也將嚴重影響相關領域的研究進展,尤其是在精準醫學、遺傳學等領域。
圖片來源:GenBank 官網
dbGaP 數據庫——作為人類基因型-表型數據庫,存儲著全球最全面的人類基因組與表型關聯數據,覆蓋癌癥、罕見病等研究領域,中國約有 75% 的機制癌癥研究依賴于此平臺。
dbGaP 數據庫的禁用將使得中國科研人員無法直接訪問 dbGaP 數據庫中的受控數據,包括人類基因型與表型數據、疾病研究數據等敏感信息。
這將嚴重影響相關領域的研究進展,尤其是在遺傳學、癌癥研究等領域。
圖片來源:dbGaP 官網
ClinVar 數據庫——作為免費的公共數據庫,主要包含了人類遺傳變異及其與疾病的關系,全球有 2800 多個組織提交了 300 多萬種變異。
該數據庫此前進行了更新,包含三種分類類型:種系變異、致癌性和體細胞變異的臨床影響。
ClinVar 數據庫被廣泛運用于臨床遺傳學檢測實驗室、研究機構、專家組以及其他負責變異臨床意義分類的人員。尤為關鍵的是,該平臺為臨床遺傳學檢測實驗室搭建了數據共享的橋梁,使得原本可能永不公開的寶貴信息得以共享和傳播。
ClinVar 數據庫被禁用之后,醫生可能無法獲取這些關鍵數據,影響疾病的診斷和治療方案的制定,進而影響患者的治療效果和生活質量。
同時,由于無法獲取關鍵數據,一些新藥研發項目可能被迫延遲,導致預計損失增加。例如,藥明康德的新藥研發管線中,多個項目因無法獲取 ClinVar 數據而延遲,預計損失超過 20 億元。
圖片來源:ClinVar 官網
進行替代的國產數據庫
面對如此多的數據庫被禁用,應該如何破局?其實,國家基因庫已早有準備!中國在生物信息數據領域打造了自主可控的數據資源共享平臺 —— 國家基因庫生命大數據平臺(CNGBdb),為科研人員提供了堅實的數據支撐。以 CNGBdb 為代表的一批國產數據庫與平臺在成果發表和數據資源自主性方面均取得了顯著突破。
接下來,學霸君就帶大家認識更多的國產數據庫,為大家提供更多可替代性方案。
圖片來源:CNGBdb 官網
?CNGB 數據庫
https://db.cngb.org
中國國家基因庫 CNGB 作為我國自主研發且可控的公共核酸序列數據庫,為數據所有者提供了一個平臺,用以歸檔和公開共享各類數據,包括原始數據(如 fastq/bam 格式)、組裝數據(fasta 格式)、變異數據、代謝數據、單細胞數據以及時空組數據等。
圖片來源:CNGB 官網
此外,相關研究成果和數據也可以通過國家基因庫序列歸檔系統 CNSA 進行上傳與歸檔。
目前,CNSA 已經有近 18000TB 的數據總量!
圖片來源:CNSA 官網
該數據庫已獲得 CoreTrustSeal 全球核心可信存儲庫認證、FAIRsharing 國際認證,并被國際科研數據倉儲目錄 re3data 收錄。
此外,CNGB 支持向 Elsevier、Wiley、Taylor & Francis、Oxford、Cell Press、Science 等多個國際知名出版社和期刊系列投稿發文,所有提交至 CNGB 的數據均會進行 DOI 標識。
值得一提的是,CNGB 還成為國際科學理事會(ISC)世界數據系統(WDS)在生物信息領域的首個正式會員。
?NGDC 數據庫
https://ngdc.cncb.ac.cn
國家基因組科學數據中心 NGDC 數據庫,于 2019 年 6 月 5 日經科技部、財政部通知公布,由鮑一明研究員作為學術帶頭人。
以中國科學院北京基因組研究所(國家生物信息中心)作為依托單位,聯合中國科學院生物物理研究所和中國科學院上海營養與健康研究所共同建設。
旨在通過建立生命健康組學大數據儲存、整合與挖掘分析研究體系,研發生物多樣性與健康大數據匯交、應用與共享平臺,發展大數據系統解析與轉化應用的新技術和新方法,建設支撐我國生命科學發展、國際知名的基因組科學數據中心。
圖片來源:NGDC 官網
目前,NGDC 包括了基因組和變異、基因表達、非編碼 RNA、表觀基因組等多種類型的數據資源,共計歸檔數據 69.9PB,服務用戶超過 5822 萬。
其中,單是已產生腫瘤基因診斷數據就有約 160TB,腫瘤基因研究相關測序數據約為 1PB!在愈發重視數據安全的當下,大家在進行科研數據發表的時候,建議可以將 NGDC 作為上傳測序數據的首選!
圖片來源:NGDC 官網
?CHARLS 數據庫
https://charls.pku.edu.cn
中國健康與養老追蹤調查 CHARLS 數據庫由北京大學國家發展與研究院與北京大學中國社會科學調查中心共同發起。
旨在收集一套代表中國 45 歲及以上中老年人家庭和個人的高質量微觀數據,用以分析我國人口老齡化問題,推動老齡化問題的跨學科研究的調查。
圖片來源:CHARLS 官網
據官方統計,截至 2023 年 10 月底,已有超 8.8 萬名用戶注冊并下載了數據庫中的數據。
基于 CHARLS 的出版物也在迅速增加,截至 2023 年 9 月底,以 CHARLS 數據為基礎發表的論文 4,587 篇,其中英文期刊論文 2,079 篇,中文期刊論文 1,639 篇,學位論文 697 篇。
最近,來自北京大學等聯合團隊就基于 CHARLS 數據庫,調查了抗高血壓藥物的依從性、社會經濟地位和認知衰老之間的關聯,研究成果成功發表在中國科學院醫學一區 TOP 期刊《BMC Medicine》!
圖片來源:BMC Medicine
?CHNS 數據庫
https://www.cpc.unc.edu/projects/china
中國健康與營養調查數據庫 CHNS 是由美國北卡羅來納大學卡羅來納人口中心與中國疾病預防控制中心營養與健康所(原國家食品安全與營養所)合作開展的持續性開放隊列。
旨在評估健康信息、營養及計劃生育政策的效果,并探究我國社會經濟社會轉型對人口健康與營養狀況的影響。通過追蹤社區組織、項目以及家庭與個人經濟、人口和社會因素的變化,研究人員能夠衡量各種因素對營養健康行為及結果的動態影響。
圖片來源:CHNS 官網
CHNS 調查由一個國際研究團隊進行,他們的背景包括營養學、公共衛生、經濟學、社會學、中國研究和人口學。通過采用多階段隨機聚類過程,抽取了 15 個省市的約 7200 戶家庭和 30000 多人的樣本,這些家庭在地理、經濟發展、公共資源和健康指標方面差異很大。
調查的內容涉及健康學、營養學、社會學、人口學、經濟學、公共政策等多個學科,數據內容包括社區調查、家庭戶調查、個人調查、健康調查、營養和體質測驗等。CHNS 數據庫的創新性較高,適用于多種醫學領域研究,如健康與食物結構、吸煙影響、疾病趨勢等。
此前,來自浙江大學的研究團隊基于 CHNS 數據庫,探究了中國中老年人群中植物性飲食(PBD)和地球健康飲食(PHD)的環境負擔與死亡風險關系,研究成果成功發表在中國科學院醫學一區 TOP 期刊《Lancet Planet Health》!
圖片來源:Lancet Planet Health
?CFPS 數據庫
https://cfpsdata.pku.edu.cn
中國家庭追蹤調查(CFPS)數據庫是由北京大學中國社會科學調查中心(ISSS)實施調查,通過收集個體、家庭、社區等方面的微觀調查數據庫,采用計算機輔助調查技術開展訪問,以滿足多樣化的設計需求,提高訪問效率,保證數據質量,是北京大學和國家自然基金委資助的重大項目,也是國內最為權威的家庭層面微觀調查數據庫之一。
圖片來源:CFPS 官網
CFPS 的主體問卷包括村居問卷、家庭成員問卷、家庭問卷、少兒問卷和成人問卷五類。調查在社區、家庭和個人三個層面進行。
其核心目標是系統收集中國家庭、社區、個體三個層面的動態數據,展現中國社會經濟、人口、教育、健康等領域的變化。
圖片來源:CFPS 官網
近日,來自北京師范大學的研究團隊基于 CFPS 數據庫,探究了家庭沖突與青少年抑郁之間存在雙向惡性循環的關系,研究成果成功發表在中國科學院醫學二區期刊《Child and Adolescent Psychiatry and Mental Health》!
圖片來源:Child and Adolescent Psychiatry and Mental Health
除了上述的國產數據庫之外,以下數據庫也同樣可以幫助大家獲取大量的科研數據,大家可以自行訪問!
圖片來源:生物學霸
科研人都怎么看?
經歷此次事件,很多科研人也在網上發表了不同的看法:
網友 1:之前用國外的數據庫,上傳特別慢,每次學校斷網了還沒上傳好。現在用 CNSA,再也不用擔心斷網了,速度超快超穩!另外,CNSA 能引用序列號發文章,存儲空間要大,上傳、下載速度要快,安全靠譜而且免費!
網友 2:越卡脖子,獨立數據庫建得反而越快,就是會有陣痛期!
網友 3:作為一名從事基因編輯技術開發與應用研究的科研人員,數據庫就是我們最日常打交道的平臺。沒有數據信息共享,實際具體的科研工作很難開展。如果這些公共數據庫對我們都實施關停,那我們將不得不去尋找替代數據庫,而使用替代數據庫的研究可能會被質疑 「數據代表性不足」,如僅用中國生物銀行(China Kadoorie Biobank)數據發表的成果,在 SCI 期刊接收率將會下降。無法獲取 GTEx 正常組織表達譜,就會導致腫瘤特異性突變研究難以完成同行評審要求的對照實驗,而這些都會嚴重影響我們的學術產出。
網友 4:這一變化只是開始,未來一定有更多脫鉤政策出現。中國多年前就在未雨綢繆地建設本土數據庫。加大本土數據庫建設和使用,是中國科研圈的必然趨勢。
最后,也請大家及時做好應對策略,嘗試利用可替代數據庫和平臺,定期備份關鍵數據,最大限度降低封鎖帶來的影響。
題圖來源:圖蟲創意
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.