隨著計算社會科學這一新研究范式的出現,研究者可以依托大數據以及機器學習等新方法對人類行為和社會現象進行全景式描述,甚至對未來的走勢進行預測。但反觀用于“解釋”世界的因果推斷技術,卻因其固有的局限受到質疑,在學界出現了一種低估甚至否定因果推斷價值的觀點傾向。從方法論層面看,針對因果推斷的批評有其合理性,傳統的因果推斷方法在反事實框架構建、遺漏變量偏差、測量偏差三方面存在明顯缺陷,因而在對現象之間的聯系作出準確估計時會存在問題。不過,隨著人工智能(AI)時代的來臨,大語言模型這一突破性的AI技術可以通過三種路徑來彌補傳統因果推斷方法的既有缺陷,從而為研究者解釋世界提供強大助力。
路徑一:通過構建虛擬實驗對象完善反事實框架
因果推斷建立在反事實框架之上。在反事實框架中,個體具有一個反事實結果,即發生/不發生某個干預或處理產生的潛在結果。研究者通過對比個體在干預和未干預狀態下的結果來作出因果推斷。但在真實世界中,研究者無法同時觀測到上述兩種結果,這使得反事實框架難以建立,從而降低因果推斷的效力。為了解決這一難題,研究者通常將控制組的觀測結果近似等同于處理組的反事實結果。顯然,這需要假定控制組的觀測結果與處理組的反事實結果之間的差異可被忽略,即滿足可忽略性假設。在實際研究中,實驗法能通過隨機分配滿足可忽略性假設,但在研究倫理和實驗成本的約束下,實驗的干預和邊界均會受到限制。
大語言模型相比于傳統因果推斷方法的最大優勢是可以構建虛擬實驗對象,這使得研究者可以完善反事實框架,進而作出更加精準的因果推斷。相關研究表明,大語言模型所構建的虛擬實驗對象不僅可以復現行為經濟學和心理學的經典研究,而且能夠通過任意設定實驗對象的特征進行拓展研究。這不僅節省了開展實驗所需的經濟和時間成本,而且避免了以真實個體為對象開展實驗所涉及的倫理規范問題。更為重要的是,針對敏感群體開展的研究通常面臨著接觸難度大、社會期望偏差等難題。而大語言模型則可以通過海量文本數據訓練來模擬敏感群體的認知、情感和行為,進而拓展實驗邊界。
路徑二:通過豐富研究變量來糾正遺漏變量偏差
傳統研究方法對觀察數據滿足可忽略性假設的要求,通常也意味著研究潛藏著遺漏變量偏差、選擇偏差、聯立性偏差以及測量偏差四種內生性問題。其中,遺漏變量偏差可以被劃分為遺漏可觀測變量偏差和遺漏不可觀測變量偏差。大語言模型可以從以下兩個方面糾正遺漏可觀測變量帶來的偏差,進而提高因果推斷效力。
一方面,大語言模型可以從文本數據中精確提取傳統文本分析方法難以獲取的變量。傳統文本分析方法通常被劃分為詞典法和機器學習法。具體而言,詞典法利用預先設定的詞典計算文本中目標詞頻,進而對比目標詞頻差異完成分類。機器學習法則借助人工標注的數據集訓練模型,以使模型完成分類。然而,上述兩種方法均存在一定局限:前者過于依賴預先設定的詞典,后者則難以完全排除數據標注員的主觀偏見。這使得傳統文本分析方法難以精準提取深層次的文本信息,尤其在提取觀念、態度等主觀變量時,局限更加明顯。與之相比,大語言模型能夠直接分析文本全文、考慮文本情境以及推理文本意圖,進而精確提取出潛在變量。此外,大語言模型從長文本數據中提取變量的表現同樣優秀。例如,有學者運用ChatGPT大語言模型來分析社交媒體用戶的發言以及更新狀態,并從中提取關于人格特質的信息,由此可以準確推斷用戶的心理傾向。
另一方面,大語言模型可以從語言、圖片以及視頻等非文本的多模態數據中提取變量。其中,圖片數據得到醫學領域的重點關注。國外學者發現,大語言模型在通過病理報告預訓練后能夠解讀病理學圖像,進而提取腫瘤位置、等級以及發展階段等信息,并且解讀的正確率超過87%。當然,也有研究發現,不同類型的大語言模型在提取病征時的準確率存在差異,需要研究者有所甄別。
路徑三:通過優化數據處理過程來降低測量偏差
測量偏差是造成因果推斷失效的另一個原因。測量偏差是指變量的觀測值與真實值之間的偏差。當因變量存在測量偏差時,系數估計值可能會不顯著,從而降低因果推斷的有效性。而當自變量存在測量偏差時,因果推斷的無偏性會受到影響,即系數估計值偏離真實值。優化數據處理是大語言模型的重要功能,它可以從三個方面來降低測量偏差。
首先,大語言模型能夠提高分詞的正確率。傳統的分詞工具依賴人工編制的詞典,難以識別所有的專業術語。而大語言模型依托龐大的訓練數據構建了覆蓋全領域知識庫,能夠正確提取出不同領域的專業術語,進而降低測量偏差。
其次,大語言模型可以提高實體匹配的準確率。文本數據普遍存在多國語言混雜等對同一實體的多樣化表述。這種多樣化表述可能會產生偏差,進而影響主題分類的準確性。研究表明,大語言模型能夠捕捉到相關的多國語言信息,統一這些表述,從而降低測量偏差。
最后,大語言模型能夠通過上下文分析和概率預測,準確糾正拼寫錯誤,確保文本分類的準確性。
需要說明的是,現階段的大語言模型仍然無法在根本上克服因果推斷的內在局限。這是因為大語言模型存在可重復性差和知識截止兩方面的技術缺陷:前者是指大語言模型采用的隨機采樣機制可能導致新的輸出結果與原有結果不一致;后者是指大語言模型的訓練數據存在截止日期,這意味其可能無法精準識別新興領域的專業術語。不過,上述缺陷也為改進大語言模型提供了明確指引。而且,隨著算力的不斷增強以及算法的不斷更新,大語言模型將以指數級速度進行迭代,其既有的技術缺陷有望得到彌補,從而可以為因果推斷提供更強大的助力。
作者系哈爾濱工程大學人文社會科學學院教授
來源:中國社會科學報
責任編輯:李文珍
新媒體編輯:張雨楠
如需交流可聯系我們
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.