隨著計算社會科學研究方法的快速發展,數字化技術和大模型在學術研究和商業領域的應用日益增多。一種觀點認為,基于大數據的分析方法主要使用相關關系,因此在大數據時代應該拋下對因果關系的執著,轉而去關注更加簡單易得的相關關系。這種觀點看似有一定道理,實則是片面和錯誤的。無論在哪個時代,探索相關關系和因果關系都是科學研究不可偏廢的兩個目標。大數據時代不僅對因果分析提出了新的訴求,而且為完善因果分析提供了新的機遇。
01
大數據研究也需要因果解釋
從研究目的的角度看,社會科學研究可分為描述研究、解釋研究和預測研究三類。描述性研究主要回答“是什么”的問題,這類研究通常借助有代表性的調查數據或大數據,描摹現象的特征和趨勢,分析變量間的關聯模式及其時空差異;解釋性研究主要回答“為什么”的問題,這類研究通常借助統計方法和因果推理,揭示變量間的因果關系,解釋推動事物發展的過程和機制;預測性研究主要回答“未來會怎樣”的問題,這類研究通常基于歷史數據總結規律和模式,據此推測事物的未來趨勢或事件發生的概率。根據上述分類框架,當前大數據研究的主要目的是描述和預測,但這不代表大數據研究不需要因果解釋。
首先,對那些描述性的大數據研究來說,通過大數據確實可以挖掘出很多關聯和模式,但這些關聯和模式有可能是虛假的,缺乏實際意義,而因果解釋可以幫助區分真實的關系和虛假的關聯。例如,對健康大數據進行分析可能發現“冰淇淋銷量與中暑人數呈正相關”。如果僅停留在描述層面,可能會得出“吃冰淇淋導致中暑”的錯誤結論。實際上,兩者都是高溫天氣的結果。因果解釋可以揭示真正的驅動因素是氣溫,從而避免誤導性結論。此外,描述性的大數據研究只能呈現現象的表面特征,而因果解釋能夠揭示現象背后的機制,幫助研究者更深入地理解問題。例如,對教育大數據進行分析可能發現“學生使用電子設備的時間與學業成績呈負相關”。如果僅描述這一現象,可能會得出“減少電子設備使用能提高成績”的結論。但因果解釋可能揭示出家庭經濟條件、學習習慣等混雜因素的影響,從而提供更準確的建議。
其次,對那些預測性的大數據研究來說,僅依賴相關性構建的預測模型可能在實際情況發生變化時失效,而因果解釋可以幫助識別穩定的因果關系,提高模型的通用性。以大數據研究中一度引以為傲的谷歌流感趨勢預測為例,該預測基于谷歌搜索引擎大數據和機器學習算法成功預測出了美國2009年前后流感的發展趨勢,其結果在準確性上與美國疾控中心的調查結果相當。但是,在2011年以后,該預測開始系統性地高估美國的流感發生率,部分時期的預測結果甚至是美國疾控中心調查結果的兩倍。一些學者就此對谷歌流感發展趨勢預測的準確性提出質疑。但面對質疑,谷歌公司的技術人員卻有些束手無策,因為他們使用的預測模型完全是一個“黑箱”,這導致模型的開發者也不清楚預測模型為何出錯、什么時候會出錯,以及如何糾正這些錯誤。
最后,在法律、金融、醫療等許多應用領域,基于大數據的預測模型不僅需要高精度,還需要可解釋性。因果解釋則可以幫助理解模型的決策邏輯,增強用戶信任。以人工智能技術在醫療領域的應用為例,研究發現,很多醫生拒絕采納基于醫療大數據的預測模型給出的診斷結果。其中一個重要原因是這些預測模型的診斷機制不明,而如果預測模型在給出診斷結果的同時提供診斷依據和機制,醫生采納的可能性會大幅提高。
由上可見,缺乏可解釋性和透明度是大模型在應用推廣過程中不可忽視的一大阻礙。雖然預測可能只需使用相關關系,但要讓預測結果更科學、合理及可接受,必須給出因果解釋。基于大數據的社會預測在突出相關性的同時,不應排斥因果性。實際上這類應用對因果性提出了更高的要求,而當下主流的大數據研究方法尚不能很好地回應這些要求。
02
大數據研究可以助力因果推斷
大數據研究不僅需要因果分析,而且可以通過提供豐富的數據來源、支持精細的變量控制、拓展因果推斷工具和方法、支持動態因果分析等途徑,顯著提高因果推斷的可信度和可靠性。
第一,大數據涵蓋多種數據類型(如結構化數據、文本、圖像、傳感器數據等),而且通常具有更高的時間分辨率和空間覆蓋率,這些數據可以幫助研究者更全面地捕捉因果關系中的復雜因素。例如,淘寶、京東等電商平臺通過融合用戶的購買歷史、瀏覽記錄、搜索關鍵詞等文本數據,以及用戶的點擊行為、購買行為等傳感數據,借助因果推斷模型優化用戶推薦算法。
第二,大數據通常包含更多的變量和更細粒度的信息,這使得研究者能夠更好地控制混雜變量,從而更準確地識別因果關系。例如,在教育領域,有研究者利用學生的學習行為數據(如在線學習平臺的點擊流數據、作業完成情況、考試分數等),分析不同教學策略對學生成績的影響。通過控制學生的背景特征(如家庭經濟狀況、學習習慣等),可以更準確地推斷出教學策略的因果效應。
第三,大數據研究為因果推斷提供了更多的工具和方法,如因果森林、雙重機器學習等,這些方法可以更好地處理高維數據和非線性的因果關系。例如,有研究者利用電商平臺的交易數據,分析促銷活動對銷售額的影響。通過使用雙重機器學習方法,可以在控制其他影響因素(如季節性、市場競爭等)的同時,準確估計促銷活動的因果效應。
第四,大數據通常具有時間序列特性,因而能夠天然地捕捉變量間的動態關系,這對分析因果關系的時效性和滯后效應非常重要。例如,在環境科學領域,有研究者利用氣象傳感器數據和空氣質量監測數據,分析空氣污染與氣象條件之間的動態因果關系。通過分析風速、濕度和污染物濃度的時序數據,可以推斷出氣象條件對空氣污染的因果影響。
03
大數據研究推動因果分析范式轉型
在提升因果推斷的可靠性之外,大數據研究也對當前主流的因果分析范式提出了挑戰,有可能在多個方面推動未來因果分析范式的轉型。
首先,從“理論驅動”到“理論和數據雙重驅動”。傳統因果分析通常是理論驅動的,即先提出假設,再通過數據驗證。而大數據推動了數據驅動的研究范式,即通過數據挖掘發現潛在的因果關系,再結合理論進行解釋。近年來,有學者提出了“計算扎根”的概念,認為在大數據時代,社會科學研究者要善于從紛繁蕪雜的數據中發現因果關系,提出因果理論。計算扎根或數據驅動的因果分析方法很可能會成為未來因果分析的一個重要方向,值得進一步關注。
其次,從側重“因果識別”到更關注“機制解釋”。傳統因果分析主要致力于使用實驗或統計方法識別自變量對因變量的影響大小,缺乏對因果機制的深入解釋。但在大數據時代,機制解釋的重要性可能會大幅提高。例如在很多基于大數據的預測研究中,研究者已經可以找到一個預測效果不錯的模型,但無法對模型的預測機理給出合理解釋。因此,如何打開預測模型背后的“黑箱”,提高模型的透明度和可解釋性勢必會成為未來因果分析的一個重要研究方向。
最后,從“由因溯果”到“由果溯因”。傳統因果分析主要關注某個原因變量對結果變量的平均影響,較少分析某個特定結果是如何由眾多原因變量共同導致的。在大數據時代,預測研究得到空前發展,從提高預測準確性的角度看,僅關注單一原因變量是不夠的,因此未來的因果分析勢必要研究更加復雜的因果網絡,以求更加全面地揭示對結果有影響的所有原因。
綜上所述,大數據時代的到來并沒有否定因果分析的價值,而是為拓展傳統的因果分析方法提供了很多機遇。因果思維是人類認識世界的核心要求,認為相關關系重于因果關系是對大數據分析技術的夸大和誤解,絕非大數據自身的訴求。在大數據時代,人們一方面需要依靠數據和算法提供更有預測性的結論,為決策提供依據;但另一方面也要避免數據的傲慢和算法的操控,為個體自由提供空間。這兩方面的要求都需要我們重拾因果分析的重要性。在大數據時代,因果分析不僅依然重要,而且比以往任何一個時代都更加重要。
(作者系南京大學社會學院教授)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.