99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

大語言模型助力因果推斷三路徑

0
分享至


隨著計算社會科學這一新研究范式的出現,研究者可以依托大數據以及機器學習等新方法對人類行為和社會現象進行全景式描述,甚至對未來的走勢進行預測。但反觀用于“解釋”世界的因果推斷技術,卻因其固有的局限受到質疑,在學界出現了一種低估甚至否定因果推斷價值的觀點傾向。從方法論層面看,針對因果推斷的批評有其合理性,傳統的因果推斷方法在反事實框架構建、遺漏變量偏差、測量偏差三方面存在明顯缺陷,因而在對現象之間的聯系作出準確估計時會存在問題。不過,隨著人工智能(AI)時代的來臨,大語言模型這一突破性的AI技術可以通過三種路徑來彌補傳統因果推斷方法的既有缺陷,從而為研究者解釋世界提供強大助力。

路徑一:通過構建虛擬實驗對象完善反事實框架

因果推斷建立在反事實框架之上。在反事實框架中,個體具有一個反事實結果,即發生/不發生某個干預或處理產生的潛在結果。研究者通過對比個體在干預和未干預狀態下的結果來作出因果推斷。但在真實世界中,研究者無法同時觀測到上述兩種結果,這使得反事實框架難以建立,從而降低因果推斷的效力。為了解決這一難題,研究者通常將控制組的觀測結果近似等同于處理組的反事實結果。顯然,這需要假定控制組的觀測結果與處理組的反事實結果之間的差異可被忽略,即滿足可忽略性假設。在實際研究中,實驗法能通過隨機分配滿足可忽略性假設,但在研究倫理和實驗成本的約束下,實驗的干預和邊界均會受到限制。

大語言模型相比于傳統因果推斷方法的最大優勢是可以構建虛擬實驗對象,這使得研究者可以完善反事實框架,進而作出更加精準的因果推斷。相關研究表明,大語言模型所構建的虛擬實驗對象不僅可以復現行為經濟學和心理學的經典研究,而且能夠通過任意設定實驗對象的特征進行拓展研究。這不僅節省了開展實驗所需的經濟和時間成本,而且避免了以真實個體為對象開展實驗所涉及的倫理規范問題。更為重要的是,針對敏感群體開展的研究通常面臨著接觸難度大、社會期望偏差等難題。而大語言模型則可以通過海量文本數據訓練來模擬敏感群體的認知、情感和行為,進而拓展實驗邊界。

路徑二:通過豐富研究變量來糾正遺漏變量偏差

傳統研究方法對觀察數據滿足可忽略性假設的要求,通常也意味著研究潛藏著遺漏變量偏差、選擇偏差、聯立性偏差以及測量偏差四種內生性問題。其中,遺漏變量偏差可以被劃分為遺漏可觀測變量偏差和遺漏不可觀測變量偏差。大語言模型可以從以下兩個方面糾正遺漏可觀測變量帶來的偏差,進而提高因果推斷效力。

一方面,大語言模型可以從文本數據中精確提取傳統文本分析方法難以獲取的變量。傳統文本分析方法通常被劃分為詞典法和機器學習法。具體而言,詞典法利用預先設定的詞典計算文本中目標詞頻,進而對比目標詞頻差異完成分類。機器學習法則借助人工標注的數據集訓練模型,以使模型完成分類。然而,上述兩種方法均存在一定局限:前者過于依賴預先設定的詞典,后者則難以完全排除數據標注員的主觀偏見。這使得傳統文本分析方法難以精準提取深層次的文本信息,尤其在提取觀念、態度等主觀變量時,局限更加明顯。與之相比,大語言模型能夠直接分析文本全文、考慮文本情境以及推理文本意圖,進而精確提取出潛在變量。此外,大語言模型從長文本數據中提取變量的表現同樣優秀。例如,有學者運用ChatGPT大語言模型來分析社交媒體用戶的發言以及更新狀態,并從中提取關于人格特質的信息,由此可以準確推斷用戶的心理傾向。

另一方面,大語言模型可以從語言、圖片以及視頻等非文本的多模態數據中提取變量。其中,圖片數據得到醫學領域的重點關注。國外學者發現,大語言模型在通過病理報告預訓練后能夠解讀病理學圖像,進而提取腫瘤位置、等級以及發展階段等信息,并且解讀的正確率超過87%。當然,也有研究發現,不同類型的大語言模型在提取病征時的準確率存在差異,需要研究者有所甄別。

路徑三:通過優化數據處理過程來降低測量偏差

測量偏差是造成因果推斷失效的另一個原因。測量偏差是指變量的觀測值與真實值之間的偏差。當因變量存在測量偏差時,系數估計值可能會不顯著,從而降低因果推斷的有效性。而當自變量存在測量偏差時,因果推斷的無偏性會受到影響,即系數估計值偏離真實值。優化數據處理是大語言模型的重要功能,它可以從三個方面來降低測量偏差。

首先,大語言模型能夠提高分詞的正確率。傳統的分詞工具依賴人工編制的詞典,難以識別所有的專業術語。而大語言模型依托龐大的訓練數據構建了覆蓋全領域知識庫,能夠正確提取出不同領域的專業術語,進而降低測量偏差。

其次,大語言模型可以提高實體匹配的準確率。文本數據普遍存在多國語言混雜等對同一實體的多樣化表述。這種多樣化表述可能會產生偏差,進而影響主題分類的準確性。研究表明,大語言模型能夠捕捉到相關的多國語言信息,統一這些表述,從而降低測量偏差。

最后,大語言模型能夠通過上下文分析和概率預測,準確糾正拼寫錯誤,確保文本分類的準確性。

需要說明的是,現階段的大語言模型仍然無法在根本上克服因果推斷的內在局限。這是因為大語言模型存在可重復性差和知識截止兩方面的技術缺陷:前者是指大語言模型采用的隨機采樣機制可能導致新的輸出結果與原有結果不一致;后者是指大語言模型的訓練數據存在截止日期,這意味其可能無法精準識別新興領域的專業術語。不過,上述缺陷也為改進大語言模型提供了明確指引。而且,隨著算力的不斷增強以及算法的不斷更新,大語言模型將以指數級速度進行迭代,其既有的技術缺陷有望得到彌補,從而可以為因果推斷提供更強大的助力。

作者系哈爾濱工程大學人文社會科學學院教授

來源:中國社會科學報

責任編輯:李文珍

新媒體編輯:張雨楠

如需交流可聯系我們

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
華為完成巨額融資!

華為完成巨額融資!

中國半導體論壇
2025-04-15 20:29:38
有曼聯球迷認識他嗎?當年的曼聯小鮮肉門將,現在是建筑公司老板

有曼聯球迷認識他嗎?當年的曼聯小鮮肉門將,現在是建筑公司老板

仰臥撐FTUer
2025-04-16 12:37:13
武岡二中國家二級保護300年銀杏被砍,教務處:砍樹者已經被刑拘

武岡二中國家二級保護300年銀杏被砍,教務處:砍樹者已經被刑拘

正在新聞
2025-04-15 13:42:15
托蒂:我唯一的遺憾是沒和大羅一起踢球,我認為他比C羅&梅西更強

托蒂:我唯一的遺憾是沒和大羅一起踢球,我認為他比C羅&梅西更強

直播吧
2025-04-16 08:24:45
42歲胡歌患肺癌在北京住院,時日無多想多陪女兒?工作室回應了

42歲胡歌患肺癌在北京住院,時日無多想多陪女兒?工作室回應了

慎獨贏
2025-02-24 23:56:51
阿森納傳奇凱文?坎貝爾離世前多器官衰竭,四個月體重驟降127斤

阿森納傳奇凱文?坎貝爾離世前多器官衰竭,四個月體重驟降127斤

仰臥撐FTUer
2025-04-15 18:05:10
16歲王詩齡在北京別墅內畫畫,戴金鐲子很富貴,畫的看不出是什么

16歲王詩齡在北京別墅內畫畫,戴金鐲子很富貴,畫的看不出是什么

西瓜愛娛娛
2025-04-16 14:21:05
男子花費88萬,包酒店頂層為87歲老母慶生,事后母子雙雙跳樓

男子花費88萬,包酒店頂層為87歲老母慶生,事后母子雙雙跳樓

罪案洞察者
2025-04-11 16:23:36
A股:中美關稅,9家利好企業(值得收藏)

A股:中美關稅,9家利好企業(值得收藏)

小波股事歷程
2025-04-16 03:15:58
郭艾倫后悔!為奪冠想離開廣州,僅剩1年合同,遼籃、廣東都不要

郭艾倫后悔!為奪冠想離開廣州,僅剩1年合同,遼籃、廣東都不要

體壇大事記
2025-04-16 17:02:54
證券利好來了,剛剛一條消息讓2億股民沸騰!A股要一飛沖天嗎

證券利好來了,剛剛一條消息讓2億股民沸騰!A股要一飛沖天嗎

悠然安晴
2025-04-16 11:36:53
李在明老婆雨中獨自撐傘,她皮膚白皙氣質出眾,她比金建希漂亮!

李在明老婆雨中獨自撐傘,她皮膚白皙氣質出眾,她比金建希漂亮!

娛樂看阿敞
2025-04-15 13:36:26
留口氣持續收割,哪吒汽車把資本的壞玩到了極致……

留口氣持續收割,哪吒汽車把資本的壞玩到了極致……

柴狗夫斯基
2025-04-15 12:00:55
4月15日俄烏:特朗普指責澤連斯基發動戰爭,烏軍襲擊俄導彈基地

4月15日俄烏:特朗普指責澤連斯基發動戰爭,烏軍襲擊俄導彈基地

山河路口
2025-04-15 17:08:33
山西訂婚強奸案二審駁回上訴,網友為何質疑處女膜?

山西訂婚強奸案二審駁回上訴,網友為何質疑處女膜?

合贊歷史
2025-04-16 13:52:02
取消1.9萬億出口退稅,利大于弊

取消1.9萬億出口退稅,利大于弊

克萊恩財經
2025-04-14 23:08:28
王藝迪小組出局,賽后發言有點可怕:頭腦清晰,還有自己的打算

王藝迪小組出局,賽后發言有點可怕:頭腦清晰,還有自己的打算

郝小小看體育
2025-04-16 13:07:42
中方亮出底牌后,美打破沉默:中方應盡快恢復供應,否則自損聲譽

中方亮出底牌后,美打破沉默:中方應盡快恢復供應,否則自損聲譽

小笛科技
2025-04-15 08:20:09
孫穎莎連贏兩場順利晉級,因無縫球難打爆粗口,說完當即不好意思

孫穎莎連贏兩場順利晉級,因無縫球難打爆粗口,說完當即不好意思

鳳幻洋
2025-04-16 15:27:57
美軍高層:若中國在臺海劃設禁飛區,美軍將摧毀解放軍艦艇

美軍高層:若中國在臺海劃設禁飛區,美軍將摧毀解放軍艦艇

書中自有顏如玉
2025-04-16 13:13:05
2025-04-16 17:56:49
中國社會科學網 incentive-icons
中國社會科學網
中國社會科學院官方網站
16712文章數 25512關注度
往期回顧 全部

科技要聞

華為問界M8售價公布:36.98萬元起

頭條要聞

訂婚強奸案細節:男方不認罪 其母公布女方隱私遭訓誡

頭條要聞

訂婚強奸案細節:男方不認罪 其母公布女方隱私遭訓誡

體育要聞

諾坎普奇跡的兩位當事人,差點靈魂互換

娛樂要聞

娛樂圈的“現實”在岳云鵬身上應驗了

財經要聞

一季度GDP同比增長5.4%!

汽車要聞

又帥又快超實用 極氪007GT獵裝車才是完美的車?

態度原創

手機
旅游
游戲
本地
公開課

手機要聞

Samsung Auto正在中國率先推出 成Android Auto和CarPlay的新競爭對手

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

數毛社測評Switch2被噴:性能竟和PS4相提并論?

本地新聞

云游湖北 | 七仙女都愛的山水,雙峰米酒一口上頭

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 崇左市| 如皋市| 奉新县| 靖安县| 南充市| 陆川县| 南部县| 民乐县| 龙海市| 宝丰县| 西乡县| 喀喇| 惠安县| 灵宝市| 蒙山县| 江孜县| 仲巴县| 茌平县| 诏安县| 裕民县| 吴忠市| 汉中市| 汉源县| 城口县| 丰顺县| 辰溪县| 聊城市| 天镇县| 大名县| 安塞县| 屯昌县| 平阴县| 昔阳县| 马边| 萨嘎县| 高邮市| 延庆县| 永平县| 恩平市| 建阳市| 稻城县|