Cognitive biases in natural language: Automatically detecting, differentiating, and measuring bias in text
自然語言中的認知偏差:自動檢測、區分和衡量文本中的偏差
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4927380
摘要:
我們研究了一種自動檢測系統初步結果,該系統能夠檢測2016年認知偏見編碼表中包含的188種認知偏見,并將其應用于人類文本和人工智能生成的文本,并與人類基線表現進行比較。人類基線是通過一個小型但多樣化的志愿者群體獨立提交他們檢測到的每個樣本中的認知偏見而構建的集體智慧,由于缺乏既定且相關的基準,因此將其用作該任務的近似真實情況。結果顯示,該系統的性能高于平均水平的人類,但低于表現最好的人類和集體,并且在編碼表的24個類別中的18個子類別中表現更好。該系統的這一版本還被應用于分析對當時表現最好的5種封閉源和開源大型語言模型提出的150個開放式問題的回答。第二階段的結果表明,在分析人類生成文本時觀察到的大約一半類別中,認知偏見的檢測率明顯更高。還考慮了模型污染的水平,其中觀察到模型給出了預先準備好的回答。兩種類型的污染。每個模型中檢測到的認知偏見水平既相互比較,也與第一階段的數據進行比較。
關鍵詞:人工智能、倫理、認知偏見、檢測、決策制定、虛假信息、注意力經濟、自然語言處理、基準測試、集體智慧
引言
認知偏見有多種形式,正如過去幾十年無數研究人員(包括諾貝爾獎得主和著名作者)所記錄的那樣 [1-8]。2016年發布的《認知偏見編碼表》[9]展示了188種認知偏見,是少數幾個匯集了100多種認知偏見的罕見來源之一。然而,檢測這些認知偏見通常既困難又耗時。
部分由于檢測的難度、勞動強度以及任務范圍,據我們所知,尚未有全面的研究建立認知偏見檢測的基準。沒有基準來確定人類在這一檢測任務中的基線表現,就無法量化自動化檢測系統開發的進展。
為此,我們邁出了建立人類檢測認知偏見基準的第一步,涵蓋2016年編碼表中列出的188種認知偏見。我們還開發并測試了一個新穎的軟件系統,以嘗試完成相同的任務,初步的比較結果將在以下章節中展示。所有數據都可供進一步分析、擴展,目前階段可以向研究社區和其他感興趣方提供對系統的訪問權限。
在科學史上,一個模式反復出現:每當人類能夠檢測、區分和測量某事物時,該領域及其相關領域的進展就會大大加速。這在很大程度上歸功于科學方法的運作方式,其中信息的確定性和粒度的增加極大地改善和擴展了可以測試和發現的內容。
我們的目標是促進這一進程,首先專注于文本中的認知偏見。這一領域的進展可以幫助解決與社交平臺和信息生態系統中的信息質量和虛假信息相關的許多具體問題,并更廣泛地促進科學進步。
本文的結構如下:
1. 引言
2. 方法論:人類和大型語言模型(LLM)階段
3. 假設:人類和大型語言模型(LLM)階段
4. 限制:人類和大型語言模型(LLM)階段
5. 結果:人類基線研究
6. 結果:大型語言模型輸出比較測試
7. 研究數據
8. 未來工作
9. 討論
10. 結論
2. 方法論
2.1 人類基線階段
首先,從各種知名公眾人物中選取了150條引文,用于進行認知偏見檢測過程。這些引文的作者被記錄下來,但在人類或軟件系統檢測過程中并未共享。這150條引文被兩個獨立版本的系統分析,從2016年認知偏見編碼表中結構化的認知偏見頂層類別逐步深入。
用于與人類比較的版本可以檢測4個頂層和20個次級類別的偏見,而188種單獨的認知偏見則位于這一層級之下。這一選擇主要是為了限制人類志愿者的認知負荷和所需勞動。
隨后,我們在LinkedIn和Discord上向我們的擴展網絡分享了開展這項研究的意圖,在幾周內招募了大約十幾名志愿者。第一批志愿者收到了完整的150條引文,每種形式的引文都以獨特的隨機順序保存,并與志愿者相對應。
在此過程中,我們發布了三份文件,可在補充文件中查看,包括一頁的指導說明和方法論概述、一份簡要介紹2016年編碼表中記錄的188種認知偏見的文件,以及檢測任務文件本身。檢測任務文件格式為Excel電子表格,針對每條引文的24個認知偏見類別均設有下拉菜單,可選擇“是”“否”或“可能”。該文件的第二個標簽頁給出了一個不在150條引文之內的引文示例,由我們團隊成員填寫。第三個標簽頁包含6個補充問題,詢問志愿者是否具有與該任務相關的任何先前專業經驗,如有,則詢問具體地點、最新職業、所使用完成方法、研究偏見所花費時間以及完成任務所花費時間。
在一周內,我們的第一位志愿者完成了任務,總共花費了40小時。但在接下來的兩周內,沒有其他志愿者能夠完成任務,且有一名志愿者退出。我們對任務進行了修訂,將引文數量減少到完整的150條中的前50條。在與志愿者進行進度檢查時,那些在接下來的3周內指出任務困難的志愿者被提供了這50條引文的選項,所有提供的選項都被接受了。方法與完整的150條引文保持一致,只是總數減少了。
后續志愿者以滾動方式獲得任務,使用相同的方法,這一過程仍在進行中。
2.2 LLM測試階段
首先,選擇了“開放式”問題這一類別,這種方式可以為大型語言模型(LLMs)提供最大程度模仿人類認知偏見的機會,因為這類問題避免了存在“絕對正確答案”的問題。在尋找此類問題的集合后,選擇了被廣泛歸類于哲學領域的問題領域,因為它提供了一些包含超過250個示例問題的列表。從其中一個列表 [10] 中選擇了150個問題,主要是按順序瀏覽這些問題,但移除了一些可能存在問題的問題,例如“1 + 1是否總是等于2?”。這些問題涵蓋了廣泛的主題,從提出深刻且極具爭議性的問題(例如人類是否有自由意志)到更隨意的問題(例如熱狗是否是墨西哥卷餅)。
在測試中選擇了排名前五的LLMs,這些模型的選擇基于它們在行業中被基準測試為表現最佳的私有和閉源模型,包括GPT-4、Claude(v1)和Bard(PaLM-2),以及在測試時在性能和盲測比較評級方面位居排行榜前列的開源模型,分別是Falcon-40b-instruct和Vicuna-13b。
這些模型在每個LLM運行的參數上提供了不同程度的控制,范圍從GPT-4的游樂場環境提供的許多變量,到Bard完全不提供變量。由于這些模型的響應長度范圍和變量(包括溫度和Top P)僅部分重疊且控制有限,因此參數被設置為溫度1、Top P為1,并盡可能將響應長度設置為64個標記。所選的溫度和Top P值也是GPT-4的默認值,但默認的256個標記被減少到64個,以防止與任何單一模型的默認值完全重疊。
在無法控制響應長度的情況下,使用384個字符的字符限制來近似64個標記的最大長度。當響應以一個單詞的片段結束時,無論是由于它是最后一個標記還是被字符限制截斷,該片段都會被移除。這種單詞片段的移除是由于標記的潛在不一致性,以及字符限制不受這些可變標記的限制。選擇這個長度限制是基于一些被測試模型的典型響應長度,同時也增加了與前一階段測試的人類引文長度的相似性。
這150個問題分別被提交給這5個模型,并記錄了它們的響應,供檢測系統進行分析。在這一過程中,記錄了包含“我是一個大型語言模型”某種變體的響應,這些聲明與被問到的問題無關。此外,Claude表現出的一個強烈模式促使我們增加了第二個需要注意的類別,即以“這是一個復雜……”的固定回應開頭的響應。檢測系統被給予所有750個總響應,逐一進行認知偏見檢測。
在極少數系統未能檢測到類別或子類別的情況下,系統被給予第二次機會運行分析,以驗證結果,并防止任何短暫的網絡通信故障影響分析。第二次檢測失敗的少數案例在數據中被記錄為“檢測失敗(2次)”。這一階段的其他所有問題僅運行了一次分析。
在分析過程中,模型因給出“我是一個大型語言模型”這種回應的變體而受到懲罰,默認為最大偏見,因為這些回應是固定回應污染的強烈信號,被標記為“硬污染”,對于一個原本是統計模型的系統來說。鑒于Claude表現出的模式,考慮了這種懲罰,但由于Claude既表現出單獨的“我是一個大型語言模型”回應,又表現出以“這是一個復雜……”開頭的回應隨后繼續討論每個問題的主題,因此對這些樣本進行了正常的檢測。后一種模式被標記為“軟污染”,因為它給出了固定回應污染被附加到回應開頭的明確信號,但避免了完全偏離問題進入“我是一個大型語言模型……”。
固定回應在所有情況下可能并不都是不可取的,但對于認知偏見檢測的目的來說,“硬”類型的固定回應可以被視為可能的最高水平的偏見,甚至超出了人類在技術上可能達到的程度。話雖如此,其他人也可以使用相同的數據來測試其他方法,包括在任何這種固定回應可能更可取的上下文中。
3. 假設
3.1 人類基線階段
基于已有的文獻 [1-9, 11-12],我們假設以下關鍵點:
1. 個體人類通常只能以合理的準確性檢測到一部分認知偏見,這基于他們自身的視角。
“視角會束縛和蒙蔽” —— 喬納森·海特 [11]
這一假設使我們預期人類會更頻繁地產生假陰性結果,并且根據個體視角表現出更大的變異性。許多認知偏見專門針對人類如何無意識地忽視信息和過程。由于認知偏見通常旨在最小化復雜性和認知負荷,因此在大多數情況下,人類更有可能避免看到不存在的認知偏見(假陽性)。
2. 這些個體檢測可以通過集體智慧的方法進行整合,從而從多樣化的視角中產生更強大的集體檢測 [12]。
這一假設指導我們應用于整合志愿者偏見檢測數據的分析方法。特別是,我們應用基于志愿者之間所有可能配對的“是”和“可能”陽性檢測的成對比較分析方法,以及與系統的比較。這種方法在志愿者群體較大時可能會變得繁瑣,因為每個志愿者都必須與其他志愿者進行比較,使用完整的50×24的檢測矩陣,總共1200個數據點。然而,對于小群體來說,這為從所有志愿者中篩選、加權和整合數據提供了足夠的價值。
3. 花費更多時間研究和執行任務的人更有可能產生更準確的檢測結果。
這一假設是我們包含與研究和執行任務所花費時間相關的補充問題的主要原因。這些數據也被整合到用于加權每個個體志愿者檢測結果的公式中。盡管樣本量有限,但基于工業革命中看到的流水線式處理過程 [13],我們預測了那些逐列完成任務的人與逐行完成任務的人所需時間的差異。這可能是由于在轉向下一個類別之前,重復檢測同一類別50次比在50個樣本中循環檢測所有24個類別更容易。這與任務切換的認知成本有關,已知這種成本會更快地消耗神經元 [14]。
4. 在與其他志愿者的比較一致性矩陣中得分較高的人通常更有可能產生更準確的檢測結果。
這個假設也被納入了志愿者數據加權的過程中,目的是為了將其整合到所有志愿者的集體智慧中。這是通過使用個體志愿者與其他人的平均一致性得分除以所有志愿者的平均一致性得分來應用獎勵或懲罰的。確切的公式在分析部分和研究的相關文件中都有展示,供任何感興趣的各方擴展、應用變體,并進一步分析。
5. 社會集體選擇記住的引文,平均而言,更可能包含和/或引發更易察覺的認知偏見。
這個假設指導了我們志愿者和檢測系統所檢查的引文的選擇。特別是關注了許多與記憶強烈相關的偏見,這些偏見可能在這些引文被保存和重復時發揮了影響作用。通過選擇這些類型的引文,我們也希望激發更多批判性思考和對潛在偏見的認識,當遇到、記住和重復這些流行引文時。進一步了解社會選擇記住這些有影響力的引文是如何隨著時間的推移被選擇的,以及它們對社會的影響,都可以作為進一步研究的考慮。
6. 引入金錢激勵會導致視角的轉變,因為價值從目的驅動的視角轉變為金錢收益 [15],我們認為這是不可取的偏見來源,并將其排除在本研究之外。
這個假設基于先前的研究,這些研究記錄了當任務從目的驅動轉向金錢補償時,心理轉變的發生,以及預算限制。我們選擇避免在志愿者過程中引入任何金錢補償。我們的團隊中沒有任何成員獲得金錢補償,系統的計算成本在最初的自費測試中被覆蓋,隨后通過創始人項目提供的免費積分來覆蓋LLM輸出的測試 [16]。該項目與研究無關,也不了解研究,只是默認提供這些積分以鼓勵創業活動。以這種方式避免了潛在的認知轉變和其他金錢沖突。未來研究的一個潛在問題是,這種視角的轉變是否脫離金錢激勵在檢測認知偏見方面提供了任何具體的好處。
3.2 LLM測試階段
我們假設以下幾點關鍵點:
1. 開放式問題可能會增加潛在響應的變異性。
這一假設是基于對許多大型語言模型(LLMs)現在訓練的互聯網規模數據中啟發式方法的部分可見性和理解,其中缺乏絕對正確答案的開放式問題可能會提供更豐富多樣的人類響應。這種潛在的更大變異性有助于減少達到任何特定響應必然由更直接因素主導的可能性,從而允許次要因素和更高層次的模式發揮更大的潛在影響。
2. 潛在響應的變異性增加也會增加LLMs在此過程中可能展示的認知偏見的種類。
這一假設是,可能表達的某些潛在認知偏見更有可能存在于次要因素和更高層次的模式中,如上所述。盡管一些偏見可能在回答更受限制的問題時頻繁且強烈地被觀察到,但許多偏見的存在正是為了應對無界或界定不清的問題所帶來的認知負荷大幅增加。為了更好地理解LLMs可能模仿的整個認知偏見譜系,我們假設這種減少的界定可能提供一個更完整的偏見表達圖景。
3. 溫度為1可能在下一個標記預測中提供一定程度的變異性,假設在每一步為每個模型測試時,都能跨越相對小的高概率選項分布。
這一假設指導了參數的選擇,盡可能選擇溫度值為1,這既是為了進一步增加可能表達的認知偏見的潛在譜系,也是因為1的值對于某些系統來說是最大值,而對于表現最好的系統GPT-4來說,根據大多數基準測試,它是中位數。
4. 模型可能能夠在與前一階段用于人類引文的大致相同的響應長度上限內展示可測量的認知偏見水平。
這一假設基于這樣的預期:旨在模仿人類響應的系統平均而言也應該能夠使用與人類生成的文本相似長度的文本展示可測量的認知偏見水平,如前一階段的測試引文。
5. 我們假設這些選擇都不會與被測試的模型架構直接沖突,因為缺乏對閉源模型進行驗證所需的透明度。
這一假設是出于實際必要性,因為要實現跨所有測試的閉源和開源模型所需的透明度水平以堅定驗證變量的最佳選擇將極其困難。這種最佳選擇甚至可能在完全無偏見的意義上都是不可能的。
4.限制
4.1人類基線階段
由于這項任務在認知上和勞動上的密集性,以及迄今為止完成這項任務的志愿者數量較少,志愿者的樣本量仍然低于統計顯著性及其相關分析方法所需的典型閾值30。因此,這項工作作為我們的初步發現呈現,并且已經與世界各地的多位教授和大學進行了聯系,目的是將這些數字提高到統計閾值以上。
平均每個志愿者需要超過10小時的時間,包括學習時間和任務執行時間,才能完成對50條引文的24個類別的檢測,產生1200個數據點。唯一成功完成150條引文的志愿者總共需要40小時。由于志愿者在執行這項既困難又耗時的任務時沒有報酬,完成這項任務的人數相應有限。從5名志愿者那里收集這些完成的任務花費了5周時間,這導致了我們決定發布這些初步發現,并希望能加速研究進程。
值得注意的是,成功完成這項任務的志愿者樣本在如此小的樣本量中異常多樣化,覆蓋了3個大洲,年齡范圍跨越了30多年,且每個人來自不同的職業。雖然這種多樣性可能會使統計分析中創建典型分布變得復雜,但它為基于集體智慧的系統增加了可衡量的價值,這些系統專門設計用來通過更好地利用多樣性來減少認知偏見。并非所有這些數據都包含在6個補充問題中,因為它們是通過我們志愿者的公開資料觀察到的,但可以通過一組后續問題正式化。
在如此廣泛的范圍內檢測認知偏見以及僅使用文本進行檢測的任務也缺乏一個牢固建立的基準真相,例如讓30多名認知偏見專家各自執行任務并建立一個廣泛接受的基準。這些專家分析的內容也可以進一步為此目的進行定制。
缺乏這樣的基準真相,我們應用集體智慧方法來近似這樣一個基準提供的價值,使用我們志愿者的數據。有許多不同的方法可以將這些數據整合成一種集體智慧的形式,我們并不假設我們為這項研究選擇的方法是最優的,它們只是第一次迭代。
4.2 大型語言模型(LLM)測試階段
這一階段主要受到每個模型提供的可調參數差異的限制。GPT-4、Claude和Vicuna提供了所有考慮的可調參數,Falcon提供了溫度參數,而Bard沒有提供任何參數。對每個模型的測試訪問要么是通過像Lmsys.org這樣的平臺免費獲得的(對于Vicuna [17])或HuggingFace(對于Falcon [18]),要么是通過游樂場環境或API密鑰獲得的(對于GPT-4、Claude和Bard)。
5. 結果:人類基線研究
這一階段的結果結合了幾種比較和整合的方法,專注于從群體中培養集體智慧的既定方法[12, 41]。特別是,我們專注于那些不需要集體成員之間直接互動的方法,據我們所知,志愿者彼此從未見過面,也沒有在研究期間相互交流。
提供給志愿者的樣本的隨機順序通過使用排序鍵恢復到原始順序。在將所有完成的樣本恢復到相同的樣本順序后,每個樣本可以直接進行比較。
第一種方法是為所有可能的志愿者組合建立成對比較,以及將每個志愿者與檢測系統進行比較。這比較了每個志愿者在1200個認知偏見檢測數據點上的一致性水平,這些數據點是由每個志愿者提交的。如果兩位志愿者都選擇在同一個引文的特定類別的認知偏見是“是”、“可能”或一個“是”和一個“可能”,則為該特定數據點建立了一定程度的共識。
從每個50個樣本和24個類別的矩陣中計算得出每一對志愿者在所有類別上的平均值,并將這些類別的平均值合并成一個單一的平均值,用于成對陽性一致性矩陣。
這種共識度的測量使我們能夠量化并比較各個志愿者與他們的同伴達成相同檢測結果的頻率。它還提供了一些關于整體偏見檢測率較高和較低的志愿者之間差異的洞見。
由于志愿者之間的工作方法存在差異,我們根據以下指標對個人時間投入進行了標準化處理:
我們發現,志愿者是逐列工作還是逐行工作,完成時間存在顯著差異,平均差異為86%。我們沒有觀察到基于志愿者選擇的工作方法,其平均一致性矩陣得分存在顯著差異。
我們還根據個人相對于平均二級偏見檢測距離均值的二級偏見檢測距離進行了標準化處理。這是對小樣本量的一種模擬形式的回歸均值[19],但不如均方誤差(MSE)[20]那么強烈。
我們還根據個人相對于志愿者中平均一致性矩陣得分的正向一致性矩陣得分進行了標準化處理。
這些標準化方法單獨使用可能帶來潛在的好處,但它們是特別組合應用的,目的是為了減少由于志愿者樣本量小而可能由任何一種方法引起的噪聲。使用這4個因素來相互減少潛在的噪聲,即使在更大的樣本量中也可能有用。
測試了更復雜的方程,包括添加缺失值懲罰,但為了簡單性和普遍適用性,選擇了上述4個因素。
這些權重用于將所有志愿者的檢測結果合并成一個集體檢測的過程中。首先,通過VLOOKUP函數和一個為每個響應分配數值的表格,將“是”、“否”和“可能”的響應轉換為數字。可以調整一個名為“人類技能”的變量,其中“是”的值等于人類技能值,“可能”的值等于該值的一半,“否”的值等于0,缺失值保持為空。
目前,人類技能值設定為2,這與我們所述的假設一致,但如果一組在認知偏見檢測方面具有更高平均專業水平的志愿者完成任務,這個值可能會降低。
在被轉換成數字、加權和平均之后,每個數據點隨后被轉換成布爾值(True/False)的認知偏見檢測結果。然后,這組集體檢測結果可以與認知偏見檢測系統進行比較。
總體而言,我們的志愿者在檢測認知偏見方面的能力顯著高于中位數志愿者,一些檢測模式顯現出來,其中集體和系統獨立地達到了類似的檢測水平。然而,在這次比較中,也突顯出系統固有能力遠低于我們中位數志愿者表現的幾個弱點。
這為我們提供了一個有用的,但初步的近似,即檢測系統在所有類別中與我們的人類志愿者在認知偏見的正向和負向檢測方面達成一致和不一致的方式。對于任何這樣的系統來說,低誤報率尤其重要。
系統的檢測結果明顯低于人類集體的檢測結果。這些子類別可能需要進一步的數據來構建足夠強大的模型,以涵蓋它們所包含的一些或全部偏見。它們也可能僅使用文本更難檢測,或者需要更長篇的文本樣本。即使去掉表現最差的四分之一的認知偏見類別,人類集體和檢測系統之間的一致性也大大提高。
表現最差的二級類別包括:
1. BC1: S1 - 我們傾向于偏愛看起來簡單、信息完整的選項,而不是復雜、模棱兩可的選項。
2. BC1: S3 - 為了完成任務,我們傾向于完成我們已經投入時間和精力的事情。
3. BC2: S1 - 我們將當前的心態和假設投射到過去和未來。
4. BC2: S6 - 即使在查看稀疏數據時,我們也傾向于尋找故事和模式。
5. BC3: S1 - 我們更容易注意到別人的缺陷,而不是自己的缺陷。
6. BC4: S1 - 我們根據經歷的方式不同來存儲記憶。
盡管在表現上仍存在一些差異,但在認知偏差檢測方面,這18個類別表現出更大的相似性,檢測系統和表現最好的類別之間達成了合理的共識,并且在許多點上相互交叉。
盡管結果尚屬初步,但將檢測系統與全體比較,以及將中位數志愿者與全體比較時,無論是針對全部24個類別還是表現較好的18個類別,相對差異似乎都支持了該假設,即系統在6個較弱的類別中缺乏足夠的數據。正如文中所述,這也可能表明這些類別中的某些或全部在文本中更難以檢測,或者需要更長的文本樣本才能通過自動化系統進行準確檢測。隨著檢測系統的進一步開發,這一假設將得到進一步探討。
在選擇了檢測系統目前表現最好的18個類別之后,我們重新使用這一子集進行一致性矩陣比較。
為了進一步驗證將我們人類志愿者的輸入結合起來創建人類集體智慧的方法,人類集體的檢測結果隨后通過上述相同的成對比較方法進行了比較。出于說明目的,這些矩陣被整合為下面的幾張圖表。
通過成對共識矩陣,人類集體整合了更多的志愿者數據,從而與所有志愿者達成了更高的平均一致水平。這為我們提供了一個臨時的基準,相對于個體志愿者和系統,可以近似人類集體的價值。
將人類和檢測系統的數據結合起來形成混合形式的集體智慧的方法,可能為未來的研究提供了一個有希望的方向。關于如何將志愿者數據結合起來形成人類集體的方程可能需要針對更大的樣本量進行調整,如上所述,但鑒于目前可用的數據,它似乎足夠好,可以用于初步比較。一種方法可能是使用志愿者的平均權重加上系統相對于平均志愿者在一致性矩陣得分上的相對增益。
將集體與個體和系統進行比較,也可以幫助在將它們整合到這種混合集體中時,為每個因素分配適當的權重。然而,研究等權重方法[21]也值得調查和比較。
在檢測系統運行期間,還手動收集了一些時間數據,檢測處理時間從大約5秒到大約20秒不等,以遍歷所有24個類別。這是在優化之前的,如果這些檢測針對并行處理和重組進行了優化,那么對于24個類別可以預期超過12倍的性能提升,而對于188個單獨的偏見,當系統配置為以該模式運行時,性能提升將更為顯著。
為了在相關估算中保持所有不確定性的保守性,使用了每樣本20秒的數據。進一步的研究將包括配置檢測系統,以便為每個處理的樣本輸出精確的處理時間戳,這可能會提供進一步的有趣見解。
盡管表現最好的人類可能仍然比這個早期版本的系統高出16%,而人類集體可能比它高出34%,但每個都伴隨著極高的時間和成本差異。即使與系統以3%的優勢擊敗的普通人類相比,時間和成本差異分別超過40倍和190倍。對于表現最好的人類和集體,這些數值分別大致翻倍和增加五倍。對檢測系統應用幾種形式的優化可能會在節省時間方面取得非常顯著的收益,并且可能也會節省成本。
這從部署的角度來看很重要,它還突顯了今天已經存在的兩步流程新版本的潛力,例如社交媒體審核系統,其中第一步是自動檢測,第二步是交給人類審核員。隨著優化后的系統能夠在以前對自動化系統來說難以接近的任務上比人類快一千到一萬倍,許多新選項可能會變得可行。
增加志愿者樣本量的外展工作仍在進行中,已聯系了許多大學的教授,但使用了多種分析方法和標準化來補償這一小樣本量。其中一些方法,如成對比較,如果繼續超過標準樣本量30+,可能會變得極其繁瑣,因為它們的擴展性很差。這種成對方法對于規模在5到12人的團隊的集體智慧方法更為理想。然而,任何感興趣的研究人員都可以應用他們想要的分析方法和通過更多志愿者擴展數據的方法。
盡管人類生成的引述和開放式問題的答案在內容上相當不同,但在交流中使用的認知偏差表現出相當程度的相似性。表現最好的個體和集體在人類生成的數據上的檢測率似乎更符合檢測系統在人工智能生成數據上的檢測率。這可能是大型語言模型(LLMs)運作方式的一個副產品,導致它們的輸出比人類生成內容中觀察到的相對較高的變化性更容易被檢測系統建模。
除了不同LLMs之間認知偏差檢測的差異外,還觀察到了之前提到的“硬”和“軟”污染兩種類型的幾個顯著差異。在一個模型中還觀察到了完全檢測失敗率的微小差異。
這些結果仍然是初步的,任何有興趣的人士,只要能夠訪問這些大型語言模型(LLMs)的API,都可以在此基礎上進行進一步的研究。所有上述分析的數據都將公開,以鼓勵認知偏差檢測研究的進步,并且可以根據請求提供對我們系統的訪問權限。
7. 研究數據
所有由志愿者提交的完成內容都被單獨保存,并添加到一個更大的Excel文件中,以便更容易地比較、合并和進一步分析數據。所有發送的文件的副本也被保留。一個包含志愿者姓名和聯系信息的保密文件被保存,這可能被用于原始研究團隊的后續問題,或者在每個志愿者允許他們的信息被分享給其他研究人員之后,他們可能會被其他方直接聯系。由于大多數補充數據是任務導向的,而不是人口統計學的,除了最近的職位,志愿者的匿名化風險主要來自志愿者自己,而不是補充問題。
所有文件,包括兩個階段的數據和對這些數據的分析,都可以獲取,以幫助加速這一領域的進一步研究。檢測系統的訪問也可以根據研究人員、媒體和其他感興趣的各方的請求提供。隨著我們可用資源的增加和/或該工具潛在的開源,可能會提供更大規模的訪問權限。
這些文件的托管位置將通過以下地址保持更新:
https://bias.transhumanity.net/2023-cognitive-bias-detection-system-study-files/
8. 未來工作
目前,已經收集的數據有數十種以上的分析方法,并且至少有一個數量級的潛在研究方向。認知偏差如此深入地融入我們的思維過程中,以至于沒有它們人類就無法正常運作。安東尼奧·達馬西奧(Antonio Damasio)關于人類情感的相關研究[22]強調了情感在人類決策中的作用,許多認知偏差與情感狀態密切相關[23]。還有復雜性與認知偏差之間的權衡[24],任何超過人類認知帶寬的復雜性都需要我們應用更高級別的認知偏差來補償,隨著復雜性的進一步增加。
可能需要未來十年數百或數千名研究人員的共同努力,才能充分利用利用技術自動檢測認知偏差所提供的潛在研究的低垂果實。應該鼓勵這種活動,使用所有可用的手段,因為對人類決策過程的可衡量改進可以極大地改善人類文明。
就我們而言,未來工作的若干方向是這項研究加速進展的優先事項。首要任務是增加學術界的參與,讓更多志愿者完成認知偏差檢測任務,以提高人類基準數據,超過應用傳統統計分析方法所需的閾值。
更多具有相關專業知識的教授的參與也可能導致建立專家人類基準,其中30多名該領域的專家建立一個基準,作為未來測試的更強大的比較。然而,也很清楚,當系統為基準訓練時,基準就不再有意義,因此需要避免直接在基準上訓練。這樣的基準也可以與非專家基準進行對比,以獲得進一步的見解。
進一步的研究還將利用檢測系統的全部能力,單獨檢測188種認知偏差,而不是在類別級別。從軟件開發的角度來看,這一能力已經過測試,但由于人類在24個類別級別上建立檢測基準的極端困難,這種精確度在當前研究中是不可行的。運行校準以檢測2016年代碼集中的188種個體認知偏差的檢測系統也需要相應更多的資源,但這可以隨著時間的推移進行優化。我們還將對其進行校準,以在后續階段為每種認知偏差和類別輸出確定性分數,它生成但目前簡化為布爾值,以增加更大的精確度,并從演示系統轉變為數據管道。出于優化目的,還將添加處理時間戳。
除了這些首要任務外,我們團隊為系統提出的進一步計劃包括:
將認知偏差檢測應用于單一來源的文本序列樣本。使用這種方法,偏差檢測的時間序列格式可能揭示認知偏差隨時間調用的順序模式,以及這些模式如何因個人、背景和意圖而變化。
已經收集了像伯尼·麥道夫、伊麗莎白·霍爾姆斯和山姆·班克曼-弗里德這樣的以前曝光的欺詐者的訪談數據,可以與在不同程度上相似的個人列表進行比較。這可能有助于隔離社會工程和“說服”模式的認知偏差,如過去和未來的罪犯所展示的。
這些領先的LLMs可能可以被訓練以減少它們調用認知偏差的級別和頻率。這將需要與封閉源模型密切合作,或者比我們目前可用的開源模型更多的資源。
針對特定模式的認知偏差表達,如時間序列中的特定序列,可能是減少模型的社會工程和“說服”風險的有前途的方法。
使用認知偏差檢測系統分析不同文化的內容,以進一步了解文化對認知偏差的調用和表達的影響。最近的研究表明,不同語言的母語者在聽他們的母語時顯示出非常不同的大腦活動模式[25],因此可以預期會有明顯不同的認知偏差表達模式。
與前一點類似,也可以分析不同領域的內容,因為不同類型的專家往往有非常不同的思維方式。這些差異通常在抽象意義上被理解,但可能通過認知偏差檢測以及時間序列格式的認知偏差檢測來量化。
分析由新聞推送算法、搜索引擎和更廣泛的推薦系統推廣和篩選的數據是另一個有前途的研究機會。這些通常不可見且極具影響力的系統嵌入在世界上許多最受歡迎的網站和應用程序的多個部分中,為現代世界提供了至關重要的功能。然而,我們目前對它們今天的實際運作知之甚少。
將檢測系統的數據與人類的檢測數據結合起來是未來研究的另一個潛在有前途的途徑,因為集體智慧從多樣化的視角中受益。如前所述,檢測系統本身代表了一種不同的視角,結合此類系統的混合集體智慧可能證明具有實質性的好處。這可能采取今天已經存在的兩步流程的形式,例如社交媒體平臺上的任務,如審核。
進一步的工程工作,包括可能使用蒸餾方法為堆棧的新層減少計算開銷,如逐步蒸餾[26]以及更一般的系統優化以便于部署的可擴展性正在考慮之中。像在本研究第二階段測試的LLMs這樣的系統如果被整合,也可能能夠提高整體系統性能。然而,這些將不得不等到研究得到適當資金后。
這樣的可擴展系統可以應用于各種社交媒體平臺,這些平臺有興趣減少認知偏差所助長的政治極化嚴重性,以及可能有助于減緩或控制錯誤信息在這些網絡中的傳播。這個特定的用例是我們努力嘗試隔離那些旨在社會工程和“說服”策略的人所涉及的認知偏差模式的一個關鍵激勵因素。
9. 討論
在本研究中,無論是在完成任務的志愿者中,還是在尚未完成任務的志愿者中,我們都在簡短且高度結構化的檢查交流中收到了三條富有啟發性的評論,這些交流是為了請求進度更新。志愿者們一致提到,認知偏差檢測任務比他們預期的要困難得多,耗時也更長,而且認知偏差的數量也遠遠超出了他們之前的認知。這反映了任務的認知難度、人類的認知耐力、一般能力以及公眾的普遍認知水平。
喬納森·海特將人類的認知偏差和高級認知比作“大象與騎象人”[28],其中高級認知位于認知偏差之上。這本身是對擬人化[29]的巧妙運用,以及幾種以故事為導向的認知偏差,例如離奇效應[30]。一項著名的研究及其后續著作被稱為“看不見的大猩猩”[31],這是另一個類似的涉及認知偏差子集的案例。人類的大腦每時每刻都會接收到比我們有意識處理能力更多的感官信息[32],除非是在感官剝奪室中。當人類被置于感官數據急劇減少的環境中,例如明尼蘇達州奧菲爾德實驗室的無回聲室[33]時,人類的大腦就會努力應對這種感官體驗的劇烈變化。
認知偏差部分旨在為我們提供一種比周圍世界實際存在的更穩定、更連貫的感覺。我們傾向于使用諸如峰終規則[34]和持續時間忽視[35]等方法來“優化”我們所記住的內容。我們將不相關事件聯系在一起,并將其作為敘事元素,用來支撐我們所想象自己生活的虛構世界,例如樸素現實主義[36]和確認偏差[37]。這些認知偏差又會被其他偏差所強化,例如虛假相關[38]、樣本大小不敏感[39]以及啟發式可用性[40]。
盡管人們可能夢想著擺脫認知偏差,完全無偏見地評估這個世界,但這對于像我們今天這樣存在的人類來說既不可能,也不可取。如果假設人類能夠完全無偏見,那么他們的觀點也將幾乎完全相同。雖然這樣的場景可以為有趣的思維實驗提供素材,但它也直接與人類的進化方式、我們的學習方式以及我們所擁有的最強大的運作方法背道而馳。
集體智能可以通過多種方法來構建,例如在《噪聲》[41]一書中所描述的那些方法,而它之所以與集體超級智能同義,原因之一就是這種人類配置能夠減少認知偏差的影響,可靠地提高有效智能。然而,這并不意味著僅僅通過減少認知偏差就能達到理想的智能水平。
集體智能在很大程度上受益于其中所代表的視角多樣性,以及用于生成它的方法,而更多的思想多樣性則為集體智能的有效運作創造了更大的空間。根據我們對這種動態的理解,在有限的范圍內,一個偏見較少的人群可能與一個更具多樣性的群體表現相當,但許多更優的解決方案需要由更大的多樣性所提供的更廣泛的范圍。
檢測、區分和測量認知偏差的重要性在于它為我們提供了極大的精確性,以進一步研究認知并改進我們的實踐。它可能被證明在檢測和解決特定有害的認知偏差和偏差表達模式方面極為有用,這些模式在其他情況下可能會造成巨大危害,例如防止社會工程威脅[42]和改善治理[43, 44]。
人類的認知帶寬是有限的,而我們所面臨問題的復雜性往往遠遠超出了這些有限的極限,但我們可以通過改進系統和方法來檢測和解決被用于對社會有害的方式的認知偏差。這些系統還可以與旨在克服復雜性與認知偏差權衡[45]的認知架構集成,并極大地協助這些系統,使它們對人類整體的文化對齊和元對齊有更深入的理解。
我們的團隊目前正在準備這樣的系統,而本研究中展示的認知偏差檢測系統是其中的一個小但重要的組成部分。我們之前的工作和系統專注于探索集體智能與第一個工作的認知架構——獨立核心觀察者模型(ICOM)[46]的結合,該模型在過去10年中開發,并在2019年至2022年的Uplift.bio項目中得到展示[47]。克服復雜性與認知偏差權衡需要能夠檢測、區分和測量認知偏差,這使它成為我們工作的優先事項。
2019年,凱爾廷·阿特雷德斯提出了一個理論,即認知偏差可以通過結構分析來檢測,并收集了一個小數據集,由一小群志愿者進行標記。這些數據來自我們團隊當時能想到的最具偏見的地方——4Chan論壇。當時典型的數據科學方法破壞了自然語言的許多結構數據,將單詞轉換成其他形式,并將一切分解為標記和簡化的結構。
盡管一些早期的努力很有意思,但直到最近一系列為基于ICOM的系統設計的圖算法被整合到架構中,我們才達到了像現在這樣的可接受性能水平。其他改進版本的工具也被整合到我們計劃在今年晚些時候及以后部署的新系統中。然而,在本研究的第二階段測試的語言模型尚未包含在這些工具中,而且只有在引入新的圖算法后,性能才有了顯著提高。
當人類獲得了檢測微觀生物(如細菌和病毒)的能力時,我們對周圍世界中以前看不見的部分的理解發生了轉變。如果沒有這種檢測、區分和測量的能力,現代醫學、衛生以及我們今天所擁有的大大提高的平均壽命都無法達到現在的水平。
認知偏差的世界在很大程度上一直對我們是隱形的,然而它就像我們周圍無處不在的細菌、病毒和其他形式的隱形生命一樣無處不在且極具影響力。人類今天所做的每一個決策,無論大小,無論是否擁有大量數據,都主要受到認知偏差的支配。術語“決策衛生”[48]被用來描述我們需要做出更健康、更明智決策的過程。有了能夠檢測所有已知形式認知偏差的系統,或許這門新衛生科學將向前邁進一大步,揭示我們周圍世界的另一個以前看不見的層面。
10. 結論
首個旨在檢測2016年認知偏差編碼手冊中記錄的188種認知偏差形式的軟件系統,已經在初步性能演示中通過了測試,與人類在相同任務上的表現相比,該系統表現良好。在第一階段,我們量化了志愿者在認知偏差檢測任務上的表現,并將其整合為一組單一的集體智能認知偏差檢測。由于缺乏相關既定基準,這被用作近似的“真實檢測”標準。與該集體智能相比,檢測系統在如此早期的階段表現令人欽佩,大多數情況下高于平均人類表現,但仍低于表現最佳的人類。在24種認知偏差的類別和子類別中,該檢測系統在其中18個子集的表現尤為出色。
在第二階段,檢測系統展示了相同的檢測能力,應用于分析當時表現最佳的5種封閉源代碼和開源大型語言模型(LLM)生成的文本。在大約一半的類別中,檢測到的偏差水平明顯高于第一階段人類生成文本中觀察到的水平。這可能是因為偏差的多樣性較低,從而更容易被檢測系統建模,或者是因為偏差更強烈,或者兩者兼而有之。
在這一過程中,還考慮了影響生成文本偏差水平的模型污染程度,通過觀察到的兩種類型的預設回應進行了分析。
需要進一步研究來驗證并復制這些發現,但如果這些步驟能夠成功,我們現在可能已經能夠自動檢測、區分和測量認知偏差,并且隨著這些能力的大規模部署,科學發現也將隨之而來。
11. 附錄
11.1 大型語言模型(LLM)階段答案收集參數:
溫度:1,可調整
Top P:1,可調整,除非另有建議(Claude保持在0.9的默認值)
最大響應長度:64個標記
所有其他參數均保留為每個模型的默認值。
自然語言中的認知偏差:自動檢測、區分和測量文本中的偏差
Kyrtin Atreides, David J Kelley
AGI實驗室
摘要:
我們檢驗了首個自動化系統在檢測2016年認知偏差編碼手冊中包含的188種認知偏差方面的初步結果,該系統應用于人類和AI生成的文本,并與人類基線性能進行了比較。人類基線是由一小群多樣化的志愿者獨立提交他們檢測到的每個樣本中的認知偏差構建的,這些志愿者在第一階段使用的任務中進行了檢測。由于缺乏任何先前建立的相關基準,這個基線被用作這項任務的近似真實值。結果顯示,系統的性能高于平均水平的人類,但低于表現最佳的人類和集體,在編碼手冊中的24個類別中的18個類別中表現更為出色。該系統的這個版本也被應用于分析對每個表現最佳的5個封閉源代碼和開源大型語言模型提出的150個開放式問題的響應,這些模型是在測試時表現最佳的。第二階段的結果顯示,在大約一半的類別中,認知偏差檢測的比率明顯高于分析人類生成文本時觀察到的比率。還考慮了兩種類型的模型污染對生成文本偏差的影響,其中模型給出了預設的回應。每個模型中檢測到的認知偏差水平不僅相互比較,還與第一階段的數據進行了比較。
關鍵詞:人工智能、倫理、認知偏差、檢測、決策、錯誤信息、注意力經濟、自然語言處理、基準測試、集體智能
原文鏈接:https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4927380
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.