Can Large Reasoning Models do Analogical Reasoning under Perceptual Uncertainty?
大型推理模型能否在感知不確定性下進行類比推理?
https://arxiv.org/pdf/2503.11207
https://github.com/IBM/raven-large-language-models
摘要
本研究首次對兩種最先進的大型推理模型(LRMs),OpenAI的o3-mini和DeepSeek R1,在類比推理方面的表現進行了評估,重點關注基于Raven漸進矩陣的非語言人類智商測試。我們使用I-RAVEN數據集及其更具挑戰性的擴展版本I-RAVEN-X進行基準測試,I-RAVEN-X測試了模型對更長推理規則和屬性值范圍的泛化能力。為了評估視覺不確定性對這些非語言類比推理測試的影響,我們擴展了I-RAVEN-X數據集,該數據集原本假設了完美的感知能力。我們采用雙重策略來模擬這種不完美的視覺感知:1)引入干擾屬性,這些屬性是隨機采樣的,對預測謎題的正確答案沒有貢獻;2)平滑輸入屬性值的分布。
我們觀察到OpenAI的o3-mini在任務準確率上出現了急劇下降,從原始I-RAVEN的86.6%降至更具挑戰性的I-RAVEN-X的17.0%——接近隨機猜測水平。這一下降發生盡管其推理標記的使用量增加了3.4倍。DeepSeek R1也表現出類似的趨勢:準確率從80.6%降至23.2%。另一方面,一種在I-RAVEN上達到最佳性能的神經符號概率溯因模型ARLC,能夠在所有這些分布外測試中穩健地進行推理,其準確率僅從98.6%適度下降至88.0%。我們的代碼可在 上獲取。
1. 引言
像GPT-4(OpenAI等,2024)、Gemini(Gemini團隊等,2024)和Claude(Anthropic,2024)這樣的大型語言模型(LLMs)在生成流暢且與上下文相關的文本方面表現出色。然而,它們在更復雜的推理和規劃領域的能力已經被證明在簡單任務中也很脆弱(Gendron等,2024;Wu等,2024),未能達到與人類相當的抽象推理水平(Odouard和Mitchell,2022;Thomm等,2024;Lewis和Mitchell,2025;Camposampiero等,2023),并且在某些情況下可能是由于數據污染的結果(Roberts等,2023;Mirzadeh等,2025)。為了緩解這一問題,研究的重點從訓練時的計算擴展轉移到推理時的計算擴展。這導致了新一代系統的開發,被稱為大型推理模型(LRMs),它們可以根據輸入查詢在推理時動態分配可變的計算時間。與主要表現為近似檢索器的LLMs不同,像OpenAI o1(OpenAI,2024)、OpenAI o3、DeepSeek R1(DeepSeek-AI等,2025)和Qwen QwQ(團隊,2024)這樣的LRMs通過使用思維鏈(CoT)(Wei等,2022)標記探索解決方案空間的偽動作來處理推理任務。
盡管LRMs在其首選的文本領域中的許多推理基準測試中取得了顯著的性能,但它們在其他模態(如視覺)中仍未取得成功(Mitchell等,2024;Jiang等,2024;Cao等,2024;Ahrabian等,2024;Zhang等,2024b)。因此,假設存在一個“先驗感知”并用理想且離散的符號轉錄測試示例來提示LRMs已經成為一種標準做法(Webb等,2023;Hu等,2023;Hersche等,2025)。然而,這種“先驗視覺感知”的假設繞過了視覺抽象推理中的關鍵步驟。首先,“先驗感知”理所當然地認為已經知道了執行推理任務所需的屬性集合。因此,不影響答案預測的背景變量會被自動過濾掉,有效地消除了推理過程中的一個關鍵步驟。其次,“先驗感知”通常以完全自信的方式提供屬性值,即屬性的分布是一個退化的概率質量函數(PMF)。這一假設是非常不現實的,因為任何神經感知在其輸出中總會存在一定程度的不確定性。總之,一種通用的推理方法不僅應該能夠在完美的輸入表示上進行推理,還應該能夠處理關于變量數量及其分布的不確定性。
本文提出了一種更徹底的方法來對LRMs在抽象視覺推理方面進行基準測試(見圖1)。具體來說,我們專注于解決Raven漸進矩陣(RPMs,Raven等(1938))問題,這是一種用于測試人類流體智力的視覺抽象類比推理任務,最近也被用于測試機器的智力(Barrett等,2018;Zhang等,2019;Hu等,2021;Jiang等,2024)。為了避免模型在預訓練和后訓練階段之間可能出現的數據泄露(Mirzadeh等,2025),我們提出了一種完全符號化的、生成性的方法來評估LRMs在現實場景中的表現。生成的數據集被稱為I-RAVEN-X,它從以下方面評估推理能力:
生產性:引入了更大的上下文矩陣尺寸,例如3×10,而不是3×3;
系統性:引入了更大的屬性值動態范圍,例如1000個屬性值,而不是10個;
對干擾因素的魯棒性:在RPM中增加了隨機采樣的屬性值,這些值對推理沒有貢獻;
對非退化值分布的魯棒性:平滑了對應于生成因素的輸入值的分布。
盡管最初的嘗試已經使用I-RAVEN-X評估了生產性(Hersche等,2025),但本研究提出了一個更復雜的基準測試,重點關注使用LRMs的魯棒性。我們利用I-RAVEN-X對兩種最先進的(SOTA)LRMs,OpenAI的o3-mini和DeepSeek R1,進行了全面分析。與I-RAVEN(Hu等,2021)相比,I-RAVEN-X的矩陣尺寸和動態范圍的增加使o3-mini的任務準確率從86.6%降至81.0%。此外,在引入10個干擾因素(69.8%)和值分布平滑(75.6%)后,任務準確率進一步下降。最后,當I-RAVEN-X結合其所有生產性和魯棒性測試時,準確率急劇下降至17.0%。對于R1,也觀察到了類似的趨勢,其準確率從80.6%整體下降至23.2%。
作為對LRMs對感知不確定性敏感性的一種潛在補救措施,我們展示了神經符號概率溯因推理方法可以自然地支持來自平滑分布的不確定性。此外,我們提出了一種新穎的基于熵的置信度指標,允許概率溯因推理方法在決策過程中過濾干擾因素。我們在這一類方法中的一種SOTA方法(ARLC,Camposampiero等(2024))上評估了新的置信度指標。在最具挑戰性的I-RAVEN-X設置(干擾因素和噪聲平滑的混合)中,ARLC實現了比LRMs顯著更高的準確率(88.3%)。此外,即使在非常惡劣的信噪比(SNR)條件下(低至-20分貝),ARLC仍能保持高準確率。
2. 背景與相關工作
類比推理基準測試 在過去十年中,為了評估類似人類的流體智力和抽象推理能力,已經提出了多種基準測試(Bilker等,2012;Cherian等,2023;Chollet,2019;Niedermayr等,2024)。Raven漸進矩陣(RPM)(Raven等,1938;Carpenter等,1990;Bilker等,2012)因其在抽象推理、類比生成和分布外(OOD)測試方面的廣泛應用而成為其中最突出的基準測試之一(Benny等,2021;Hu等,2021;Ma?kiński和Mańdziuk,2025;Mitchell,2021;Zhang等,2019)。RAVEN(Zhang等,2019)是首次嘗試構建RPM數據集,旨在將視覺與結構化、關系化和類比推理相結合,形成層次化的表示。I-RAVEN(Hu等,2021)(圖1a)改進了RAVEN,提出了基于屬性二分樹的新一代算法,確保候選面板是從無偏的候選集中采樣的,避免了在原始數據集中可能出現的捷徑解決方案。I-RAVEN-X(Hersche等,2025)擴展了I-RAVEN,引入了可參數化的列數和動態的屬性值范圍,允許測試類比推理在更長的推理鏈和更多概念上的泛化能力。在圖1b中,這可以通過更多的列數和更廣泛的屬性范圍(例如顏色和物體數量)來識別。此外,數據集被縮小到單一星座(中心,每個面板僅包含一個物體),這被觀察到同時是對廣泛邏輯和算術技能的強測試,并且對LLMs來說意外地具有挑戰性(Hersche等,2025)。
大型推理模型 最近的研究集中在訓練LLMs以展現類似人類的推理能力(OpenAI,2024),然而一個主要障礙是缺乏標注的、逐步推理的數據。為了解決這一問題,研究人員開始從昂貴的人工標注轉向由LLM驅動的搜索算法,這些算法通過外部驗證(Luo等,2024)和基于強化學習(RL)的技術(Zhang等,2024a;Shao等,2024)自動生成準確的推理軌跡。此外,擴展測試時的計算也被證明有助于細化中間推理步驟,從而進一步提高推理任務的準確性(Snell等,2024)。綜上所述,訓練時的RL驅動擴展和測試時的搜索擴展相結合,為新一代系統鋪平了道路,這些系統被稱為大型推理模型(LRMs),推理性能顯著提升(Xu等,2025)。然而,與LLMs(Webb等,2023;Hu等,2023;Hersche等,2025;Moskvichev等,2023;Mitchell等,2024;Lewis和Mitchell,2025)不同,LRMs的類比推理能力尚未得到廣泛評估,只有Latif等(2024)在RAVEN的一個子集上展示了有限的結果。
用于RPM的神經符號架構 與單一的深度學習模型(Wu等,2020;Benny等,2021)相比,實現溯因推理(Magnani,2009)的神經符號架構在這一類比推理測試中取得了顯著的成功,達到了最先進的成果(SOTA)。最初由PrAE學習器(Zhang等,2021)引入,這種方法隨后通過NVSA模型(Hersche等,2023)得到了進一步改進。在NVSA中,概率推理是通過向量符號架構(VSAs)的分布式表示和操作符來實現的(Gayler,2003;Kanerva,2009;Plate,1995)。除了計算和可擴展性優勢外,VSAs還為神經網絡提供了一種通用語言,以便更好地進行接口對接和更深入的整合。PrAE和NVSA都是根據Kautz(2022)的分類屬于神經 | 符號(類型3)架構的示例,即它們是由一個神經視覺模塊組成的系統,該模塊通過一個明確定義的接口與靜態符號推理系統進行交互。后續的研究擴展了這些系統,主要是從純粹的知識表示轉向更具可訓練性的架構,這些架構能夠從示例中學習推理并提高其表達能力(Zhang等,2022;Camposampiero等,2024;Sun等,2025)。其中一些方法,例如ARLC(Camposampiero等,2024),可以被歸類為神經[符號]系統(類型6),因為推理規則是通過分布式表示中編碼的通用規則模板完全可微地學習的,并且它能夠通過利用計算疊加來實現組合推理。
3. 將感知不確定性整合到I-RAVEN-X中
與標準的I-RAVEN不同,I-RAVEN-X是一個完全符號化的基準測試,它在假設存在“先驗感知”的情況下評估抽象推理能力。這種假設源于觀察到,使用原始視覺輸入來提示多模態LLMs的表現,相比測試示例的無噪聲符號轉錄版本,要差得多(Mitchell等,2024;Jiang等,2024;Cao等,2024;Ahrabian等,2024;Zhang等,2024b)。然而,這其實是一個相當強烈的假設,因為它忽略了在現實場景中提取這些屬性時必然會產生的不確定性,以及這種不確定性對類比推理過程的影響。在本研究中,我們提出對I-RAVEN-X進行擴展,以克服這一問題,通過以下方式擴充原始數據集:
1. 為每個RPM示例整合干擾屬性;
2. 平滑原始的退化屬性值分布。
這兩點結合起來,使我們能夠放寬對“先驗感知”的強烈假設,在保留完全符號化設置的主要優勢的同時(即利用基于文本的模型,而不是它們較弱的多模態等價物),模擬一個不完美的感知前端。
3.1. 混淆屬性(Confounding Attributes)
混淆屬性是指可以從視覺輸入中提取,但與推理過程無關的屬性和模式。例如,當屬性由無監督的視覺模型(如變分自編碼器(Variational Autoencoders))或提示提取屬性的多模態LLM提取時,可能會出現這種情況。在圖1c中,混淆屬性由輸入面板的背景和物體內部有時出現的顏色模式表示。盡管原始RAVEN數據集包含噪聲屬性(例如方向),但這些并非真正的混淆變量,因為它們并未為RPM測試引入任何噪聲。在I-RAVEN-X中,通過將每個面板的原始屬性集擴展為任意數量的混淆因素來實現,這些因素在區間[0, m?1]內均勻采樣,其中m是實驗中屬性的動態范圍。對于足夠大的m,采樣到符合有效規則的值的概率可以忽略不計,因此混淆因素不會引入答案面板選擇的歧義,但會線性降低推理過程中的信噪比(SNR),并要求模型過濾噪聲屬性。
3.2. 平滑屬性值分布
我們偏離了原始I-RAVEN-X的退化屬性分布,引入了方差,從而可以測試模型在推理過程中處理不確定屬性值的魯棒性。圖1展示了這種放松,從標準I-RAVEN-X的一熱概率質量函數(PMFs)(圖1b)到我們提出的擴展的分布式PMFs(圖1c)。在實踐中,我們使用高斯濾波器或三箱策略來平滑原始屬性分布,其中真實值T的概率為p(T)~U(pL,1),pL>0.5,其兩個相鄰值的概率分別為和。三箱策略的動機是在引入方差的同時,盡量減少對LRMs提示復雜性的額外增加。
4. 使用大型推理模型(LRMs)和神經符號概率溯因模型解決RPM問題
4.1. 大型推理模型(LRMs)
我們的研究重點是目前最突出的兩種最先進的LRMs:閉源的OpenAI o3-mini模型和開源的DeepSeek R1模型(DeepSeek-AI等,2025),以及基于Llama 70B的蒸餾版本。在附錄B中,我們還額外對OpenAI o3-mini與其前身OpenAI o1進行了有限的比較。然而,由于o3-mini模型的性能與o1相當,但成本僅為后者的約1/14,我們決定僅使用o3-mini進行實驗。
我們采用了Hersche等(2025)中使用的相同評估框架來對LRMs進行基準測試。然而,與他們的分析不同,我們將研究重點放在了糾纏提示(entangled prompts)上(即在單個提示中提供所有屬性的值,而不是每個屬性一個單獨的提示)。我們被迫選擇這種設置,因為盡管與使用解糾纏提示(disentangled prompts,即每個屬性使用一個單獨的提示)相比,其性能較差,但如果不采用這種設置,后續對干擾因素的實驗將變得毫無意義。此外,我們從預測性方法(模型需要生成缺失的面板)轉向了判別性方法(模型被提供一個候選列表,并需要從中選擇一個)(Gendron等,2024;Hersche等,2025)。這一選擇源于我們在評估初期觀察到,LRMs有時可以在輸入矩陣中捕捉到有效的關系(例如值的二進制編碼之間的關系),但這些關系并不屬于RPM中使用的規則集。與生成性方法不同,判別性方法隱含地促使模型僅評估RPM中定義的規則,而無需明確揭示它們,從而減少了上述問題。更多關于任務和提示的細節,請參閱附錄A。
在與LRMs的實驗中,我們還放棄了自一致性(Wang等,2023;Lewkowycz等,2022)和屬性縮放(Hu等,2023)。此外,由于之前觀察到這些對LRMs有害,因此沒有提供任務的上下文示例(Brown等,2020)。我們還將研究范圍限制在I-RAVEN和I-RAVEN-X中隨機抽取的500個RPM測試子集上(由于預算限制),我們觀察到這一子集足以代表整個測試集。
4.2. 神經符號概率溯因推理模型(NeSy-PAR)
在眾多針對解決RPM問題的特定領域架構中,最近越來越多的研究集中在概率溯因推理上(Zhang等,2021;Hersche等,2023;Camposampiero等,2024;Sun等,2025)。溯因推理允許我們根據以符號形式表示的先驗知識選擇性地推斷命題,以最佳方式解釋感知到的觀察結果(Magnani,2009)。
在本研究中,我們提出了對經典概率溯因推理框架的擴展,即一種新穎的基于熵的置信度指標,以提高在不確定性下推理時的性能。具體來說,我們建議使用在框架的溯因步驟中使用的置信度值s(編碼RPM面板中特定屬性行為所依據規則的概率)的熵來正則化每個屬性對分數/損失的貢獻。實際上,我們重新加權每個候選面板對損失和分數的貢獻為:
其中 是模型可用的R條規則的置信度值向量(從每個RPM示例的前兩行計算得出),屬性損失 分別代表各個屬性對訓練損失和候選預測指標的貢獻。直觀上,我們提出的正則化技術會降低那些置信度在不同規則之間均勻分布的屬性的貢獻(當沒有規則完全符合數據時會發生這種情況,從而導致高熵),同時增加那些置信度高度集中的屬性的貢獻(模型對單一規則非常有信心,因此熵很低)。我們在ARLC模型(Camposampiero等,2024)中實現了方程(1)中提出的正則化技術,該模型是RPM上最先進的神經符號方法之一。
5. 結果
5.1. LRMs是比LLMs更強的類比推理者
到目前為止,LRMs的類比推理能力尚未得到廣泛評估。在本研究中,我們通過在著名的基準測試I-RAVEN(Hu等,2021)及其更具挑戰性的擴展版本I-RAVEN-X(Hersche等,2025)上測試這一新一代系統,縮小了這一知識差距。表1報告了這一首次提出的評估結果。為了能夠進行LRMs和LLMs之間的一對一比較,我們還額外包括了Hersche等(2025)中提到的閉源的OpenAI GPT-4(OpenAI等,2024)和開源的Llama-3 70B(Dubey等,2024)的先前結果。
首先,我們觀察到LRMs可以在提示工程較少的情況下實現與LLMs相當的結果,并且在提示工程水平相當的情況下,它們通常能夠提高推理的準確性。例如,o3-mini在I-RAVEN-X上沒有出現準確率下降的情況,而在I-RAVEN上與GPT-4相比僅下降了6%,同時使用的提示數量僅為后者的1/21。當我們在類似的提示復雜性下比較這兩款模型時(即在兩種設置中都使用糾纏提示,但由于自一致性,LRMs和LLMs之間仍然保持1/7的比例),o3-mini明顯勝出,準確率提高了6.5%,并且在算術推理方面表現出顯著更強的性能。然而,這需要付出代價,正如模型在推理過程中產生的輸出標記數量所顯示的那樣,與LLMs相比,平均高出兩個數量級。
其次,結果表明,當面臨I-RAVEN-X中更長的推理規則和屬性范圍時,LRMs比LLMs是更強的推理者。盡管在I-RAVEN-X上,LLMs的算術準確率大幅下降,對于類似的提示復雜性,接近0%,但LRMs平均受到的算術退化影響要小得多,有時甚至在整體任務準確率上有所提高。
總體而言,我們觀察到o3-mini和R1在這一類比推理任務上的表現類似,其中o3-mini在標準I-RAVEN上表現更佳,而R1在I-RAVEN-X上表現更好。相比之下,R1的蒸餾版本顯示出比原始模型更弱的結果,尤其是在I-RAVEN-X上。為了進一步提升o3-mini的表現,我們將推理強度從“中等”提升到“高”,并將最大推理次數設置為其最大值(100,000次)。在I-RAVEN上,準確率提高了6%,而在最具挑戰性的I-RAVEN-X設置中,盡管推理強度增加了(推理標記數量增加了2.7倍),準確率仍然保持不變。因此,出于成本效益的考慮,我們選擇了o3-mini(中等)作為后續實驗的解決方案。
5.2. LRMs在不確定性推理中面臨顯著挑戰
第5.1節的結果表明,LRMs在類比推理任務中的表現優于LLMs。然而,在引入不確定性的情境下,它們是否能夠保持同樣的魯棒性呢?為了回答這一問題,我們在第3節提出的I-RAVEN-X擴展版本上對兩款LRMs進行了基準測試。我們采用了與之前在I-RAVEN和I-RAVEN-X上的實驗相同的方法論,僅在絕對必要時對提示進行了微小修改(例如,提供屬性值的概率分布)。本研究的實證結果如表2所示。
首先,我們觀察到當引入模擬感知不確定性的噪聲因素時,LRMs的性能顯著下降。例如,當評估包含10個額外干擾屬性的任務時,o3-mini的任務準確率下降了11.2%,算術準確率下降了15.2%。相比之下,DeepSeek R1對干擾因素更具魯棒性,任務和算術準確率分別僅下降了5.8%和12.2%。然而,當屬性值的分布被平滑化時,R1的性能大幅下降,在最惡劣的情況下任務準確率下降了19.8%,而o3-mini在這種設置下的退化幅度要小得多(5.4%)。
當同時在最高水平評估干擾因素和分布平滑化時,我們觀察到o3-mini的任務準確率急劇下降至17.0%,DeepSeek R1的任務準確率下降至22.8%,兩者都接近隨機猜測水平(12.5%)。此外,對于o3-mini,更具挑戰性的感知不確定性條件直接導致推理標記數量顯著增加(從基礎設置的7209個增加到聯合噪聲實驗的18,589個)。然而,這一趨勢在R1中并未觀察到,其標記數量在不同設置中大致保持不變。即使在推理努力增加的情況下,o3-mini的準確率也僅能略微提高至31.0%,代價是平均推理標記數量增加到53,596個。
總體而言,LRMs在從標準I-RAVEN到帶有感知不確定性的I-RAVEN-X的任務準確率下降幅度相當可觀:o3-mini的準確率下降了69.6%,R1下降了57.2%。測試更長的推理關系和更大的屬性動態范圍在其中只占較小部分(o3-mini下降了5.6%,而R1甚至提高了2.2%的準確率),而感知不確定性才是導致準確率大幅下降的主要原因。
5.3. 神經符號概率溯因模型(NeSy-PAR)在不確定性推理中表現出魯棒性
我們進一步研究了基于概率溯因推理的神經符號模型,特別是ARLC(Camposampiero等,2024),并引入了第4.2節中提出的基于熵的正則化。我們在表2中報告了部分結果,并在附錄D中提供了更廣泛的評估。ARLC在感知不確定性下的推理表現出了顯著的魯棒性,即使在極其惡劣的信噪比條件下(由于干擾因素),也未出現準確率下降,這主要歸功于新穎的基于熵的正則化(如附錄D所示,信噪比低至-20分貝)。此外,ARLC在處理平滑化屬性值分布時仍能保持高準確率。
在最具挑戰性的設置(表2中的組(c))中,ARLC的性能遠優于最佳LRM(ARLC的最佳準確率為88.0%,而最佳LRM為23.2%)。總體而言,盡管在從I-RAVEN到I-RAVEN-X的軌跡中引入了感知不確定性,ARLC仍保持了顯著較高的推理準確率,僅出現了適度的下降(從98.6%降至88.0%),顯著優于LRMs。此外,ARLC即使在使用高度不確定的屬性分布進行訓練時,也能成功學習I-RAVEN背后的一組規則,如附錄D所示。
6. 結論
本研究解決了用于評估LLMs的現有符號類比推理基準測試的一個重大局限性,即它們缺乏對感知不確定性下推理的支持。具體來說,我們在基于RPM的現有基準測試I-RAVEN-X中引入了干擾屬性和平滑的屬性值分布,這兩者共同允許模擬一個不完美的感知前端。然后,我們使用這一基準測試來評估最新一代的開放領域推理系統——大型推理模型(LRMs)。與LLMs相比,LRMs在處理更長的推理關系和更大的屬性范圍方面表現出更高的生產性。然而,LRMs仍然顯著受到(模擬的)感知不確定性的挑戰,這使得模型的推理準確率分別下降了69.6%和57.4%(o3-mini和R1)。另一方面,基于概率溯因的神經符號模型實現了更穩健且準確的性能,但無法像LRMs那樣直接泛化到不同領域。總體而言,我們的結果表明,開放領域的、魯棒的類比推理模型仍然是一個遙不可及的目標,未來需要投入更多的工作來實現這一目標。
附錄
附錄A. 關于RPM和提示的更多細節
Raven漸進矩陣(RPM)是一項視覺任務,涉及感知模式的延續、元素的抽象以及基于一組有限的底層規則推導關系,這一過程反映了高級人類智力的屬性(Snow等,1984;Snow和Lohman,1984)。在本研究中,我們專注于I-RAVEN數據集。
I-RAVEN中的每個RPM測試是一個類比問題,以一個3×3的圖像矩陣形式呈現上下文面板。矩陣中的每個面板都根據一定的規則填充了多個幾何圖形,除了右下角的面板留空。圖A.2包含了一個I-RAVEN示例測試。任務是從一組(八個)候選答案面板中選擇正確答案,以完成缺失的面板,這些候選答案面板與每個屬性的隱含生成規則相匹配。物體的屬性(顏色、大小、形狀、數量、位置)由各自的底層規則控制:
常數:屬性值在每一行中保持不變;
算術:第三面板的屬性值對應于該行前兩個面板的和或差;
遞進:屬性值在行中單調增加或減少1或2;
三分布:三組不同的值在行中保持不變,但各個屬性值在每一行中向左或向右移動一個位置;它也適用于列。
每個面板包含一個可變數量的物體(最少一個,最多九個),這些物體根據七種不同的星座排列(中心、四分布、九分布、左右、上下、內外中心和內外四)。
我們在表A.3、A.4、A.5和A.6中報告了實驗中使用的一些提示示例。用于支持思維鏈(CoT)的提示風格受到了Wüst等(2024)的啟發。為了自動檢索模型的答案,我們提示它以“我的答案:答案# <你的答案> ”的格式提供答案。默認情況下,如果無法檢索到答案,則預測答案面板#0。
附錄B. OpenAI o3-mini與o1的比較
本附錄對兩種不同的閉源LRMs,OpenAI o1和OpenAI o3-mini,進行了一個小規模的消融研究。這些實驗的目標是衡量o3-mini模型與它更大、更昂貴的前身o1在推理能力上是否存在差異。我們將I-RAVEN和I-RAVEN-X的測試集大小均限制為100個測試示例。表B.7中呈現的結果表明,這兩款模型在I-RAVEN和I-RAVEN-X上均實現了大致相當的性能,o3-mini的準確率始終略低于o1。然而,o1的成本也顯著高于o3-mini:o1的每百萬輸入和輸出標記的價格分別為15美元和60美元,而o3-mini僅為1.1美元和4.4美元(大約便宜14倍)。因此,我們在完整的評估中選擇僅使用o3-mini。
附錄C. I-RAVEN中的“噪聲屬性”并非真正的噪聲
本附錄強調了RAVEN和I-RAVEN中所謂的“噪聲屬性”(方向和均勻性)的一個主要局限性。實際上,這些屬性并沒有在推理過程中引入任何噪聲,原因如下:
這些屬性的值始終遵循RAVEN的底層規則之一(例如,在圖C.3所示的示例中,方向可以通過“常數”規則推斷出來);因此,如果將這些屬性與其他主要屬性一起用于以數據驅動的方式學習RAVEN的規則,它們不會引入任何噪聲;
在推理時,這些屬性不會降低RAVEN示例的信噪比,也不會改變候選面板的概率分布(例如,在圖C.3中,所有候選面板的可能性均等,這不會影響最終答案面板的預測)。
因此,僅憑這些屬性本身并不會增加RAVEN的難度。在第3節中為I-RAVEN-X引入的干擾因素通過在每個屬性的動態范圍內隨機采樣,解決了上述兩個問題。
附錄D. ARLC的額外實驗結果
本附錄提供了關于我們的神經符號基線模型ARLC的額外結果,這些結果由于篇幅限制未包含在主文中。
首先,我們通過將第4.2節中提出的基于熵的正則化引入ARLC,并將其改進版本與模型的原始版本進行比較,來評估這種正則化的有效性。我們在兩種不同的設置中進行了這一消融實驗:
1. 在帶有干擾因素的環境中進行訓練和推理,以測試模型是否能夠在帶有噪聲監督的環境中學習到RAVEN示例背后的正確規則集;
2. 在干凈數據上進行訓練,在帶有干擾因素的環境中進行推理,以測試模型在推理時的魯棒性。
自然地,模型也在干擾屬性上進行訓練的設置更具挑戰性,因為用于學習任務底層規則的訓練信號會隨著干擾屬性數量的增加而線性減少。我們在表D.8中報告了這兩種設置的結果,涵蓋了I-RAVEN-X支持的兩種動態范圍。從結果可以看出,無論是在訓練+推理還是僅推理時使用,基于熵的正則化都顯著提高了模型的性能。在后一種情況下,隨著屬性數量的增加,它與原始模型相比變得更加有效。
為了強調所提出的基于熵的正則化的魯棒性,我們還在極端噪聲條件下進行了測試(信噪比為-20分貝,300個干擾屬性)。由于在這種大量屬性下評估模型開始變得越來越昂貴,我們將評估限制在1000范圍的子集上,并將使用的不同種子數量從5個減少到3個。我們觀察到,盡管平均任務準確率開始下降,但某些運行仍然可以實現顯著的準確率,這表明這種技術有可能使概率溯因推理模型在只有極少數提取的屬性對推理任務重要的環境中表現良好。
除了主文中包含的關于平滑分布的實驗外,我們還研究了當輸入分布使用高斯濾波器進行擾動時ARLC的魯棒性。這比主文中采用的三箱平滑策略更具一般性,后者主要是為了限制LRMs提示的復雜性而選擇的。特別是,我們使用高斯濾波器對輸入分布進行平滑處理:
其中,對應于真實值的索引,而 是一個可調節的參數,用于控制結果分布的平坦程度。我們研究了不同的訓練和推理擾動設置及其組合,以更全面地了解ARLC在這種設置下的行為。特別是,我們評估了以下三種獨立的設置:
1. 使用噪聲分布進行訓練和測試,以了解模型在屬性值始終存在不確定性的情況下的表現;
2. 在噪聲分布上進行訓練并在干凈數據上進行評估,以評估模型是否可以從噪聲數據中學習有效的規則;
3. 在干凈數據上進行訓練并在噪聲分布上進行評估,以了解正確學習了RAVEN底層規則的模型在使用不完美的感知前端進行評估時的表現。
我們在表D.9中報告了這一消融實驗的結果。從這些數據中可以得出一些有趣的觀察結果。首先,我們觀察到在噪聲數據上進行訓練并在干凈數據上進行評估總是能夠獲得具有競爭力的性能。這清楚地表明,盡管訓練過程中存在噪聲,ARLC仍然可以學習到一組有效的規則,從而在去噪數據上獲得良好的結果。盡管平均準確率顯示出與 成比例的下降(這是預期的,因為在最惡劣的設置中,真實值的概率低于所有非真實值概率之和),但我們仍然可以在某些運行中恢復接近完美的準確率,正如這些實驗報告的最大準確率所示。這是令人鼓舞的,因為使用驗證集進行模型選擇將使我們能夠識別并選擇在訓練過程中學習到最佳規則集的模型。
另一方面,使用平滑化的屬性分布對在干凈數據上訓練的模型(這些模型學習到了一組良好的規則)進行評估會顯著降低測試準確率,尤其是對于較大的 值。不幸的是,對此幾乎無法采取措施加以解決。然而,這仍然是一個有趣的結果,因為它突顯了在抽象推理中自信的前端感知的重要性,表明過度平坦化的屬性分布可能會嚴重削弱推理過程的準確性。最后,我們觀察到使用平滑化分布進行訓練通常(至少在最大測試準確率方面)比在干凈數據上進行訓練并在平滑化分布上進行評估獲得更好的結果。這可能表明,有時在訓練過程中引入不確定性可以增加模型在推理時的魯棒性,并保證比僅在干凈數據上訓練的模型獲得更好的性能。
原文鏈接: https://arxiv.org/pdf/2503.11207
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.