Eric Zhao,目前是美國加州大學伯克利分校的一名博士生,師從于美國三院院士邁克爾·歐文·喬丹(Michael I. Jordan)。值得注意的是,圖靈獎得主約書亞·本吉奧(Yoshua Bengio)和吳恩達等,也曾師從于喬丹院士 [1]。
圖 | Eric Zhao(來源:https://eric-zhao.com/)
更早之前,Eric Zhao 在美國加州理工學院獲得了理學學士學位。名師指導加上個人努力,讓 Eric Zhao 在過去三年間先后獲得 NeurIPS 最佳論文獎、美國國家科學基金會研究生研究獎學金和谷歌博士獎學金,并在 Google Rearch、Nvidia Research 和 Salesforce Research 等公司積累了實習經(jīng)驗。
最近,Eric Zhao 和合作者基于采樣的搜索的擴展趨勢,通過擴展基于采樣的搜索的最簡實現(xiàn),僅僅使用隨機采樣和直接自我驗證就能提供一種實用的推理方法,該方法讓 Gemini v1.5 Pro 的推理能力在流行的基準測試中超越 OpenAI 的 o1-Preview。
這一成果挑戰(zhàn)了“要想實現(xiàn)頂級模型性能就必須采取高度專業(yè)化訓練或者采取復雜架構”的傳統(tǒng)做法。
(來源:arXiv)
Eric Zhao 在 X 上寫道:“通過隨機抽取 200 個回復并進行自我驗證,Gemini 1.5(一個古老的 2024 年初模型)擊敗了 o1-preview 并接近 o1。”“神奇的是,自我驗證在規(guī)模化后自然變得更容易!你可能會認為,解決方案池越大,挑選出正確的解決方案就越難,但事實并非如此!”
據(jù)了解,對于基于采樣的搜索的可擴展性,Eric Zhao 等人將其部分歸因于一種隱式擴展現(xiàn)象,即從更大的響應池中進行采樣,反過來會提高自我驗證的準確性。
研究團隊進一步提出兩個通用原則,以用于通過測試時計算來提高自我驗證能力:
第一個通用原則是,通過對比不同回答可以針對錯誤位置和幻覺位置提供關于有用的線索。
第二個通用原則是,不同的模型輸出風格適用于不同的情境,盡管思維鏈對于推理非常有用,但是也更加難以驗證。
研究團隊還發(fā)現(xiàn),盡管一些前沿模型能夠實現(xiàn)準確驗證,但是其開箱即用的驗證能力卻相當薄弱,因此他們通過引入一個基準,來衡量這些不足之處的改進情況。
基于采樣的搜索——是一種利用測試時計算的簡單范式,它涉及生成多個潛在響應并選擇其中最好的一個,通常是讓模型針對每個響應進行自我驗證以便確定其正確性。
近期,語言模型領域的新進展凸顯了測試時計算擴展的重要性,即在推理過程中使用更多計算資源能夠增強模型的推理能力。
Eric Zhao 和合作者指出,提高測試時計算利用率的方法有很多,比如通過強化學習隱式地鼓勵模型生成更長的響應,再比如還可以通過明確提示來達到這一目的。
但是,Eric Zhao 等人認為作為“生成-測試”方法的一種實例,基于采樣的搜索——即模型通過隨機采樣或委托等方式生成多個響應并從中選擇其推測為最佳的一個,仍是最自然的范式之一。
除了能與其他測試時計算擴展策略實現(xiàn)互補之外,基于采樣的搜索不僅具有極高的并行性,并且能夠實現(xiàn)任意程度的擴展。而要想實現(xiàn)這些目的,只需要采樣更多響應即可。
因此,他們認為隨著語言模型在前沿數(shù)學和科學問題上的應用,基于采樣的搜索將發(fā)揮著越來越重要的作用。
其表示,盡管已有研究展示了基于采樣的搜索方法所帶來的優(yōu)勢,但是關于測試時計算擴展策略的規(guī)模趨勢仍有許多問題有待解答。
為了進一步探索上述問題,Eric Zhao 等人研究了一種基于采樣的搜索的簡約且有效的實例,該實例使用語言模型通過隨機采樣生成一組候選響應,并通過使用自然語言來驗證每個響應,以便能夠選出最佳響應。
具體來說,該團隊所考慮的情況是:模型必須自我驗證其響應以便選擇最佳答案,同時不做可以訪問真實答案、或精確驗證正確性的符號系統(tǒng)的硬性假設。
基于這一前提,他們探討的問題是:當同時擴大采樣響應的數(shù)量和驗證能力時會展現(xiàn)出哪些測試時間擴展趨勢?擴展這種基于采樣的搜索范例的極限是什么?以及在擴大搜索規(guī)模時要將驗證能力連續(xù)擴展到什么程度?
通過本次研究,他們證明即使將測試時計算資源擴展到遠超自一致性方法的性能飽和點,基于采樣的搜索在推理性能上仍能持續(xù)改進。(注:自一致性方法,是一種通過模型內部機制確保輸出穩(wěn)定性和邏輯一致性的技術,其核心是通過多路徑推理和結果聚合提升模型的可靠性和泛化能力。)
在規(guī)模較大的應用中,即便他們采用最簡單的實現(xiàn)方式,推理準確性也能得到顯著提升。在 LiveBench 和 AIME 等推理基準測試中,Gemini v1.5 Pro 的性能超越了 OpenAI 的 o1 - Preview 版。與此同時,Gemini v1.5 Flash 的性能也能超越 Gemini v1.5 Pro,并在后一項基準測試中呈現(xiàn)出持續(xù)冪律擴展的特性。
這不僅凸顯了基于采樣的搜索對于模型擴展能力的重要性,還表明基于采樣的搜索不僅能作為一種基線以用于對比其他測試時計算資源擴展策略,并能用于衡量模型搜索能力是否真正得到了提升。
研究人員在論文中表示,他們將基于采樣的搜索的強烈擴展趨勢,主要歸因于一種隱式擴展現(xiàn)象。
人們通常認為采樣更多的響應,會給驗證帶來更大的負擔并會降低驗證的準確性。但是,該團隊觀察到在擴大采樣規(guī)模之后,會間接地提高驗證準確性。
從宏觀層面來看,這是因為“好響應”比“差響應”更容易被驗證,而擴大采樣規(guī)模則能增加“好響應”的候選響應數(shù)量。
進一步地,研究團隊制定了兩種利用測試時計算來擴展驗證能力的策略:
第一種策略是直接比較候選答案;第二種策略是針對特定任務的候選回答加以重寫。
前者利用候選響應之間的差異,來為錯誤可能出現(xiàn)的位置提供強烈信號,從而能夠彌補語言模型的如下核心弱點——即除非明確指出錯誤位置,否則語言模型很難識別出錯誤和幻覺。
后者基于研究團隊對于輸出風格適用性的觀察,即在生成回復的時候,思維鏈輸出格式的確是有益的,但相比更正式、更符合數(shù)學常規(guī)的寫作風格它卻更加難以驗證。
在論文中,研究團隊通過下表介紹了本次發(fā)現(xiàn):即通過有效的自我驗證,僅僅通過擴大基于采樣的搜索范圍,就足以在推理和數(shù)學基準測試上讓模型性能接近最先進模型的性能。
(來源:arXiv)
具體來說,他們展示了 Gemini v1.5 Pro 模型在以下情況下的準確性:每個問題只嘗試一個解決方案(Pass@1),嘗試 200 個解決方案并選擇最常見的最終答案(Consistency@200),以及在基于采樣的搜索中嘗試 200 個解決方案并評估其正確性,最終選擇得分最高的解決方案(Verification@200)。
需要說明的是:Pass@1,是一種常用于評估生成模型的指標,旨在衡量模型在給定任務中第一次生成的答案是否正確。Consistency,指的是模型在不同情境下能夠保持一致的行為和輸出。Verification,是一種評估模型輸出穩(wěn)定性和邏輯一致性的指標。
在基于采樣的搜索(Verification@200)方面,Gemini v1.5 的性能超越了 OpenAI 的 o1-Preview。
研究中,課題組探討了推理能力跟隨兩個基本測試時計算軸的變化規(guī)律。
出于計算方面的考慮,研究人員采用了無視平分的簡化版算法 1。
所有數(shù)據(jù)都基于 20 個隨機種子進行平均,其中每次運行都會從一次主運行中抽取解決方案和驗證分數(shù)進行子采樣。主運行會為每個問題抽取 200 個解決方案,并為每個解決方案抽取 50 個驗證分數(shù)。
(來源:arXiv)
在本次研究之中:搜索,指的是用于發(fā)現(xiàn)候選解決方案的計算過程。驗證,指的用于仔細檢查候選解決方案的計算。
下圖展示了研究團隊在擴大搜索和驗證規(guī)模時,每個基準測試的 Verification@k 熱圖。
(來源:arXiv)
除了在規(guī)模的兩個維度上都存在明顯的預熱成本之外,研究團隊還觀察到當搜索和驗證都實現(xiàn)規(guī)模化時,能取得最為顯著的性能提升。(注:預熱成本,主要指在模型訓練或部署前需要投入的初始資源成本。)
這些趨勢還表明,基于采樣的搜索的性能在本次基準測試中尚未達到飽和狀態(tài)。
在 AIME 基準測試中,這種擴展趨勢最為明顯,即性能會受到 k(搜索)的瓶頸限制。研究團隊將這一瓶頸限制歸因于 AIME 問題的難度,其認為這些高難度問題導致獲得正確解的概率變得極低。
(來源:arXiv)
通過增加采樣點即增大 k 值,研究人員沿搜索軸來擴展基于采樣的搜索范圍,這將對性能產(chǎn)生兩種相互抵消的影響:
第一個影響是驗證器必須區(qū)分出更多的解決方案,從而增加了出錯的可能性。
第二個影響是生成器更有可能產(chǎn)生至少一個能得出正確最終解的解決方案。
為了隔離第一個影響,研究團隊研究了模型在模棱兩可問題上的 Verification@k 準確率,即模型在 k 個候選解決方案中至少有一個方案能夠達成最終的正確答案。
在控制 Pass@k 的增長之后,如果增加 k 值但是保持驗證嘗試次數(shù)不變,預計準確率會呈下降趨勢。
然而,他們卻發(fā)現(xiàn)了完全相反的趨勢,即準確率會隨 k 的增加而提高。
(來源:arXiv)
這表明當增加生成響應的數(shù)量時,不僅可以增加至少一個響應正確的機會,還可以增加至少一個具有更高質量的正確響應的機會。
在本次研究中,質量——可以理解為答案的嚴謹性或無瑕疵性。質量較低的解決方案可能在大體上是正確的,但是無法證明其推理過程中的某個關鍵步驟的合理性,或者無法證明在某個非關鍵步驟中是否存在錯誤。
隱式擴展表明,通過使用功能更強大的基礎模型,驗證結果應該變得更加準確,因此基于采樣的搜索應該也能變得更加有效,從而產(chǎn)生更加合理的推理以及更加令人信服的正確證明。
研究中,課題組還觀察到這一現(xiàn)象:Verification@k 超出了 Consistency@k 飽和點的擴展。
在技術難度最高的基準測試 AIME 上,Verification@k 展現(xiàn)出冪律擴展能力,而 Consistency@k 則開始趨于穩(wěn)定。
Consistency@k 的快速飽和可以歸因如下:盡管它在小規(guī)模上能夠有效地消除噪聲錯誤,但是當它收斂到最可能的響應時,必然會趨于穩(wěn)定。例如,在 AIME 上,Consistency@50 的準確率與 Consistency@10000 相同。
研究人員指出,Consistency@k 不太可能返回正確解。但是,對于一個真實有效的驗證器來說,它仍然有希望在響應分布的長尾中,檢測到罕見但正確的解決方案。
研究團隊在 2024 年 AIME 的考試中就找到了一個這樣的例子。其中,Gemini v1.5 模型在識別考試 II 第 11 題的正確答案時遇到了困難。在 200 個從隨機抽樣的 Gemini v1.5 解決方案中得出的最終答案中,只有一個答案是正確的。
相比之下,從響應分布的長尾部分,驗證器能夠識別出那些得出正確答案的解決方案。鑒于擴展驗證能力是推動搜索性能提升的關鍵,這讓模型能夠在置信度為 98% 和 76% 這些看似正確的答案之間進行區(qū)分。
事實上,既然驗證器能夠如此有效地利用模型響應分布的長尾,這也表明 Pass@k(而不是 Pass@1)應該成為搜索應用程序的關鍵性能指標。
研究人員指出,現(xiàn)有的后訓練技術例如人類反饋強化學習技術旨在針對 Pass@1 進行優(yōu)化,但這可能會以犧牲 Pass@k 為代價并會抑制模型的搜索能力。
如前所述,研究團隊還確定了兩條通用原則,以便更有效地引導語言模型進行自我驗證。
第一個通用原則是:通過比較答案來定位錯誤。候選解決方案之間的不一致能夠強烈暗示錯誤的潛在位置,從而能夠應對模型在識別錯誤和出現(xiàn)幻覺時召回率低(即經(jīng)常忽略)的問題。這是因為當提供錯誤所在的位置時,模型就能識別出錯誤。具體來說,可以通過向驗證器提供其他答案來比較候選答案,從而改進候選答案的自我驗證。
第二個通用原則是:通過重寫響應來適應輸出風格。語言模型的最佳輸出風格應該取決于任務類型。在生成響應的時候,采用線性思維鏈是有效的。然而,當以嚴謹、層次化和模塊化的方式編寫時,響應更容易得到驗證。這時,就可以利用這一特性,讓驗證器首先將候選回答改寫為可擴展的、符合數(shù)學常規(guī)的“定理-引理-證明”格式(theorem-lemma-proof format),而不是直接去評估思維鏈。(注:當 AI 生成數(shù)學解答或生成代碼時,“定理-引理-證明”格式是驗證器判斷答案正確性的關鍵依據(jù)。)
另外,這兩個通用原則還為利用測試時計算資源來擴展自我驗證能力提供了手段。一方面,它們可以通過采樣為驗證器提供更多可供對比的響應。另一方面,它們能以更高的嚴謹性和結構化程度針對響應進行改寫。
總的來說,本次論文研究了基于采樣的搜索的規(guī)模化趨勢。研究團隊預計隨著語言模型將被用于解決越來越復雜的問題,同時可被使用的計算資源越來越大,因此基于采樣的搜索將發(fā)揮至關重要的作用。另外,隨著模型學會利用隱式擴展和輸出樣式適用性等原則,以及基于采樣的搜索的擴展率能夠得到提高,模型的自我驗證能力將在短期內迅速提升。
需要說明的是,已有業(yè)內人士針對本次成果提出了不同意見。加拿大阿爾伯塔大學人工智能研究員和助理教授馬修·古茲迪亞爾(Matthew Guzdial)告訴媒體,這種方法在有良好的“評估函數(shù)”時最有效。換句話說,當一個問題的最佳答案可以輕松確定時這種方法最為有效,但是大多數(shù)查詢并不是那么黑白分明。不過,Eric Zhao 并不認同這一觀點。至于本次成果是否真的能夠站得住腳,或許還需更多實踐來檢驗。
參考資料:
https://baike.baidu.com/item/%E8%BF%88%E5%85%8B%E5%B0%94%C2%B7%E6%AC%A7%E6%96%87%C2%B7%E4%B9%94%E4%B8%B9/20825263
https://arxiv.org/pdf/2502.01839
運營/排版:何晨龍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.