在一些需要慢思考的場景中,如數學問題求解或科學研究,大型推理模型(LRM)需要在給出最終回答之前,進行分析性和深思熟慮的推理。
然而,LRM 深思熟慮的推理過程導致其資源消耗極高,帶來了 token 消耗大、內存開銷高和推理時增加等一系列挑戰,這不僅增加了服務公司的推理成本,也降低了用戶的體驗。
以往針對 LLM 推理效率的研究,如模型壓縮、高效模型設計和系統級優化等,雖然能夠緩解高內存開銷和推理時增加的問題,但并非專門為 LRM 設計,無法有效地解決 LRM 中 token 低效的問題。
為此,來自新加坡國立大學的團隊及其合作者進行了專門針對 LRM 的高效推理方法的綜述,重點關注在保持推理質量的同時緩解 token 效率低下的問題。主要貢獻如下:
對當前的 LRM 高效推理方法進行了全面的論文綜述,并進行了分層分類,即顯式緊湊型思維鏈(explicit compact CoT)和隱式潛在型思維鏈(implicit latent CoT),以及優缺點討論。
從性能和效率的角度對最新方法進行了實證研究,并從用戶控制、可解釋性、安全性和應用方面總結了 4 個挑戰:用戶可控推理、推理可解釋性與效率平衡、安全保障和應用拓展。
強調了從模型合并、非自回歸架構和 agent 路由的角度進一步改進現有方法的技術見解。
圖|綜述框架
圖|大型推理模型的推理方法分類
相關研究論文以
Efficient Inference for Large Reasoning Models: A Survey為題,已發表在預印本網站 arXiv 上。
LRM 的兩大分類
根據當前的研究形式,研究團隊將 LRM 分為了兩大類:
顯式緊湊型 CoT,通過引入顯式指令、獎勵或預算約束來鼓勵使用較短的推理鏈,而不是冗長的 CoT。
隱式潛在型 CoT,將顯式的長 CoT 壓縮為緊湊、連續的推理狀態。
圖|GSM8K 數據集上最新推理方法的基準測試
研究團隊認為,隱式潛在型 CoT 在推理準確度上可以超過顯式緊湊型 CoT,同時也能夠顯著降低生成的成本。
1.顯式緊湊型 CoT
最近的研究關注如何在保持推理準確性的同時,開發更緊湊的推理路徑:
CoT 壓縮。通過將中間推理限制在必要步驟、使用一個小的路由模型生成推理草圖、動態調整推理 token 等方式,在保持解決方案質量的同時簡化推理過程。但可能會犧牲透明度,存在忽略關鍵的中間邏輯的風險,這可能會破壞可解釋性。
基于緊湊推理鏈的微調。利用 LLM 生成壓縮的長 CoT 版本、整理專家驗證的簡潔答案、標注數據集進行微調等方法,提高了 LRM 的效率,但成本高,并且依賴于精心整理的數據集和大量再處理工作,限制了它們對開放式領域的適應性。
基于獎勵的激勵。越來越多的研究引入明確的獎勵信號,例如基于長度的獎勵以抑制冗長的推理;利用強化學習訓練模型以進行動態資源分配;基于推理成本控制推理分布;平衡對心推理路徑的探索與對簡潔、已驗證推理路徑的利用;交互式或用戶導向的長度控制機制。
但是,這類激勵信號可能導致模型傾向于簡單答案,影響復雜任務的深度推理。并且,僅靠效率不足以實現實際部署,現實的應用程序需要在緊湊性、推理魯棒性、可解釋性和域泛化(domain generalization)之間取得平衡。
圖|顯式緊湊型 CoT 的要點
2.隱式潛在型 CoT
隱式潛在型 CoT 則通過將推理從顯式 token 轉移到潛在 token,在隱藏層而非自然語言中編碼推理,以此提升 token 效率。用知識蒸餾、潛在嵌入、沉思 token 等方法,優化了各個層面的推理,在保持準確性的同時減少了延遲。
這類方法通過內化推理步驟提高效率,在推理準確性上甚至可以超越顯式 CoT 方法,且能顯著降低生成成本,展現出良好的可擴展性,但犧牲了模型的可解釋性,使得推理過程難以驗證。
圖|隱式潛在型 CoT的要點
研究團隊認為,未來的工作應側重于從潛在表征中提取人類可解釋的推理痕跡,從而實現效率和透明度的平衡。
局限性和挑戰
此外,研究團隊也從用戶體驗、可解釋性、安全性和應用性的角度,討論了現有推理方法的局限性和挑戰。
圖|局限性和挑戰的要點
在用戶體驗方面,盡管部分 LRM 已支持用戶配置推理模式,使用戶能夠調整推理深度,在透明度和效率之間取得平衡,同時優化用戶體驗,但還需探索更精細的控制機制,可以側重于用戶的交互式和個性化推理。
在可解釋性上,當前為提高效率的方法可能會降低可解釋性,比如減少顯式推理步驟或轉向潛在表示推理,使得理解模型結論的得出過程變得困難。未來的研究應開發適應性推理策略來平衡效率和可解釋性。
當涉及安全性時,現有高效推理方法在提升 token 效率的同時,可能會破壞 LRM 的安全對齊,增加越獄攻擊和隱私泄露等風險。未來的工作應在訓練中整合安全約束,并制定更強有力的基于推理的保障措施。
從應用的角度來看,在社會科學、情感智能和創意寫作等領域,LRM 存在開放式問題,比如難以制定明確目標,且高計算需求和延遲限制了其在時間敏感領域的應用。高效的推理方法則可以提高 LRM 在更廣泛應用中的可行性,例如實時應用程序和開放式任務。
3 個方法,提高推理效率
那么,如何提高 LRM 的推理效率呢?
研究團隊從新架構、模型合并、agent 路由 3 個方面提出了提升 LRM 推理效率的策略。
在新架構方面,主要包括混合自回歸和擴散模型、內存高效 transformers 和基于圖的推理,是進一步提高推理效率同時保持推理質量的潛在技術。
在模型合并上,將傳統 LLM 和 LRM 的模型權重合并,使合并后的模型兼具 LLM 的快速響應和 LRM 的推理能力。但在模塊選擇、權重分配和架構兼容性方面存在挑戰。
agent 路由則是根據任務難度為不同的 LRM 分配資源,以優化推理效率。目前包括兩種路由策略:一是基于路由模型,通過訓練一個獨立的路由模型,根據輸入任務的特征決定使用哪個 LRM;二是基于信心指標,利用模型對自身預測的信心程度來選擇合適的 LRM 。
圖|進一步優化的要點
如需了解更多詳情,請查看原論文。
論文鏈接:https://arxiv.org/abs/2503.23077
整理:錦鯉
如需轉載或投稿,請直接在公眾號內留言
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.