網易首頁 > 網易號 > 正文申請入駐

一文讀懂「AI大模型高效推理」：分類、局限性和3大提升方法

2025-04-05 09:10:32　來源: 學術頭條

北京舉報

分享至

在一些需要慢思考的場景中，如數學問題求解或科學研究，大型推理模型（LRM）需要在給出最終回答之前，進行分析性和深思熟慮的推理。

然而，LRM 深思熟慮的推理過程導致其資源消耗極高，帶來了 token 消耗大、內存開銷高和推理時增加等一系列挑戰，這不僅增加了服務公司的推理成本，也降低了用戶的體驗。

以往針對 LLM 推理效率的研究，如模型壓縮、高效模型設計和系統級優化等，雖然能夠緩解高內存開銷和推理時增加的問題，但并非專門為 LRM 設計，無法有效地解決 LRM 中 token 低效的問題。

為此，來自新加坡國立大學的團隊及其合作者進行了專門針對 LRM 的高效推理方法的綜述，重點關注在保持推理質量的同時緩解 token 效率低下的問題。主要貢獻如下：

對當前的 LRM 高效推理方法進行了全面的論文綜述，并進行了分層分類，即顯式緊湊型思維鏈（explicit compact CoT）和隱式潛在型思維鏈（implicit latent CoT），以及優缺點討論。
從性能和效率的角度對最新方法進行了實證研究，并從用戶控制、可解釋性、安全性和應用方面總結了 4 個挑戰：用戶可控推理、推理可解釋性與效率平衡、安全保障和應用拓展。
強調了從模型合并、非自回歸架構和 agent 路由的角度進一步改進現有方法的技術見解。

圖｜綜述框架

圖｜大型推理模型的推理方法分類

相關研究論文以

Efficient Inference for Large Reasoning Models: A Survey

為題，已發表在預印本網站 arXiv 上。

LRM 的兩大分類

根據當前的研究形式，研究團隊將 LRM 分為了兩大類：

顯式緊湊型 CoT，通過引入顯式指令、獎勵或預算約束來鼓勵使用較短的推理鏈，而不是冗長的 CoT。
隱式潛在型 CoT，將顯式的長 CoT 壓縮為緊湊、連續的推理狀態。

圖｜GSM8K 數據集上最新推理方法的基準測試

研究團隊認為，隱式潛在型 CoT 在推理準確度上可以超過顯式緊湊型 CoT，同時也能夠顯著降低生成的成本。

1.顯式緊湊型 CoT

最近的研究關注如何在保持推理準確性的同時，開發更緊湊的推理路徑：

CoT 壓縮。通過將中間推理限制在必要步驟、使用一個小的路由模型生成推理草圖、動態調整推理 token 等方式，在保持解決方案質量的同時簡化推理過程。但可能會犧牲透明度，存在忽略關鍵的中間邏輯的風險，這可能會破壞可解釋性。

基于緊湊推理鏈的微調。利用 LLM 生成壓縮的長 CoT 版本、整理專家驗證的簡潔答案、標注數據集進行微調等方法，提高了 LRM 的效率，但成本高，并且依賴于精心整理的數據集和大量再處理工作，限制了它們對開放式領域的適應性。

基于獎勵的激勵。越來越多的研究引入明確的獎勵信號，例如基于長度的獎勵以抑制冗長的推理；利用強化學習訓練模型以進行動態資源分配；基于推理成本控制推理分布；平衡對心推理路徑的探索與對簡潔、已驗證推理路徑的利用；交互式或用戶導向的長度控制機制。

但是，這類激勵信號可能導致模型傾向于簡單答案，影響復雜任務的深度推理。并且，僅靠效率不足以實現實際部署，現實的應用程序需要在緊湊性、推理魯棒性、可解釋性和域泛化（domain generalization）之間取得平衡。

圖｜顯式緊湊型 CoT 的要點

2.隱式潛在型 CoT

隱式潛在型 CoT 則通過將推理從顯式 token 轉移到潛在 token，在隱藏層而非自然語言中編碼推理，以此提升 token 效率。用知識蒸餾、潛在嵌入、沉思 token 等方法，優化了各個層面的推理，在保持準確性的同時減少了延遲。

這類方法通過內化推理步驟提高效率，在推理準確性上甚至可以超越顯式 CoT 方法，且能顯著降低生成成本，展現出良好的可擴展性，但犧牲了模型的可解釋性，使得推理過程難以驗證。

圖｜隱式潛在型 CoT的要點

研究團隊認為，未來的工作應側重于從潛在表征中提取人類可解釋的推理痕跡，從而實現效率和透明度的平衡。

局限性和挑戰

此外，研究團隊也從用戶體驗、可解釋性、安全性和應用性的角度，討論了現有推理方法的局限性和挑戰。

圖｜局限性和挑戰的要點

在用戶體驗方面，盡管部分 LRM 已支持用戶配置推理模式，使用戶能夠調整推理深度，在透明度和效率之間取得平衡，同時優化用戶體驗，但還需探索更精細的控制機制，可以側重于用戶的交互式和個性化推理。

在可解釋性上，當前為提高效率的方法可能會降低可解釋性，比如減少顯式推理步驟或轉向潛在表示推理，使得理解模型結論的得出過程變得困難。未來的研究應開發適應性推理策略來平衡效率和可解釋性。

當涉及安全性時，現有高效推理方法在提升 token 效率的同時，可能會破壞 LRM 的安全對齊，增加越獄攻擊和隱私泄露等風險。未來的工作應在訓練中整合安全約束，并制定更強有力的基于推理的保障措施。

從應用的角度來看，在社會科學、情感智能和創意寫作等領域，LRM 存在開放式問題，比如難以制定明確目標，且高計算需求和延遲限制了其在時間敏感領域的應用。高效的推理方法則可以提高 LRM 在更廣泛應用中的可行性，例如實時應用程序和開放式任務。

3 個方法，提高推理效率

那么，如何提高 LRM 的推理效率呢？

研究團隊從新架構、模型合并、agent 路由 3 個方面提出了提升 LRM 推理效率的策略。

在新架構方面，主要包括混合自回歸和擴散模型、內存高效 transformers 和基于圖的推理，是進一步提高推理效率同時保持推理質量的潛在技術。

在模型合并上，將傳統 LLM 和 LRM 的模型權重合并，使合并后的模型兼具 LLM 的快速響應和 LRM 的推理能力。但在模塊選擇、權重分配和架構兼容性方面存在挑戰。

agent 路由則是根據任務難度為不同的 LRM 分配資源，以優化推理效率。目前包括兩種路由策略：一是基于路由模型，通過訓練一個獨立的路由模型，根據輸入任務的特征決定使用哪個 LRM；二是基于信心指標，利用模型對自身預測的信心程度來選擇合適的 LRM 。

圖｜進一步優化的要點

如需了解更多詳情，請查看原論文。

論文鏈接：https://arxiv.org/abs/2503.23077

整理：錦鯉

如需轉載或投稿，請直接在公眾號內留言

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.