機器之心報道
編輯:劉欣
在人工智能領域,語言模型的發展日新月異,推理能力作為語言模型的核心競爭力之一,一直是研究的焦點,許多的 AI 前沿人才對 AI 推理的效率進行研究。
高昂的計算成本和復雜的硬件需求一直是制約 AI 推理技術廣泛應用的瓶頸。
你是否想過,如何在資源有限的情況下,讓語言模型擁有強大的推理能力呢?
近日,南加州大學的團隊發表了一篇名為 「Tina: Tiny Reasoning Models via LoRA」的論文,給出了令人眼前一亮的答案。
SophontAI 的 CEO Tanishq Abraham 博士還在 X 上轉推了這篇論文。
- Notion 博客: https://shangshangwang.notion.site/tina
- 代碼倉庫: https://github.com/shangshang-wang/Tina
- 訓練日志: https://wandb.ai/upup-ashton-wang-usc/Tina
- 模型權重及檢查點: https://huggingface.co/Tina-Yi
- 論文地址:https://arxiv.org/abs/2504.15777
團隊將「小型」 模型架構以及通過基于 LoRA 的強化學習這兩個要素整合后發布了Tina(通過 LoRA 的微型推理模型)系列模型,該系列模型以極低的成本實現了出色的推理性能
Tina(通過 LoRA 的微型推理模型)系列模型不僅擁有高效強化學習推理的驚人效果,還可以快速推理格式適應假說、使強化學習推理更具普適性。團隊提供了一種可復現且極具成本效益的方法,使更多人能夠參與到強化學習技術的探索中,而無需大量計算資源。
值得注意的是,復現表現最佳的 Tina 模型檢查點的成本僅為 9 美元,而從頭開始復現研究的所有實驗以及本文中展示的全部內容的成本為 526 美元。
在當前人工智能技術飛速發展的背景下,Tina 模型的出現無疑為行業帶來了一股清新的空氣。它不僅展示了在有限資源下實現高效推理的可能性,也為未來的 AI 應用開發提供了新的思路和方向。
接下來,讓我們深入了解 Tina 模型的創新之處及其背后的研究細節。
Tina
基于低秩自適應(LoRA)的微型推理模型
Tina 通過在強化學習(采用類似 GRPO 的算法)過程中運用低秩自適應(LoRA)技術,對 DeepSeek-R1-Distill-Qwen-1.5B 基礎模型進行后訓練而創建的一系列模型。「Tiny」(微型)這一名稱體現了在整個框架中對極簡主義和高效性的刻意追求。這不僅包括微型的基礎模型架構、LoRA 實現的微小參數更新,還延伸到極小的整體資源占用。通過利用可獲取的開源數據集和代碼庫構建高效的訓練流程,并僅需極少的硬件和預算資源,團隊實現了最小化的資源占用。
訓練流程:基線模型與數據集
為便于進行有意義的比較和精確的消融實驗,tuandui 使用公開可用的推理模型的數據集和設置,通過強化學習對 Tina 模型進行后訓練。所有 Tina 模型和基線模型均采用 DeepSeek-R1-Distill-Qwen-1.5B 作為基礎模型檢查點,并使用其默認的開源權重。
- STILL-3-1.5B-preview 是一個經過深思熟慮的推理模型,它通過對精心整理的包含 3.3 萬個推理軌跡的數據集進行迭代強化學習而開發出來。這些數據源自數學競賽,涵蓋了 MATH、NuminaMathCoT 和 AIME(1983 - 2023)中的問題。Tina-STILL-3-1.5B-preview 使用相同的數據集和獎勵流程。
- DeepScaleR-1.5B-Preview 專注于通過強化學習進行長上下文數學推理,它在大約 4 萬個從 AIME、AMC、OMNI-MATH 和 STILL 數據集提取的問題 - 答案對上進行訓練。Tina-DeepScaleR-1.5B-Preview 使用該數據集并沿用其獎勵設計。
- Open-RS1/2/3 是 Open-RS 項目中探索 15 億參數模型推理性能的三個模型,均通過強化學習訓練。所有 Open-RS 模型都在從 s1(即 Open-S1)和 DeepScaleR(即 Open-DeepScaleR)數據集進一步精選的小型高質量數據集上進行訓練。Tina 模型(Tina-Open-RS1/2/3)復制了這些設置,使用相同的數據分割和獎勵框架。
訓練設置:基礎設施與預算
訓練代碼庫:團隊的實現基于 OpenR1,這是對 DeepSeek-R1 的完全開源復現,它結合了 Accelerate 和 Trl 庫以及 DeepSpeed ZeRO 優化。其目的是透明地復現和擴展用于提升語言模型推理能力的強化學習方法,尤其側重于通過可驗證的獎勵信號使模型行為與面向推理的目標保持一致。團隊的方法繼承了其框架、訓練工具和獎勵接口。
訓練超參數:團隊從復現 OpenR1 和 OpenRS 的關鍵參數開始進行參數選擇。對于本文中展示的所有實驗,團隊特意采用了這些研究中提供的默認或推薦超參數配置。在不同的實驗運行中,這些設置基本保持不變。對于 Tina 的主要結果,每個任務僅調整獎勵函數參數;對于消融研究,僅改變所研究的特定因素(例如學習率、LoRA 秩 /alpha 值、強化學習算法)。這種方法有意避免了針對特定設置進行高成本的超參數搜索過程,確保調優開銷可忽略不計,并專注于基于 LoRA 的強化學習核心方法的有效性。
訓練硬件:團隊低成本方法的一個關鍵要素是盡量減少硬件需求。雖然像 GRPO 這樣的分布式強化學習訓練算法通常使用三個或更多 GPU 會更有優勢(例如,專門用一個 GPU 運行 vLLM 等推理引擎以加快樣本生成),但團隊特意采用僅使用兩個 NVIDIA L40S GPU 的最小化設置。為實現這一點,團隊通過限制 vLLM 的 GPU 內存使用,將強化學習訓練過程和 vLLM 放在相同的兩個 GPU 上。訓練本身通過兩個 GPU 進行數據并行。雖然在兩個 GPU 上同時運行推理和訓練與使用專用推理 GPU 的設置相比,可能會延長實際訓練時間,但它顯著降低了硬件要求。
訓練預算:團隊使用的 NVIDIA L40S GPU 可通過商業云平臺獲取,根據撰寫本文時觀察到的價格,每 GPU 小時約 1 美元,包括 300GB 存儲。團隊基于 LoRA 的模型的強化學習訓練過程非常高效,在這種硬件上,單個強化學習步驟通常在一分鐘內即可完成。在本文六個推理基準測試套件中評估一個模型檢查點平均需要約 1 個 L40S GPU 小時。為確保成本可控,團隊最初為每次完整的實驗運行設定了 100 美元的保守最大預算,涵蓋從訓練到評估以及其他雜項任務的所有階段。如表 1 所示,團隊的實際支出明顯低于這個上限。
通過低秩自適應(LoRA)實現的高效強化學習推理效果
實驗第一階段:基線模型重新評估
在展示 Tina 模型的性能之前,與現有的最優推理模型進行公平可靠的比較至關重要。值得注意的是,文獻中相關模型的性能分數往往源于使用不同框架(例如 verl、lighteval、lm-eval-harness)和不一致的推理設置(如不同的生成超參數或不同數量的 GPU)進行的評估。這些差異會顯著影響報告的指標,造成潛在的不一致性,阻礙模型之間進行可靠的比較。
為了減少這些混雜因素的影響,在本文中,團隊使用單一、一致的方法對關鍵基線模型進行了全面的重新評估。本文中報告的所有基線評估均使用集成了 vLLM 推理引擎的 lighteval 框架,以實現高效生成。為了與 OpenR1 等先前工作具有可比性,團隊保持固定的硬件配置(兩個 L40S GPU),并對所有評估的基線模型應用一組標準化的 vLLM 推理參數。所有分數均為零樣本單次通過率(Pass@1)性能。這種一致的重新評估協議所產生的結果如表 2 所示。
特別地,團隊在具有挑戰性的六個基準測試中評估了 Tina 模型和基線模型的推理能力,這些基準測試主要聚焦于數學和科學推理:
- AIME24/25 包含 30 道來自 2024/2025 年美國數學邀請賽的高中水平數學問題,涵蓋代數、幾何、數論和組合數學。每個問題都需要精確的多步推理。
- AMC23 包括 2023 年美國數學競賽中的 40 道問題,涵蓋邏輯和符號操作任務。
- MATH500 是一個包含 500 道競賽數學問題的基準測試,這些問題來自各種來源,涵蓋不同難度級別,通常需要多步推導和計算。
- GPQA Diamond,以下簡稱 GPQA,由 198 道博士水平的科學問題組成,涵蓋生物學、化學和物理學。每個問題都是選擇題,有一些具有迷惑性的選項。
- Minerva 包括 272 道定量推理問題,通常處于本科水平。這些問題涵蓋多個 STEM 領域,包括物理學、生物學、化學和經濟學,通常需要數學建模或計算步驟,例如根據反應數據計算酶動力學。
實驗第二階段:Tina 模型評估
下面展示 Tina 模型的核心評估結果。這些實驗評估了通過基于 LoRA 的強化學習對 DeepSeek-R1-Distill-Qwen-1.5B 進行極少參數更新后的推理能力。表 3 中的結果表明,通過這種方式可以高效地實現顯著的推理性能提升,使模型在資源受限的參數高效調優情況下,仍能與相關基線模型競爭,甚至超越它們。
表 3 總結了五個不同的 Tina 模型在六個推理任務中的性能:AIME24/25、AMC23、MATH500、GPQA 和 Minerva。對于每個 Tina 模型,團隊報告了完成的訓練程度(以 1 個預定義訓練周期內的訓練步驟百分比表示)以及在每個任務上獲得的分數百分比。結果有力地證明了經濟高效的基于 LoRA 的強化學習策略的有效性。
所有 Tina 模型都展現出顯著的推理能力,平均分數在 48.16% 到 50.60% 之間。值得注意的是,幾乎所有 Tina 模型的平均分數都明顯超過了相應的基線模型,這表明通過高效的參數強化學習帶來了顯著的改進。Tina-Open-RS2 模型的平均性能最高,達到 50.60%。此外,這些出色的結果是在極短的訓練時間內取得的,僅為完整訓練周期的 19% 到 57%,凸顯了 Tina 方法的效率和快速適應性。
這些發現有力地支持了我們的核心假設:通過有針對性地應用 LoRA 和強化學習,可以在小型語言模型中有效且經濟地培養強大的推理能力。
實驗第三階段:Tina 消融變體實驗
為了更好地理解在所提出的低成本框架中影響 Tina 模型性能和效率的因素,團隊進行了一系列消融研究。這些研究系統地探究了關鍵設計選擇和超參數的影響,包括基礎訓練數據集、LoRA 更新的學習率、LoRA 適配器的秩以及所采用的具體強化學習算法。在每項研究中,通常會改變一個因素,同時保持其他因素不變,這些因素通常基于主要實驗或初步運行中確定的高性能配置。表 4 總結的結果為研究深入了解這種經濟高效方法的穩健性和敏感性提供了有價值的見解。
訓練數據集的影響:表 4 的第一部分突出了用于強化學習的數據集的影響。研究比較了七個不同的數據集,其規模差異很大(從約 1400 個到 9.4 萬個樣本不等)。引人注目的是,在僅有 7000 個示例的精簡數據集上訓練的 Tina-Open-RS 模型,獲得了最高的平均分數(50.60%)。這一結果超過了在大得多的數據集上訓練的模型,例如在 9.37 萬個樣本上訓練的 Tina-OpenR1(平均分數為 49.26%)。這一觀察結果有力地支持了團隊 「微型」的核心前提,并反映出數據集的質量和多樣性比數據規模更為重要的觀點。
關于低秩自適應(LoRA)高效性的假設
快速格式適應
基于 LoRA 的強化學習:少即是多
為了理解為什么 LoRA 能夠通過強化學習有效且高效地提升推理能力,研究分析了訓練計算量與性能之間的關系,以及訓練動態。如圖 3 所示,繪制推理性能與近似訓練浮點運算次數(FLOPs)的關系圖,可明顯看出全參數訓練和基于 LoRA 的訓練機制之間的差異。
首先,基于 LoRA 的 Tina 模型在推理得分上可與完全微調的基線模型相媲美,甚至在某些情況下更優,同時所需的訓練浮點運算次數(在某些情況下)比基線模型低幾個數量級。在 LoRA 模型中,增加訓練計算量反而會對性能產生負面影響,這與全參數模型形成鮮明對比。這一觀察結果凸顯了「更少計算量可帶來更高性能」 的現象。
這一發現支持了關于 LoRA 如何實現如此卓越效率的假設,這與 「學習結構 / 格式,保留知識」 的原則相關。團隊認為,LoRA 在這種情況下表現出色是因為推理強化學習高度獎勵模型以特定、可驗證的格式或結構生成輸出的能力(例如,逐步推理鏈)。LoRA 似乎能夠通過極少的參數變化高效地學習這些結構和風格模式,因此所需的浮點運算次數極少。同時,由于 LoRA 僅修改極少部分的權重,它在很大程度上保留了基礎模型的大量預訓練知識。
因此,LoRA 有效地教會模型如何將其現有知識組織成有效的推理過程,而不是像大規模全參數更新那樣,可能需要對概念或程序進行高成本的重新學習。假設這種對結構適應的關注使 Tina 能夠以最小的計算投入實現高推理性能。
基于 LoRA 的強化學習中的階段轉變
通過分析訓練日志,對基于 LoRA 的強化學習機制有了進一步的認識。如圖 4 所示,在各種 Tina 模型的訓練過程中,出現了一種明顯的模式,該圖展示了不同 Tina 模型運行時的準確率獎勵、格式獎勵和完成長度隨訓練步驟的變化情況。團隊持續觀察到,在大多數 Tina 模型中,與格式相關的指標(格式獎勵,第二行;完成長度,第三行)在訓練過程中存在一個階段轉變或轉折點。在這個轉變點附近(由綠色垂直虛線表示),格式獎勵通常會達到峰值或出現不穩定,而完成長度往往會在可能反轉趨勢之前達到最小值。
值得注意的是,在準確率獎勵圖(第一行)中,這種在格式和長度指標上相對明顯的轉變通常并沒有對應的明顯轉折點。在整個訓練過程中,準確率獎勵通常呈現出更平緩的波動或更緩慢的變化趨勢,與格式轉變沒有明顯的對應拐點。
另一個關鍵觀察結果是最佳性能出現的時間:在留出的評估中產生最高推理準確率的最佳檢查點,始終出現在格式指標觀察到的階段轉變點之前或附近(由紅色垂直虛線表示)。基于準確率和基于格式的指標之間的這種解耦表明,基于 LoRA 的強化學習過程迅速優化了模型遵循格式得分和長度約束所獎勵的結構和風格元素的能力。隨后的轉變點可能表明這種結構優化達到飽和、變得不穩定,或者可能以其他方式(例如過度限制或擴展長度)開始損害生成質量。
在格式驅動的轉變之前達到峰值推理準確率這一事實意味著,雖然學習正確的輸出格式至關重要,并且通過 LoRA 可以高效實現,但僅進一步推動以格式為中心的優化并不一定能帶來更好的推理效果,甚至可能有害。這進一步支持了研究假設,即 LoRA 主要通過學習有效推理所需的形式來高效地調整模型。
結論與局限性
研究團隊提出 Tina 模型,以證明可以高效且有效地將推理能力融入語言模型。Tina 的主要貢獻在于讓更多人能夠參與基于強化學習的推理模型開發。通過在 15 億參數的基礎模型上結合 LoRA 和強化學習,實現了與大得多的模型相媲美的推理性能,而這一切僅在約 9 美元的計算預算內完成。這一成果促使團隊思考使這種極簡主義方法成為可能的因素,以及它們未來可能的發展方向。
盡管取得了令人鼓舞的結果,但這項工作也存在一定的局限性:
- 基礎模型規模:實驗主要圍繞 15 億參數的模型展開。雖然展示了成本效益,但對于復雜的多步推理問題,這個「微型」 模型所能達到的絕對推理上限,自然可能低于更大的模型。
- 推理任務范圍:評估主要集中在數學和形式邏輯推理基準測試(AIME、AMC、MATH、GPQA、Minerva)上。所學推理技能在其他領域(如編碼)的有效性和可遷移性,還有待進一步研究。
- 超參數優化:有意采用已有的配置,盡量減少超參數調整成本。雖然這體現了方法的某種穩健性,但通過進一步調整超參數,特別是針對 LoRA、強化學習算法和目標推理任務之間的相互作用進行調整,可能會帶來性能的進一步提升。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.