99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

只花9美元,推理能力暴漲20%!小模型Tina震撼登場,成本縮減260倍

0
分享至



機器之心報道

編輯:劉欣

在人工智能領域,語言模型的發展日新月異,推理能力作為語言模型的核心競爭力之一,一直是研究的焦點,許多的 AI 前沿人才對 AI 推理的效率進行研究。

高昂的計算成本和復雜的硬件需求一直是制約 AI 推理技術廣泛應用的瓶頸。

你是否想過,如何在資源有限的情況下,讓語言模型擁有強大的推理能力呢?

近日,南加州大學的團隊發表了一篇名為 「Tina: Tiny Reasoning Models via LoRA」的論文,給出了令人眼前一亮的答案。

SophontAI 的 CEO Tanishq Abraham 博士還在 X 上轉推了這篇論文。



  • Notion 博客: https://shangshangwang.notion.site/tina
  • 代碼倉庫: https://github.com/shangshang-wang/Tina
  • 訓練日志: https://wandb.ai/upup-ashton-wang-usc/Tina
  • 模型權重及檢查點: https://huggingface.co/Tina-Yi
  • 論文地址:https://arxiv.org/abs/2504.15777

團隊將「小型」 模型架構以及通過基于 LoRA 的強化學習這兩個要素整合后發布了Tina(通過 LoRA 的微型推理模型)系列模型,該系列模型以極低的成本實現了出色的推理性能

Tina(通過 LoRA 的微型推理模型)系列模型不僅擁有高效強化學習推理的驚人效果,還可以快速推理格式適應假說、使強化學習推理更具普適性。團隊提供了一種可復現且極具成本效益的方法,使更多人能夠參與到強化學習技術的探索中,而無需大量計算資源。

值得注意的是,復現表現最佳的 Tina 模型檢查點的成本僅為 9 美元,而從頭開始復現研究的所有實驗以及本文中展示的全部內容的成本為 526 美元。



在當前人工智能技術飛速發展的背景下,Tina 模型的出現無疑為行業帶來了一股清新的空氣。它不僅展示了在有限資源下實現高效推理的可能性,也為未來的 AI 應用開發提供了新的思路和方向。

接下來,讓我們深入了解 Tina 模型的創新之處及其背后的研究細節。

Tina

基于低秩自適應(LoRA)的微型推理模型

Tina 通過在強化學習(采用類似 GRPO 的算法)過程中運用低秩自適應(LoRA)技術,對 DeepSeek-R1-Distill-Qwen-1.5B 基礎模型進行后訓練而創建的一系列模型。「Tiny」(微型)這一名稱體現了在整個框架中對極簡主義和高效性的刻意追求。這不僅包括微型的基礎模型架構、LoRA 實現的微小參數更新,還延伸到極小的整體資源占用。通過利用可獲取的開源數據集和代碼庫構建高效的訓練流程,并僅需極少的硬件和預算資源,團隊實現了最小化的資源占用。

訓練流程:基線模型與數據集

為便于進行有意義的比較和精確的消融實驗,tuandui 使用公開可用的推理模型的數據集和設置,通過強化學習對 Tina 模型進行后訓練。所有 Tina 模型和基線模型均采用 DeepSeek-R1-Distill-Qwen-1.5B 作為基礎模型檢查點,并使用其默認的開源權重。

  • STILL-3-1.5B-preview 是一個經過深思熟慮的推理模型,它通過對精心整理的包含 3.3 萬個推理軌跡的數據集進行迭代強化學習而開發出來。這些數據源自數學競賽,涵蓋了 MATH、NuminaMathCoT 和 AIME(1983 - 2023)中的問題。Tina-STILL-3-1.5B-preview 使用相同的數據集和獎勵流程。
  • DeepScaleR-1.5B-Preview 專注于通過強化學習進行長上下文數學推理,它在大約 4 萬個從 AIME、AMC、OMNI-MATH 和 STILL 數據集提取的問題 - 答案對上進行訓練。Tina-DeepScaleR-1.5B-Preview 使用該數據集并沿用其獎勵設計。
  • Open-RS1/2/3 是 Open-RS 項目中探索 15 億參數模型推理性能的三個模型,均通過強化學習訓練。所有 Open-RS 模型都在從 s1(即 Open-S1)和 DeepScaleR(即 Open-DeepScaleR)數據集進一步精選的小型高質量數據集上進行訓練。Tina 模型(Tina-Open-RS1/2/3)復制了這些設置,使用相同的數據分割和獎勵框架。

訓練設置:基礎設施與預算

訓練代碼庫:團隊的實現基于 OpenR1,這是對 DeepSeek-R1 的完全開源復現,它結合了 Accelerate 和 Trl 庫以及 DeepSpeed ZeRO 優化。其目的是透明地復現和擴展用于提升語言模型推理能力的強化學習方法,尤其側重于通過可驗證的獎勵信號使模型行為與面向推理的目標保持一致。團隊的方法繼承了其框架、訓練工具和獎勵接口。

訓練超參數:團隊從復現 OpenR1 和 OpenRS 的關鍵參數開始進行參數選擇。對于本文中展示的所有實驗,團隊特意采用了這些研究中提供的默認或推薦超參數配置。在不同的實驗運行中,這些設置基本保持不變。對于 Tina 的主要結果,每個任務僅調整獎勵函數參數;對于消融研究,僅改變所研究的特定因素(例如學習率、LoRA 秩 /alpha 值、強化學習算法)。這種方法有意避免了針對特定設置進行高成本的超參數搜索過程,確保調優開銷可忽略不計,并專注于基于 LoRA 的強化學習核心方法的有效性。

訓練硬件:團隊低成本方法的一個關鍵要素是盡量減少硬件需求。雖然像 GRPO 這樣的分布式強化學習訓練算法通常使用三個或更多 GPU 會更有優勢(例如,專門用一個 GPU 運行 vLLM 等推理引擎以加快樣本生成),但團隊特意采用僅使用兩個 NVIDIA L40S GPU 的最小化設置。為實現這一點,團隊通過限制 vLLM 的 GPU 內存使用,將強化學習訓練過程和 vLLM 放在相同的兩個 GPU 上。訓練本身通過兩個 GPU 進行數據并行。雖然在兩個 GPU 上同時運行推理和訓練與使用專用推理 GPU 的設置相比,可能會延長實際訓練時間,但它顯著降低了硬件要求。

訓練預算:團隊使用的 NVIDIA L40S GPU 可通過商業云平臺獲取,根據撰寫本文時觀察到的價格,每 GPU 小時約 1 美元,包括 300GB 存儲。團隊基于 LoRA 的模型的強化學習訓練過程非常高效,在這種硬件上,單個強化學習步驟通常在一分鐘內即可完成。在本文六個推理基準測試套件中評估一個模型檢查點平均需要約 1 個 L40S GPU 小時。為確保成本可控,團隊最初為每次完整的實驗運行設定了 100 美元的保守最大預算,涵蓋從訓練到評估以及其他雜項任務的所有階段。如表 1 所示,團隊的實際支出明顯低于這個上限。



通過低秩自適應(LoRA)實現的高效強化學習推理效果

實驗第一階段:基線模型重新評估

在展示 Tina 模型的性能之前,與現有的最優推理模型進行公平可靠的比較至關重要。值得注意的是,文獻中相關模型的性能分數往往源于使用不同框架(例如 verl、lighteval、lm-eval-harness)和不一致的推理設置(如不同的生成超參數或不同數量的 GPU)進行的評估。這些差異會顯著影響報告的指標,造成潛在的不一致性,阻礙模型之間進行可靠的比較。

為了減少這些混雜因素的影響,在本文中,團隊使用單一、一致的方法對關鍵基線模型進行了全面的重新評估。本文中報告的所有基線評估均使用集成了 vLLM 推理引擎的 lighteval 框架,以實現高效生成。為了與 OpenR1 等先前工作具有可比性,團隊保持固定的硬件配置(兩個 L40S GPU),并對所有評估的基線模型應用一組標準化的 vLLM 推理參數。所有分數均為零樣本單次通過率(Pass@1)性能。這種一致的重新評估協議所產生的結果如表 2 所示。



特別地,團隊在具有挑戰性的六個基準測試中評估了 Tina 模型和基線模型的推理能力,這些基準測試主要聚焦于數學和科學推理:

  • AIME24/25 包含 30 道來自 2024/2025 年美國數學邀請賽的高中水平數學問題,涵蓋代數、幾何、數論和組合數學。每個問題都需要精確的多步推理。
  • AMC23 包括 2023 年美國數學競賽中的 40 道問題,涵蓋邏輯和符號操作任務。
  • MATH500 是一個包含 500 道競賽數學問題的基準測試,這些問題來自各種來源,涵蓋不同難度級別,通常需要多步推導和計算。
  • GPQA Diamond,以下簡稱 GPQA,由 198 道博士水平的科學問題組成,涵蓋生物學、化學和物理學。每個問題都是選擇題,有一些具有迷惑性的選項。
  • Minerva 包括 272 道定量推理問題,通常處于本科水平。這些問題涵蓋多個 STEM 領域,包括物理學、生物學、化學和經濟學,通常需要數學建模或計算步驟,例如根據反應數據計算酶動力學。

實驗第二階段:Tina 模型評估

下面展示 Tina 模型的核心評估結果。這些實驗評估了通過基于 LoRA 的強化學習對 DeepSeek-R1-Distill-Qwen-1.5B 進行極少參數更新后的推理能力。表 3 中的結果表明,通過這種方式可以高效地實現顯著的推理性能提升,使模型在資源受限的參數高效調優情況下,仍能與相關基線模型競爭,甚至超越它們。

表 3 總結了五個不同的 Tina 模型在六個推理任務中的性能:AIME24/25、AMC23、MATH500、GPQA 和 Minerva。對于每個 Tina 模型,團隊報告了完成的訓練程度(以 1 個預定義訓練周期內的訓練步驟百分比表示)以及在每個任務上獲得的分數百分比。結果有力地證明了經濟高效的基于 LoRA 的強化學習策略的有效性。

所有 Tina 模型都展現出顯著的推理能力,平均分數在 48.16% 到 50.60% 之間。值得注意的是,幾乎所有 Tina 模型的平均分數都明顯超過了相應的基線模型,這表明通過高效的參數強化學習帶來了顯著的改進。Tina-Open-RS2 模型的平均性能最高,達到 50.60%。此外,這些出色的結果是在極短的訓練時間內取得的,僅為完整訓練周期的 19% 到 57%,凸顯了 Tina 方法的效率和快速適應性。

這些發現有力地支持了我們的核心假設:通過有針對性地應用 LoRA 和強化學習,可以在小型語言模型中有效且經濟地培養強大的推理能力。



實驗第三階段:Tina 消融變體實驗

為了更好地理解在所提出的低成本框架中影響 Tina 模型性能和效率的因素,團隊進行了一系列消融研究。這些研究系統地探究了關鍵設計選擇和超參數的影響,包括基礎訓練數據集、LoRA 更新的學習率、LoRA 適配器的秩以及所采用的具體強化學習算法。在每項研究中,通常會改變一個因素,同時保持其他因素不變,這些因素通常基于主要實驗或初步運行中確定的高性能配置。表 4 總結的結果為研究深入了解這種經濟高效方法的穩健性和敏感性提供了有價值的見解。

訓練數據集的影響:表 4 的第一部分突出了用于強化學習的數據集的影響。研究比較了七個不同的數據集,其規模差異很大(從約 1400 個到 9.4 萬個樣本不等)。引人注目的是,在僅有 7000 個示例的精簡數據集上訓練的 Tina-Open-RS 模型,獲得了最高的平均分數(50.60%)。這一結果超過了在大得多的數據集上訓練的模型,例如在 9.37 萬個樣本上訓練的 Tina-OpenR1(平均分數為 49.26%)。這一觀察結果有力地支持了團隊 「微型」的核心前提,并反映出數據集的質量和多樣性比數據規模更為重要的觀點。





關于低秩自適應(LoRA)高效性的假設

快速格式適應

基于 LoRA 的強化學習:少即是多

為了理解為什么 LoRA 能夠通過強化學習有效且高效地提升推理能力,研究分析了訓練計算量與性能之間的關系,以及訓練動態。如圖 3 所示,繪制推理性能與近似訓練浮點運算次數(FLOPs)的關系圖,可明顯看出全參數訓練和基于 LoRA 的訓練機制之間的差異。

首先,基于 LoRA 的 Tina 模型在推理得分上可與完全微調的基線模型相媲美,甚至在某些情況下更優,同時所需的訓練浮點運算次數(在某些情況下)比基線模型低幾個數量級。在 LoRA 模型中,增加訓練計算量反而會對性能產生負面影響,這與全參數模型形成鮮明對比。這一觀察結果凸顯了「更少計算量可帶來更高性能」 的現象。



這一發現支持了關于 LoRA 如何實現如此卓越效率的假設,這與 「學習結構 / 格式,保留知識」 的原則相關。團隊認為,LoRA 在這種情況下表現出色是因為推理強化學習高度獎勵模型以特定、可驗證的格式或結構生成輸出的能力(例如,逐步推理鏈)。LoRA 似乎能夠通過極少的參數變化高效地學習這些結構和風格模式,因此所需的浮點運算次數極少。同時,由于 LoRA 僅修改極少部分的權重,它在很大程度上保留了基礎模型的大量預訓練知識。

因此,LoRA 有效地教會模型如何將其現有知識組織成有效的推理過程,而不是像大規模全參數更新那樣,可能需要對概念或程序進行高成本的重新學習。假設這種對結構適應的關注使 Tina 能夠以最小的計算投入實現高推理性能。

基于 LoRA 的強化學習中的階段轉變

通過分析訓練日志,對基于 LoRA 的強化學習機制有了進一步的認識。如圖 4 所示,在各種 Tina 模型的訓練過程中,出現了一種明顯的模式,該圖展示了不同 Tina 模型運行時的準確率獎勵、格式獎勵和完成長度隨訓練步驟的變化情況。團隊持續觀察到,在大多數 Tina 模型中,與格式相關的指標(格式獎勵,第二行;完成長度,第三行)在訓練過程中存在一個階段轉變或轉折點。在這個轉變點附近(由綠色垂直虛線表示),格式獎勵通常會達到峰值或出現不穩定,而完成長度往往會在可能反轉趨勢之前達到最小值。

值得注意的是,在準確率獎勵圖(第一行)中,這種在格式和長度指標上相對明顯的轉變通常并沒有對應的明顯轉折點。在整個訓練過程中,準確率獎勵通常呈現出更平緩的波動或更緩慢的變化趨勢,與格式轉變沒有明顯的對應拐點。



另一個關鍵觀察結果是最佳性能出現的時間:在留出的評估中產生最高推理準確率的最佳檢查點,始終出現在格式指標觀察到的階段轉變點之前或附近(由紅色垂直虛線表示)。基于準確率和基于格式的指標之間的這種解耦表明,基于 LoRA 的強化學習過程迅速優化了模型遵循格式得分和長度約束所獎勵的結構和風格元素的能力。隨后的轉變點可能表明這種結構優化達到飽和、變得不穩定,或者可能以其他方式(例如過度限制或擴展長度)開始損害生成質量。

在格式驅動的轉變之前達到峰值推理準確率這一事實意味著,雖然學習正確的輸出格式至關重要,并且通過 LoRA 可以高效實現,但僅進一步推動以格式為中心的優化并不一定能帶來更好的推理效果,甚至可能有害。這進一步支持了研究假設,即 LoRA 主要通過學習有效推理所需的形式來高效地調整模型。

結論與局限性

研究團隊提出 Tina 模型,以證明可以高效且有效地將推理能力融入語言模型。Tina 的主要貢獻在于讓更多人能夠參與基于強化學習的推理模型開發。通過在 15 億參數的基礎模型上結合 LoRA 和強化學習,實現了與大得多的模型相媲美的推理性能,而這一切僅在約 9 美元的計算預算內完成。這一成果促使團隊思考使這種極簡主義方法成為可能的因素,以及它們未來可能的發展方向。

盡管取得了令人鼓舞的結果,但這項工作也存在一定的局限性:

  • 基礎模型規模:實驗主要圍繞 15 億參數的模型展開。雖然展示了成本效益,但對于復雜的多步推理問題,這個「微型」 模型所能達到的絕對推理上限,自然可能低于更大的模型。
  • 推理任務范圍:評估主要集中在數學和形式邏輯推理基準測試(AIME、AMC、MATH、GPQA、Minerva)上。所學推理技能在其他領域(如編碼)的有效性和可遷移性,還有待進一步研究。
  • 超參數優化:有意采用已有的配置,盡量減少超參數調整成本。雖然這體現了方法的某種穩健性,但通過進一步調整超參數,特別是針對 LoRA、強化學習算法和目標推理任務之間的相互作用進行調整,可能會帶來性能的進一步提升。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
CBA季后賽大反轉,遼寧面臨解散,山西成笑話,廣廈北京爭冠軍

CBA季后賽大反轉,遼寧面臨解散,山西成笑話,廣廈北京爭冠軍

宗介說體育
2025-04-30 13:15:44
業績巨虧!江淮汽車,凈利潤暴跌1277.59%!

業績巨虧!江淮汽車,凈利潤暴跌1277.59%!

侃見財經
2025-04-30 10:18:55
汪小菲婚禮恐取消?曝馬筱梅婚內出軌,前夫再發聲,清純人設翻車

汪小菲婚禮恐取消?曝馬筱梅婚內出軌,前夫再發聲,清純人設翻車

180°視角
2025-04-30 12:10:51
65歲安帥無緣巴西隊仍會下課!引發蝴蝶效應:55歲滕哈赫執教藥廠

65歲安帥無緣巴西隊仍會下課!引發蝴蝶效應:55歲滕哈赫執教藥廠

風過鄉
2025-04-30 17:55:37
中方派團訪美6天,事前沒走漏半點風聲,打了特朗普一個措手不及

中方派團訪美6天,事前沒走漏半點風聲,打了特朗普一個措手不及

漣漪讀史
2025-04-29 08:40:01
美國財長:若中方不主動讓步,美國將升級局勢,可能對華實施禁運

美國財長:若中方不主動讓步,美國將升級局勢,可能對華實施禁運

獵火照狼山
2025-04-29 21:53:59
遼陽飯店火災,大白天的為啥傷亡這么大,火災應急有哪些要注意的?

遼陽飯店火災,大白天的為啥傷亡這么大,火災應急有哪些要注意的?

靠山屯閑話
2025-04-30 06:57:10
震驚!張煜稱外科主任里,比肖飛私生活糜爛的一大把,只是沒曝光

震驚!張煜稱外科主任里,比肖飛私生活糜爛的一大把,只是沒曝光

火山詩話
2025-04-30 06:23:48
堵紅!川AG大軍提前出動!嚴重擁堵時段達2小時,成都人下班注意

堵紅!川AG大軍提前出動!嚴重擁堵時段達2小時,成都人下班注意

魯中晨報
2025-04-30 16:04:10
歌手龐麥郎因檔期太滿,取消洛陽演出!主辦方譴責:無理由違約!龐麥郎此前官宣復出,首場演出僅9位觀眾

歌手龐麥郎因檔期太滿,取消洛陽演出!主辦方譴責:無理由違約!龐麥郎此前官宣復出,首場演出僅9位觀眾

魯中晨報
2025-04-30 12:16:14
賴清德集團距離《反分裂國家法》第八條還有多遠

賴清德集團距離《反分裂國家法》第八條還有多遠

經濟觀察報
2025-04-29 18:01:11
特朗普語出驚人:“我不僅治理美國,也治理全世界”

特朗普語出驚人:“我不僅治理美國,也治理全世界”

財聯社
2025-04-29 22:48:05
比董襲瑩還厲害的“4+4”醫學博士出現了!韓佳澍23歲博士畢業!

比董襲瑩還厲害的“4+4”醫學博士出現了!韓佳澍23歲博士畢業!

青青子衿
2025-04-30 02:12:04
突發!知名醫院多名醫生遇襲,一副主任醫師已死亡,醫院仍矢口否認

突發!知名醫院多名醫生遇襲,一副主任醫師已死亡,醫院仍矢口否認

金水路7號站
2025-04-30 16:55:15
被稱為“亞洲第一美”,皮膚白到發光,網友:他你得不到!

被稱為“亞洲第一美”,皮膚白到發光,網友:他你得不到!

小椰的奶奶
2025-04-29 03:12:45
剛剛!屠呦呦當選美國科學院外籍院士

剛剛!屠呦呦當選美國科學院外籍院士

全國婦聯女性之聲
2025-04-30 11:19:00
新華社快訊:經現場醫監醫保人員確認,蔡旭哲、宋令東、王浩澤3名航天員身體狀態良好,即將出艙。

新華社快訊:經現場醫監醫保人員確認,蔡旭哲、宋令東、王浩澤3名航天員身體狀態良好,即將出艙。

新華社
2025-04-30 13:30:05
銀行開始集體擺爛了

銀行開始集體擺爛了

貧民窟的大富翁
2025-04-30 16:33:39
特朗普再次讓步,這次讓步和投降已經沒什么區別了

特朗普再次讓步,這次讓步和投降已經沒什么區別了

說天說地說實事
2025-04-30 16:50:39
巴基斯坦軍方:巴印戰機短暫對峙

巴基斯坦軍方:巴印戰機短暫對峙

界面新聞
2025-04-30 18:00:29
2025-04-30 19:16:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10432文章數 142300關注度
往期回顧 全部

科技要聞

AI讓短劇成本直降99% 萬元一部人人能拍

頭條要聞

中央委員李樂成有新職:曾任遼寧省長 在湖北工作多年

頭條要聞

中央委員李樂成有新職:曾任遼寧省長 在湖北工作多年

體育要聞

“魚有一條尾巴,而我有一條腿。”

娛樂要聞

災難性公關 毀掉曾黎二十年人緣積累

財經要聞

阿里升級淘寶閃購 加入即時零售大戰

汽車要聞

智能升格滿載出發 全新攬境:再給燃油車一次機會

態度原創

時尚
教育
藝術
房產
軍事航空

這些才是成熟女性該試試的穿搭!不裝嫩、不單調,舒適顯氣質

教育要聞

同學,你的老師會“魔法”嗎?

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

房產要聞

央企重磅加碼海口樓市,王炸級產品,突然殺出!

軍事要聞

解放軍儀仗隊參加俄勝利日閱兵彩排

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 隆化县| 咸宁市| 珲春市| 新民市| 鹤庆县| 百色市| 类乌齐县| 黔西| 南靖县| 许昌市| 卫辉市| 涟源市| 连州市| 内黄县| 泗水县| 平度市| 明溪县| 集安市| 乌海市| 哈巴河县| 阜宁县| 克什克腾旗| 邵东县| 浦江县| 克山县| 哈巴河县| 天峨县| 濉溪县| 龙海市| 浮梁县| 泗水县| 宁安市| 潞城市| 唐海县| 柳州市| 石首市| 那坡县| 临夏市| 大邑县| 屏边| 资兴市|