機器之心報道
編輯:陳萍
現(xiàn)階段,微調(diào)大型語言模型(LLMs)的難點在于,人們通常沒有高質(zhì)量的標(biāo)注數(shù)據(jù)。
最近,AI 公司 Databricks 推出了一種新的調(diào)優(yōu)方法 TAO,只需要輸入數(shù)據(jù),無需標(biāo)注數(shù)據(jù)即可完成。更令人驚喜的是,TAO 在性能上甚至超過了基于標(biāo)注數(shù)據(jù)的監(jiān)督微調(diào)。
眾所周知,LLM 很難適應(yīng)新的企業(yè)級任務(wù)。提示(prompting)的方式容易出錯,且質(zhì)量提升有限,而微調(diào)(fine-tuning)則需要大量的標(biāo)注數(shù)據(jù),而這些數(shù)據(jù)在大多數(shù)企業(yè)任務(wù)中是不可用的。
Databricks 提出的模型調(diào)優(yōu)方法,只需要未標(biāo)注數(shù)據(jù),企業(yè)就可以利用現(xiàn)有的數(shù)據(jù)來提升 AI 的質(zhì)量并降低成本。
TAO(全稱 Test-time Adaptive Optimization)利用測試時計算(由 o1 和 R1 推廣)和強化學(xué)習(xí)(RL)算法,僅基于過去的輸入示例來教導(dǎo)模型更好地完成任務(wù)。
至關(guān)重要的是,盡管 TAO 使用了測試時計算,但它將其作為訓(xùn)練模型過程的一部分;然后,該模型以較低的推理成本(即在推理時不需要額外的計算)直接執(zhí)行任務(wù)。
更令人驚訝的是,即使沒有標(biāo)注數(shù)據(jù),TAO 也能實現(xiàn)比傳統(tǒng)調(diào)優(yōu)模型更好的質(zhì)量,并且它可以將像 Llama 這樣的開源模型提升到與專有模型(如 GPT-4o 和 o3-mini)相當(dāng)?shù)馁|(zhì)量水平。
借助 TAO,Databricks 已經(jīng)取得了三項突破性成果:
- 在文檔問答和 SQL 生成等專業(yè)企業(yè)任務(wù)中,TAO 的表現(xiàn)優(yōu)于需要數(shù)千標(biāo)注樣本的傳統(tǒng)微調(diào)方法。它讓 Llama 8B/70B 等高效開源模型達(dá)到了 GPT-4o/o3-mini1 等商業(yè)模型的同等水平,且無需任何標(biāo)注數(shù)據(jù);
- 在零標(biāo)注數(shù)據(jù)條件下,TAO 將 Llama 3.3 70B 模型在企業(yè)綜合基準(zhǔn)測試中的表現(xiàn)提升了 2.4%;
- 增加 TAO 訓(xùn)練階段的算力投入,可以在相同數(shù)據(jù)條件下獲得更優(yōu)模型質(zhì)量,且不會增加推理階段的成本消耗。
圖 1 展示了 TAO 在三個企業(yè)級任務(wù)中對 Llama 模型的提升效果:盡管僅使用原始輸入數(shù)據(jù),TAO 不僅超越了需要數(shù)千標(biāo)注樣本的傳統(tǒng)微調(diào) (FT) 方法,更讓 Llama 系列模型達(dá)到了商業(yè)模型的性能水準(zhǔn)。
圖 1:Llama 3.1 8B 與 Llama 3.3 70B 在三大企業(yè)級基準(zhǔn)測試中應(yīng)用 TAO 的效果對比。TAO 帶來顯著的性能提升,不僅超越傳統(tǒng)微調(diào)方法,更直指高價商業(yè)大語言模型的性能水平。
TAO 工作原理
基于測試時計算與強化學(xué)習(xí)的模型調(diào)優(yōu)
TAO 的核心創(chuàng)新在于摒棄了人工標(biāo)注數(shù)據(jù),轉(zhuǎn)而利用測試時計算引導(dǎo)模型探索任務(wù)的可能響應(yīng),再通過強化學(xué)習(xí)根據(jù)響應(yīng)評估結(jié)果更新模型參數(shù)。
該流程通過可擴展的測試時計算(而非昂貴的人工標(biāo)注)實現(xiàn)質(zhì)量提升,并能靈活融入領(lǐng)域知識(如定制規(guī)則)。令人驚訝的是,在高質(zhì)量開源模型上應(yīng)用該方法時,其效果往往優(yōu)于依賴人工標(biāo)注的傳統(tǒng)方案。
TAO pipeline
TAO 包含四個核心階段:
- 響應(yīng)生成:該階段首先收集任務(wù)相關(guān)的輸入提示或查詢樣本。在 Databricks 平臺上,這些提示可通過 AI Gateway 自動采集;
- 響應(yīng)評分:系統(tǒng)化評估生成響應(yīng)的階段。評分方法包含多種策略,例如基于獎勵模型、偏好評分,或利用 LLM 評判器及定制規(guī)則進(jìn)行任務(wù)特異性驗證,確保每個響應(yīng)都做到最優(yōu);
- 強化學(xué)習(xí)(RL)訓(xùn)練:最終階段采用基于強化學(xué)習(xí)的方法更新大語言模型,引導(dǎo)模型生成與高分響應(yīng)高度契合的輸出。通過這一自適應(yīng)學(xué)習(xí)過程,模型持續(xù)優(yōu)化預(yù)測能力以提升質(zhì)量;
- 持續(xù)改進(jìn):TAO 僅需 LLM 輸入樣本作為數(shù)據(jù)源。用戶與 LLM 的日常交互自然形成該數(shù)據(jù) —— 一旦模型部署使用,即可自動生成下一輪 TAO 訓(xùn)練數(shù)據(jù)。在 Databricks 平臺上,借助 TAO 機制,模型會隨著使用頻次增加而持續(xù)進(jìn)化。
雖然 TAO 在訓(xùn)練階段使用了測試時計算,但最終產(chǎn)出的模型在執(zhí)行任務(wù)時仍保持低推理成本。這意味著經(jīng)過 TAO 調(diào)優(yōu)的模型在推理階段 —— 與原版模型相比 —— 具有完全相同的計算開銷和響應(yīng)速度,顯著優(yōu)于 o1、o3 和 R1 等依賴測試時計算的模型。實驗表明:采用 TAO 訓(xùn)練的高效開源模型,在質(zhì)量上足以比肩頂尖的商業(yè)閉源模型。
TAO 為 AI 模型調(diào)優(yōu)提供了一種突破性方法:
- 不同于耗時且易出錯的提示工程;
- 也區(qū)別于需要昂貴人工標(biāo)注數(shù)據(jù)的傳統(tǒng)微調(diào);
- TAO 僅需工程師提供任務(wù)相關(guān)的典型輸入樣本,即可實現(xiàn)卓越性能。
LLM 不同調(diào)優(yōu)方法比較。
實驗及結(jié)果
接下來,文章深入探討了如何使用 TAO 針對專門的企業(yè)任務(wù)調(diào)優(yōu) LLM。本文選擇了三個具有代表性的基準(zhǔn)。
表 2:該研究使用的基準(zhǔn)測試概覽。
如表 3 所示,在所有三個基準(zhǔn)測試和兩種 Llama 模型中,TAO 顯著提升了基礎(chǔ) Llama 的性能,甚至超過了微調(diào)的效果。
表 3:在三個企業(yè)級基準(zhǔn)測試中使用 TAO 的 Llama 3.1 8B 和 Llama 3.3 70B 實驗結(jié)果。
與經(jīng)典的測試時計算類似,當(dāng) TAO 能夠使用更多的計算資源時,它會產(chǎn)生更高質(zhì)量的結(jié)果(見圖 3 中的示例)。然而,與測試時計算不同的是,這種額外的計算資源僅在調(diào)優(yōu)階段使用;最終的語言模型的推理成本與原始語言模型相同。例如,o3-mini 生成的輸出 token 數(shù)量比其他模型多 5-10 倍,因此其推理成本也相應(yīng)更高,而 TAO 的推理成本與原始 Llama 模型相同。
利用 TAO 提高模型多任務(wù)性能
到目前為止,該研究已經(jīng)使用 TAO 來提升語言模型在單一任務(wù)(例如 SQL 生成)上的表現(xiàn)。接下來,該研究展示了 TAO 如何廣泛提升模型在一系列企業(yè)任務(wù)中的性能。
結(jié)果如下,TAO 顯著提升了兩個模型的性能,將 Llama 3.3 70B 和 Llama 3.1 70B 分別提升了 2.4 和 4.0 個百分點。TAO 使 Llama 3.3 70B 在企業(yè)級任務(wù)上的表現(xiàn)顯著接近 GPT-4o,所有這些改進(jìn)都沒有產(chǎn)生人工標(biāo)注成本。
原文鏈接:https://www.databricks.com/blog/tao-using-test-time-compute-train-efficient-llms-without-labeled-data
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.