99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

模型調(diào)優(yōu)無需標(biāo)注數(shù)據(jù)!將Llama 3.3 70B直接提升到GPT-4o水平

0
分享至

機器之心報道

編輯:陳萍

現(xiàn)階段,微調(diào)大型語言模型(LLMs)的難點在于,人們通常沒有高質(zhì)量的標(biāo)注數(shù)據(jù)。

最近,AI 公司 Databricks 推出了一種新的調(diào)優(yōu)方法 TAO,只需要輸入數(shù)據(jù),無需標(biāo)注數(shù)據(jù)即可完成。更令人驚喜的是,TAO 在性能上甚至超過了基于標(biāo)注數(shù)據(jù)的監(jiān)督微調(diào)。



眾所周知,LLM 很難適應(yīng)新的企業(yè)級任務(wù)。提示(prompting)的方式容易出錯,且質(zhì)量提升有限,而微調(diào)(fine-tuning)則需要大量的標(biāo)注數(shù)據(jù),而這些數(shù)據(jù)在大多數(shù)企業(yè)任務(wù)中是不可用的。

Databricks 提出的模型調(diào)優(yōu)方法,只需要未標(biāo)注數(shù)據(jù),企業(yè)就可以利用現(xiàn)有的數(shù)據(jù)來提升 AI 的質(zhì)量并降低成本。

TAO(全稱 Test-time Adaptive Optimization)利用測試時計算(由 o1 和 R1 推廣)和強化學(xué)習(xí)(RL)算法,僅基于過去的輸入示例來教導(dǎo)模型更好地完成任務(wù)。

至關(guān)重要的是,盡管 TAO 使用了測試時計算,但它將其作為訓(xùn)練模型過程的一部分;然后,該模型以較低的推理成本(即在推理時不需要額外的計算)直接執(zhí)行任務(wù)。

更令人驚訝的是,即使沒有標(biāo)注數(shù)據(jù),TAO 也能實現(xiàn)比傳統(tǒng)調(diào)優(yōu)模型更好的質(zhì)量,并且它可以將像 Llama 這樣的開源模型提升到與專有模型(如 GPT-4o 和 o3-mini)相當(dāng)?shù)馁|(zhì)量水平。

借助 TAO,Databricks 已經(jīng)取得了三項突破性成果:

  • 在文檔問答和 SQL 生成等專業(yè)企業(yè)任務(wù)中,TAO 的表現(xiàn)優(yōu)于需要數(shù)千標(biāo)注樣本的傳統(tǒng)微調(diào)方法。它讓 Llama 8B/70B 等高效開源模型達(dá)到了 GPT-4o/o3-mini1 等商業(yè)模型的同等水平,且無需任何標(biāo)注數(shù)據(jù);
  • 在零標(biāo)注數(shù)據(jù)條件下,TAO 將 Llama 3.3 70B 模型在企業(yè)綜合基準(zhǔn)測試中的表現(xiàn)提升了 2.4%;
  • 增加 TAO 訓(xùn)練階段的算力投入,可以在相同數(shù)據(jù)條件下獲得更優(yōu)模型質(zhì)量,且不會增加推理階段的成本消耗。

圖 1 展示了 TAO 在三個企業(yè)級任務(wù)中對 Llama 模型的提升效果:盡管僅使用原始輸入數(shù)據(jù),TAO 不僅超越了需要數(shù)千標(biāo)注樣本的傳統(tǒng)微調(diào) (FT) 方法,更讓 Llama 系列模型達(dá)到了商業(yè)模型的性能水準(zhǔn)。





圖 1:Llama 3.1 8B 與 Llama 3.3 70B 在三大企業(yè)級基準(zhǔn)測試中應(yīng)用 TAO 的效果對比。TAO 帶來顯著的性能提升,不僅超越傳統(tǒng)微調(diào)方法,更直指高價商業(yè)大語言模型的性能水平。

TAO 工作原理

基于測試時計算與強化學(xué)習(xí)的模型調(diào)優(yōu)

TAO 的核心創(chuàng)新在于摒棄了人工標(biāo)注數(shù)據(jù),轉(zhuǎn)而利用測試時計算引導(dǎo)模型探索任務(wù)的可能響應(yīng),再通過強化學(xué)習(xí)根據(jù)響應(yīng)評估結(jié)果更新模型參數(shù)。

該流程通過可擴展的測試時計算(而非昂貴的人工標(biāo)注)實現(xiàn)質(zhì)量提升,并能靈活融入領(lǐng)域知識(如定制規(guī)則)。令人驚訝的是,在高質(zhì)量開源模型上應(yīng)用該方法時,其效果往往優(yōu)于依賴人工標(biāo)注的傳統(tǒng)方案。



TAO pipeline

TAO 包含四個核心階段:

  • 響應(yīng)生成:該階段首先收集任務(wù)相關(guān)的輸入提示或查詢樣本。在 Databricks 平臺上,這些提示可通過 AI Gateway 自動采集;
  • 響應(yīng)評分:系統(tǒng)化評估生成響應(yīng)的階段。評分方法包含多種策略,例如基于獎勵模型、偏好評分,或利用 LLM 評判器及定制規(guī)則進(jìn)行任務(wù)特異性驗證,確保每個響應(yīng)都做到最優(yōu);
  • 強化學(xué)習(xí)(RL)訓(xùn)練:最終階段采用基于強化學(xué)習(xí)的方法更新大語言模型,引導(dǎo)模型生成與高分響應(yīng)高度契合的輸出。通過這一自適應(yīng)學(xué)習(xí)過程,模型持續(xù)優(yōu)化預(yù)測能力以提升質(zhì)量;
  • 持續(xù)改進(jìn):TAO 僅需 LLM 輸入樣本作為數(shù)據(jù)源。用戶與 LLM 的日常交互自然形成該數(shù)據(jù) —— 一旦模型部署使用,即可自動生成下一輪 TAO 訓(xùn)練數(shù)據(jù)。在 Databricks 平臺上,借助 TAO 機制,模型會隨著使用頻次增加而持續(xù)進(jìn)化。

雖然 TAO 在訓(xùn)練階段使用了測試時計算,但最終產(chǎn)出的模型在執(zhí)行任務(wù)時仍保持低推理成本。這意味著經(jīng)過 TAO 調(diào)優(yōu)的模型在推理階段 —— 與原版模型相比 —— 具有完全相同的計算開銷和響應(yīng)速度,顯著優(yōu)于 o1、o3 和 R1 等依賴測試時計算的模型。實驗表明:采用 TAO 訓(xùn)練的高效開源模型,在質(zhì)量上足以比肩頂尖的商業(yè)閉源模型。

TAO 為 AI 模型調(diào)優(yōu)提供了一種突破性方法:

  • 不同于耗時且易出錯的提示工程;
  • 也區(qū)別于需要昂貴人工標(biāo)注數(shù)據(jù)的傳統(tǒng)微調(diào);
  • TAO 僅需工程師提供任務(wù)相關(guān)的典型輸入樣本,即可實現(xiàn)卓越性能。



LLM 不同調(diào)優(yōu)方法比較。

實驗及結(jié)果

接下來,文章深入探討了如何使用 TAO 針對專門的企業(yè)任務(wù)調(diào)優(yōu) LLM。本文選擇了三個具有代表性的基準(zhǔn)。



表 2:該研究使用的基準(zhǔn)測試概覽。

如表 3 所示,在所有三個基準(zhǔn)測試和兩種 Llama 模型中,TAO 顯著提升了基礎(chǔ) Llama 的性能,甚至超過了微調(diào)的效果。



表 3:在三個企業(yè)級基準(zhǔn)測試中使用 TAO 的 Llama 3.1 8B 和 Llama 3.3 70B 實驗結(jié)果。

與經(jīng)典的測試時計算類似,當(dāng) TAO 能夠使用更多的計算資源時,它會產(chǎn)生更高質(zhì)量的結(jié)果(見圖 3 中的示例)。然而,與測試時計算不同的是,這種額外的計算資源僅在調(diào)優(yōu)階段使用;最終的語言模型的推理成本與原始語言模型相同。例如,o3-mini 生成的輸出 token 數(shù)量比其他模型多 5-10 倍,因此其推理成本也相應(yīng)更高,而 TAO 的推理成本與原始 Llama 模型相同。



利用 TAO 提高模型多任務(wù)性能

到目前為止,該研究已經(jīng)使用 TAO 來提升語言模型在單一任務(wù)(例如 SQL 生成)上的表現(xiàn)。接下來,該研究展示了 TAO 如何廣泛提升模型在一系列企業(yè)任務(wù)中的性能。

結(jié)果如下,TAO 顯著提升了兩個模型的性能,將 Llama 3.3 70B 和 Llama 3.1 70B 分別提升了 2.4 和 4.0 個百分點。TAO 使 Llama 3.3 70B 在企業(yè)級任務(wù)上的表現(xiàn)顯著接近 GPT-4o,所有這些改進(jìn)都沒有產(chǎn)生人工標(biāo)注成本。



原文鏈接:https://www.databricks.com/blog/tao-using-test-time-compute-train-efficient-llms-without-labeled-data

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
中國突然換將后,中美被曝下周談判!亮出底牌的特朗普,撐不住了

中國突然換將后,中美被曝下周談判!亮出底牌的特朗普,撐不住了

阿天愛旅行
2025-04-17 11:26:26
美國人被關(guān)稅逼出“奇招”!

美國人被關(guān)稅逼出“奇招”!

環(huán)球時報新聞
2025-04-17 09:07:00
新疆男籃官方:因央視直播對遼籃的G3,比賽時間從20點改至19:35

新疆男籃官方:因央視直播對遼籃的G3,比賽時間從20點改至19:35

懂球帝
2025-04-17 13:41:12
曝布彭扎墜亡后,浙江3外援拒登場 多人痛哭質(zhì)問管理層:怎么還踢

曝布彭扎墜亡后,浙江3外援拒登場 多人痛哭質(zhì)問管理層:怎么還踢

我愛英超
2025-04-17 11:13:58
貴州一永輝超市“閉店期間丟失購物車500余輛”!回應(yīng):已報警

貴州一永輝超市“閉店期間丟失購物車500余輛”!回應(yīng):已報警

環(huán)球網(wǎng)資訊
2025-04-16 07:12:07
太突然!集體大跳水!暴跌44.5%

太突然!集體大跳水!暴跌44.5%

魯中晨報
2025-04-17 10:35:03
鐘麗緹現(xiàn)身三亞真空上陣,向老公索吻好尷尬,結(jié)婚8年感情引關(guān)注

鐘麗緹現(xiàn)身三亞真空上陣,向老公索吻好尷尬,結(jié)婚8年感情引關(guān)注

檸檬有娛樂
2025-04-17 09:54:53
連遭胡塞18次轟炸,美杜魯門號航母被迫退役?美軍高層急證清白

連遭胡塞18次轟炸,美杜魯門號航母被迫退役?美軍高層急證清白

空天力量
2025-04-17 13:12:52
嘴巴扇流血、逼吃安眠藥!中俄網(wǎng)紅夫妻后續(xù)反轉(zhuǎn),毛子真面目被扒

嘴巴扇流血、逼吃安眠藥!中俄網(wǎng)紅夫妻后續(xù)反轉(zhuǎn),毛子真面目被扒

阿鳧愛吐槽
2025-04-17 08:47:40
乒乓世界杯:林詩棟拒絕逆轉(zhuǎn),4-3勝卡爾伯格,男單八強產(chǎn)生四席

乒乓世界杯:林詩棟拒絕逆轉(zhuǎn),4-3勝卡爾伯格,男單八強產(chǎn)生四席

湘楚風(fēng)云
2025-04-17 15:10:13
網(wǎng)傳刑辯律師逆天發(fā)言:她(訂婚強奸案當(dāng)事人)會終老一生,乃至去當(dāng)妓女

網(wǎng)傳刑辯律師逆天發(fā)言:她(訂婚強奸案當(dāng)事人)會終老一生,乃至去當(dāng)妓女

西虹市閑話
2025-04-17 07:45:28
難怪撞了人還這么囂張!網(wǎng)友曝兇手家庭背景父母身份,果然有情況

難怪撞了人還這么囂張!網(wǎng)友曝兇手家庭背景父母身份,果然有情況

老鵜愛說事
2025-04-17 11:40:57
世衛(wèi)達(dá)成歷史性協(xié)議:下次疫情不再強制接種疫苗!

世衛(wèi)達(dá)成歷史性協(xié)議:下次疫情不再強制接種疫苗!

意大利華人網(wǎng)0039
2025-04-17 00:11:58
剛出局就換人!Amick:國王隊與總經(jīng)理蒙特·麥克奈爾分道揚鑣

剛出局就換人!Amick:國王隊與總經(jīng)理蒙特·麥克奈爾分道揚鑣

雷速體育
2025-04-17 13:31:07
外媒:浙江三名外援賽前告知球隊拒絕上場,還要求管理層做出解釋

外媒:浙江三名外援賽前告知球隊拒絕上場,還要求管理層做出解釋

雷速體育
2025-04-17 11:23:09
澳門世界杯:男單8強已出其2!梁靖崑頂住壓力,力克日本全國冠軍

澳門世界杯:男單8強已出其2!梁靖崑頂住壓力,力克日本全國冠軍

全言作品
2025-04-17 12:46:06
CCTV直播!王曼昱死磕張本美和!林詩棟戰(zhàn)中國女婿!蒯曼壓軸!4月17日賽程

CCTV直播!王曼昱死磕張本美和!林詩棟戰(zhàn)中國女婿!蒯曼壓軸!4月17日賽程

好乒乓
2025-04-17 11:03:17
最新空警-700預(yù)警機終于亮相,中國海軍與空軍都已經(jīng)裝備

最新空警-700預(yù)警機終于亮相,中國海軍與空軍都已經(jīng)裝備

空天力量
2025-04-17 10:53:22
美股大跌之際,日股高開高走 特朗普曬與日本官員合照,稱談判取得“重大進(jìn)展”

美股大跌之際,日股高開高走 特朗普曬與日本官員合照,稱談判取得“重大進(jìn)展”

紅星新聞
2025-04-17 15:22:13
解放軍4面圍臺,大陸海警現(xiàn)身金門,美司令:收臺可能性增300%

解放軍4面圍臺,大陸海警現(xiàn)身金門,美司令:收臺可能性增300%

文辰國學(xué)
2025-04-16 14:41:01
2025-04-17 15:59:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
10370文章數(shù) 142294關(guān)注度
往期回顧 全部

科技要聞

余承東大講安全,絕口不提智駕"替你開車"

頭條要聞

媒體:5775億美元外匯儲備 賴清德備妥第3份對美投名狀

頭條要聞

媒體:5775億美元外匯儲備 賴清德備妥第3份對美投名狀

體育要聞

楊瀚森參加NBA選秀 與詹姆斯同一家經(jīng)紀(jì)公司

娛樂要聞

丁真官宣“新身份”謝霆鋒眼光有多絕

財經(jīng)要聞

特朗普吹牛 美國海關(guān)“打臉”

汽車要聞

一躍跳過障礙/秒切防御姿態(tài) 看懂嵐圖"開掛"絕技

態(tài)度原創(chuàng)

教育
游戲
親子
家居
軍事航空

教育要聞

真好,個人成長,心理學(xué),經(jīng)驗分享

這位創(chuàng)始人不滿FS社新作:被《逃離塔科夫》帶偏了

親子要聞

雙胞胎之間的有趣互動,一個吃笑了,一個疼哭了。

家居要聞

現(xiàn)代極簡 舒適與美觀并存

軍事要聞

朝鮮譴責(zé)美國派遣戰(zhàn)略轟炸機至朝鮮半島

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 烟台市| 苏尼特左旗| 铜陵市| 新河县| 莲花县| 长乐市| 十堰市| 南陵县| 施甸县| 连州市| 巴塘县| 华坪县| 新晃| 阿图什市| 灯塔市| 鄂托克旗| 通榆县| 玛沁县| 青铜峡市| 南郑县| 旬邑县| 湟中县| 江北区| 田阳县| 高安市| 霞浦县| 化德县| 吴忠市| 清流县| 闻喜县| 正宁县| 华容县| 敖汉旗| 绥德县| 高淳县| 屏东县| 申扎县| 宣恩县| 兴和县| 安阳县| 克拉玛依市|