99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

136張截圖,vivo開源DeepSeek R1式強化學習,提升GUI智能體預測

0
分享至




基于規則的強化學習(RL/RFT)已成為替代 SFT 的高效方案,僅需少量樣本即可提升模型在特定任務中的表現。

該方法通過預定義獎勵函數規避人工標注成本,如 DeepSeek-R1 在數學求解中的成功應用,以及多模態領域在圖像定位等任務上的性能突破(通常使用 IOU 作為規則 reward)。

vivo 與香港中文大學的研究團隊受到 DeepSeek-R1 的啟發,首次將基于規則的強化學習(RL)應用到了 GUI 智能體領域。



  • 論文標題:UI-R1: Enhancing Action Prediction of GUI Agents by Reinforcement Learning
  • 論文地址:https://arxiv.org/abs/2503.21620
  • 項目主頁:https://yxchai.com/UI-R1/
  • 項目代碼:https://github.com/lll6gg/UI-R1

簡介

本研究創新性地將規則 RL 范式拓展至基于低級指令的 GUI 動作預測任務。具體實現中,多模態大語言模型為每個輸入生成包含推理標記和最終答案的多條響應軌跡,在訓練和測試時的 prompt 設計如下:



隨后通過我們設計的獎勵函數評估每條響應,并采用 GRPO 等策略優化算法更新模型參數。該獎勵函數包含三個維度:

  • 動作類型獎勵:根據預測動作與真實動作的匹配度計算;
  • 動作參數獎勵(聚焦點擊操作):通過預測坐標是否落入真實邊界框評估;
  • 格式規范獎勵:評估模型是否同時提供推理過程和最終答案。

數據制備方面,僅依據難度、多樣性和質量三原則篩選 130 余個移動端訓練樣本,展現出卓越的數據效率。實驗表明,UI-R1 在桌面端和網頁平臺等跨領域(OOD)數據上均取得顯著性能提升,印證了規則 RL 處理跨領域復雜 GUI 任務的潛力。

方法:強化學習驅動的 GUI 智能體



我們提出的 UI-R1 模型采用了三個關鍵創新:

1. 獨特的獎勵函數設計

研究團隊設計了專門針對 GUI 任務的獎勵函數:R = R_T + R_C + R_F

R_T:行為類型獎勵(點擊、滑動、返回等)

R_C:坐標準確度獎勵(點擊位置是否準確)

R_F:格式獎勵(輸出的格式是否正確)

2. 精心篩選的高質量數據

與其使用大量普通數據,我們提出采用了「質量優先」的策略,從三個維度精選訓練數據:

質量:選擇標注準確、對齊良好的樣本

難度:專注于基礎模型難以解決的「困難」樣本

多樣性:確保涵蓋各種行為類型和元素類型

最終只使用了136 個高質量樣本,比傳統方法少了幾百甚至上千倍,就能夠訓練得到比 SFT 方式更優的效果。

3. 群體相對策略優化算法

UI-R1 采用了一種名為 GRPO(Group Relative Policy Optimization)的算法。這種算法不需要額外的評論家模型,而是通過比較同一問題的多個不同回答來學習什么是「好」的回答。

實驗結果

1. 域內效果提升明顯



在 AndroidControl 基準測試上,UI-R1-3B 與基礎模型 Qwen2.5-VL-3B 相比:

  • 行為類型準確率提高了 15%
  • 定位準確率提高了 10.3%

2. 域外泛化能力驚人





UI-R1 在從未見過的桌面 PC 端和網頁界面上表現同樣出色:

  • 在 ScreenSpot 測試中,UI-R1-3B 的平均準確率達到78.6%,超越 CogAgent-18B 等大模型。
  • 在專業高分辨率環境 ScreenSpot-Pro 測試中,UI-R1-3B 達到17.8%的平均準確率,提升了與使用 76K 數據訓練的 OS-Atlas-7B(18.9%)性能相當。

分析

我們關于 UI-R1 做了一系列分析,研究發現:在 GRPO 的強化學習微調的方式下,數據質量比數據數量重要



  • 困難樣本更有價值:按難度選擇的方法比隨機選擇的性能顯著更好。
  • 數據增長收益遞減:隨著訓練數據量增加,性能提升趨于平緩。
  • 精選小數據集比大數據集更有效:三階段數據選擇方法優于使用整個數據集或者隨機篩選相同數量的子集。

此外,我們還發現動作預測的難度與思考的長度之間存在關聯:思考長度越長,準確率越低(說明問題越難),但通過 UI-R1 形式的強化學習微調之后,對于難樣本的成功率提升也更加明顯。



這一現象證明了強化微調的價值,通過讓模型自主思考來提升難樣本的準確率,這個特性是之前的監督微調所難以獲得的。

未來探索方向

UI-R1 初步探索了大模型強化學習和推理技術在 GUI Agent 領域的應用。下一步,我們將嘗試將 UI-R1 從 RFT 拓展到 SFT + RFT 的組合,實現大規模 UI 數據下統一的思考、決策、規劃的 GUI Agent 大模型

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
不打了!愛德華茲自動停賽!NBA又一問題球星……

不打了!愛德華茲自動停賽!NBA又一問題球星……

籃球實戰寶典
2025-04-12 19:54:00
俄烏紅軍村大打出手,哥倫比亞雇傭兵叫板俄軍

俄烏紅軍村大打出手,哥倫比亞雇傭兵叫板俄軍

史政先鋒
2025-04-12 17:55:03
中方警告無效,澳總理態度強硬,若中企不出售港口,澳將強制征收

中方警告無效,澳總理態度強硬,若中企不出售港口,澳將強制征收

影孖看世界
2025-04-12 21:25:36
不爭氣!郭晶晶坐鎮裁判長,全紅嬋還是失誤,無奈拱手讓出冠軍

不爭氣!郭晶晶坐鎮裁判長,全紅嬋還是失誤,無奈拱手讓出冠軍

蜜桔娛樂
2025-04-13 07:06:44
Deepseek:越活越年輕的十大抗衰老習慣,早知早年輕

Deepseek:越活越年輕的十大抗衰老習慣,早知早年輕

尚曦讀史
2025-04-11 09:06:06
相愛相殺?莫蘭德調侃與洛夫頓抱摔視頻:能請你跳舞再來點薯片嗎

相愛相殺?莫蘭德調侃與洛夫頓抱摔視頻:能請你跳舞再來點薯片嗎

大嘴爵爺侃球
2025-04-13 16:10:43
美越部分談判條件流出,越南想復制當年中國走過的路!

美越部分談判條件流出,越南想復制當年中國走過的路!

談芯說科技
2025-04-12 21:57:29
賴亞文:總局正研究將向國家隊輸送運動員人數作為省市三大球指標任務

賴亞文:總局正研究將向國家隊輸送運動員人數作為省市三大球指標任務

懂球帝
2025-04-13 00:01:41
尷尬!網傳有人撿到電話手表想占己有,業主在群里施壓后失而復得

尷尬!網傳有人撿到電話手表想占己有,業主在群里施壓后失而復得

火山詩話
2025-04-13 09:33:37
編外人員“清退”開始了,輔警、城管協管、護士,將面臨失業風險

編外人員“清退”開始了,輔警、城管協管、護士,將面臨失業風險

巢客HOME
2025-04-02 00:05:08
中方宣布將減少美國影片進口,國產影片或迎發展新機遇

中方宣布將減少美國影片進口,國產影片或迎發展新機遇

第一財經資訊
2025-04-11 10:08:25
微軟撤退中國

微軟撤退中國

大白聊IT
2025-04-11 10:31:56
中國第一次讓世界各國羨慕妒忌恨。

中國第一次讓世界各國羨慕妒忌恨。

滄海一書客
2025-04-06 07:43:47
沙溢一嘴烤瓷牙,比他暴瘦36斤還嚇人,上次被牙嚇到的還是劉濤呢

沙溢一嘴烤瓷牙,比他暴瘦36斤還嚇人,上次被牙嚇到的還是劉濤呢

小娛樂悠悠
2025-04-12 06:25:08
昆凌周杰倫合體上綜藝,相差14歲年齡差好明顯,女方17歲就在一起

昆凌周杰倫合體上綜藝,相差14歲年齡差好明顯,女方17歲就在一起

小咪侃娛圈
2025-04-13 11:24:50
賴昌星的兩大保護傘:一個是公安部長,一個是少將,其父是副國級

賴昌星的兩大保護傘:一個是公安部長,一個是少將,其父是副國級

古書記史
2023-05-24 19:57:44
王思聰的定位很明顯,只要每天玩,不賭不亂投資,就是最好的創業

王思聰的定位很明顯,只要每天玩,不賭不亂投資,就是最好的創業

橘色密碼
2025-02-22 07:20:45
太逗了!男子租房快到期才發現有廚房,之前在臥室做了近一年的飯

太逗了!男子租房快到期才發現有廚房,之前在臥室做了近一年的飯

行者聊官
2025-04-10 18:42:12
某魚百萬女神自曝下海?沒錢還房貸求救榜一:大哥也不能白幫啊

某魚百萬女神自曝下海?沒錢還房貸求救榜一:大哥也不能白幫啊

電競瓜皮
2025-04-07 20:34:09
暴瘦36斤后!沙溢面色發黃瘦脫相,主食只吃玉米青菜

暴瘦36斤后!沙溢面色發黃瘦脫相,主食只吃玉米青菜

可樂談情感
2025-04-11 15:04:00
2025-04-13 19:15:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10353文章數 142293關注度
往期回顧 全部

科技要聞

特朗普政府豁免消費電子等產品的對等關稅

頭條要聞

美民調超半數人對特朗普關稅不滿 昔日副手彭斯發警告

頭條要聞

美民調超半數人對特朗普關稅不滿 昔日副手彭斯發警告

體育要聞

那個抱起全紅嬋的英國女孩

娛樂要聞

倪虹潔給陳德容上了一課,贏得漂亮!

財經要聞

美國宣布部分商品免征“對等關稅”

汽車要聞

審美和深層次豪華 阿維塔06都辦到了

態度原創

房產
手機
家居
健康
公開課

房產要聞

教育理想落地!9年制華師附與未來方洲正式簽約,定義“未來教育”新高度

手機要聞

調查顯示,美國用戶在手機電量平均降至 38% 時會產生焦慮

家居要聞

浪漫與優雅 不被定義的現代法式

在中國,到底哪些人在吃“偉哥”?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 莱州市| 肇源县| 张北县| 兴安盟| 云阳县| 凯里市| 本溪市| 长垣县| 屏南县| 沅陵县| 黄陵县| 游戏| 舟山市| 望城县| 武胜县| 若羌县| 多伦县| 塘沽区| 正镶白旗| 东港市| 武强县| 孝义市| 白城市| 黑龙江省| 奉新县| 定州市| 承德市| 银川市| 沙湾县| 高陵县| 陕西省| 登封市| 贵溪市| 大洼县| 北辰区| 梅州市| 许昌市| 浙江省| 维西| 壤塘县| 汤阴县|