99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

<rt id="b3iw5"></rt>

<blockquote id="b3iw5"><dfn id="b3iw5"></dfn></blockquote>

<ruby id="b3iw5"><samp id="b3iw5"><form id="b3iw5"></form></samp></ruby>

<u id="b3iw5"></u>

<pre id="b3iw5"></pre>

<b id="b3iw5"><nobr id="b3iw5"><small id="b3iw5"></small></nobr></b>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

136張截圖,vivo開源DeepSeek R1式強化學習,提升GUI智能體預測

2025-04-08 18:40:57　來源: 機器之心Pro

北京舉報

0

分享至

基于規則的強化學習（RL/RFT）已成為替代 SFT 的高效方案，僅需少量樣本即可提升模型在特定任務中的表現。

該方法通過預定義獎勵函數規避人工標注成本，如 DeepSeek-R1 在數學求解中的成功應用，以及多模態領域在圖像定位等任務上的性能突破（通常使用 IOU 作為規則 reward）。

vivo 與香港中文大學的研究團隊受到 DeepSeek-R1 的啟發，首次將基于規則的強化學習（RL）應用到了 GUI 智能體領域。

論文標題：UI-R1: Enhancing Action Prediction of GUI Agents by Reinforcement Learning
論文地址：https://arxiv.org/abs/2503.21620
項目主頁：https://yxchai.com/UI-R1/
項目代碼：https://github.com/lll6gg/UI-R1

簡介

本研究創新性地將規則 RL 范式拓展至基于低級指令的 GUI 動作預測任務。具體實現中，多模態大語言模型為每個輸入生成包含推理標記和最終答案的多條響應軌跡，在訓練和測試時的 prompt 設計如下：

隨后通過我們設計的獎勵函數評估每條響應，并采用 GRPO 等策略優化算法更新模型參數。該獎勵函數包含三個維度：

動作類型獎勵：根據預測動作與真實動作的匹配度計算；
動作參數獎勵（聚焦點擊操作）：通過預測坐標是否落入真實邊界框評估；
格式規范獎勵：評估模型是否同時提供推理過程和最終答案。

數據制備方面，僅依據難度、多樣性和質量三原則篩選 130 余個移動端訓練樣本，展現出卓越的數據效率。實驗表明，UI-R1 在桌面端和網頁平臺等跨領域（OOD）數據上均取得顯著性能提升，印證了規則 RL 處理跨領域復雜 GUI 任務的潛力。

方法：強化學習驅動的 GUI 智能體

我們提出的 UI-R1 模型采用了三個關鍵創新：

1. 獨特的獎勵函數設計

研究團隊設計了專門針對 GUI 任務的獎勵函數：R = R_T + R_C + R_F

R_T：行為類型獎勵（點擊、滑動、返回等）

R_C：坐標準確度獎勵（點擊位置是否準確）

R_F：格式獎勵（輸出的格式是否正確）

2. 精心篩選的高質量數據

與其使用大量普通數據，我們提出采用了「質量優先」的策略，從三個維度精選訓練數據：

質量：選擇標注準確、對齊良好的樣本

難度：專注于基礎模型難以解決的「困難」樣本

多樣性：確保涵蓋各種行為類型和元素類型

最終只使用了136 個高質量樣本，比傳統方法少了幾百甚至上千倍，就能夠訓練得到比 SFT 方式更優的效果。

3. 群體相對策略優化算法

UI-R1 采用了一種名為 GRPO（Group Relative Policy Optimization）的算法。這種算法不需要額外的評論家模型，而是通過比較同一問題的多個不同回答來學習什么是「好」的回答。

實驗結果

1. 域內效果提升明顯

在 AndroidControl 基準測試上，UI-R1-3B 與基礎模型 Qwen2.5-VL-3B 相比：

行為類型準確率提高了 15%
定位準確率提高了 10.3%

2. 域外泛化能力驚人

UI-R1 在從未見過的桌面 PC 端和網頁界面上表現同樣出色：

在 ScreenSpot 測試中，UI-R1-3B 的平均準確率達到78.6%，超越 CogAgent-18B 等大模型。
在專業高分辨率環境 ScreenSpot-Pro 測試中，UI-R1-3B 達到17.8%的平均準確率，提升了與使用 76K 數據訓練的 OS-Atlas-7B（18.9%）性能相當。

分析

我們關于 UI-R1 做了一系列分析，研究發現：在 GRPO 的強化學習微調的方式下，數據質量比數據數量重要

困難樣本更有價值：按難度選擇的方法比隨機選擇的性能顯著更好。
數據增長收益遞減：隨著訓練數據量增加，性能提升趨于平緩。
精選小數據集比大數據集更有效：三階段數據選擇方法優于使用整個數據集或者隨機篩選相同數量的子集。

此外，我們還發現動作預測的難度與思考的長度之間存在關聯：思考長度越長，準確率越低（說明問題越難），但通過 UI-R1 形式的強化學習微調之后，對于難樣本的成功率提升也更加明顯。

這一現象證明了強化微調的價值，通過讓模型自主思考來提升難樣本的準確率，這個特性是之前的監督微調所難以獲得的。

未來探索方向

UI-R1 初步探索了大模型強化學習和推理技術在 GUI Agent 領域的應用。下一步，我們將嘗試將 UI-R1 從 RFT 拓展到 SFT + RFT 的組合，實現大規模 UI 數據下統一的思考、決策、規劃的 GUI Agent 大模型

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

全球首個Linux開發本：50TOPS算力，DeepSeek已配好，可隨地開發

量子位 2025-04-11 20:12:52
40 跟貼 40
永別了，GPT-4！

新智元 2025-04-12 12:53:39
87 跟貼 87

謝賽寧等新作上線，多模態理解生成大一統！思路竟與GPT-4o相似？

新智元 2025-04-12 18:23:04
2 跟貼 2

3710億數學tokens，全面開放！開源數學預訓練數據集MegaMath發布

機器之心Pro 2025-04-13 18:43:37
0 跟貼 0
GraphPad Prism 五大分析模型操作指南：從入門到精通

生物學霸 2025-04-01 17:53:47
0 跟貼 0

強化學習的改進只是「噪音」？最新預警：冷靜看待推理模型進展

機器之心Pro 2025-04-13 15:12:39
0 跟貼 0

首次引入強化學習！火山引擎Q-Insight讓畫質理解邁向深度思考

機器之心Pro 2025-04-08 10:44:59
2 跟貼 2
移動GUI智能體邁向實用化！全新驗證器架構V-Droid，刷新任務成功率記錄

新智元 2025-04-12 12:56:14
0 跟貼 0

流式深度學習終于奏效了！強化學習之父Richard Sutton力薦

機器之心Pro 2024-11-29 15:13:38
0 跟貼 0
從思考，到行動：由Manus爆火談AI Agent

鈦媒體APP 2025-03-14 14:44:11
0 跟貼 0
楓葉漫談：鈔票惹的禍

楓葉漫談 2025-04-13 13:45:45
368 跟貼 368
烏科學家建議重造核武！“我們的敵人是核大國”

二虎濤哥 2025-04-13 07:33:06
742 跟貼 742
NUS邵林團隊發布DexSinGrasp基于強化學習實現物體分離與抓取統一

機器之心Pro 2025-04-13 14:42:11
1 跟貼 1
2025，Agent生死競速

鈦媒體APP 2025-01-08 19:18:23
35 跟貼 35
AI奧數大獎出爐，英偉達摘桂冠！14B破解34題暴擊DeepSeek R1

新智元 2025-04-13 15:03:17
1 跟貼 1
特朗普關稅策略適得其反，盟友轉向中國尋求新機遇

領略非凡 2025-04-12 05:22:18
0 跟貼 0
為什么說AI“有用”才最重要？

新周刊 2025-03-25 22:43:55
0 跟貼 0
中國制造業的“零和競爭”可以休矣

虎嗅APP 2025-01-03 18:08:11
20 跟貼 20
美國人爆笑解釋特朗普的關稅策略：這就是在自殘！

臺海大林 2025-04-13 00:30:21
108 跟貼 108
廣東攜超2萬個高薪崗位赴杭引才，東莞OPPO、vivo都來搖人了｜百萬英才匯南粵

21世紀經濟報道 2025-04-13 17:58:32
0 跟貼 0
特朗普冒險策略：經濟衰退或許是被炮制出來的

世界背后的秘密 2025-04-12 01:42:58
0 跟貼 0
商湯忙著減重

虎嗅APP 2025-04-13 03:04:03
2 跟貼 2
奧特曼：ChatGPT不是AGI！OpenAI最強開源模型直擊DeepSeek

新智元 2025-04-13 12:58:57
3 跟貼 3
美國對部分商品免征“對等關稅”

參考消息 2025-04-12 21:53:11
5467 跟貼 5467
特朗普對華104%關稅生效，中國硬剛與歐洲倒戈，正改寫全球化規則

飽飽科普 2025-04-11 17:27:32
0 跟貼 0
一老人牛棚喂牛時，牛突然攻擊老人被活活頂死發出慘叫聲畫面流出

爆料視頻 2025-04-13 11:27:18
4419 跟貼 4419
國外警察實拍，六輛車每一輛敢開過去，真正的規則威懾力！

河馬搞笑君 2025-04-10 14:05:41
1 跟貼 1
MediaTek推出天璣9400+旗艦芯片系列新品，領跑智能體AI發展浪潮

DeepTech深科技 2025-04-13 17:06:43
0 跟貼 0
晉城交警模型宣傳勸導市民騎車戴頭盔“柳絮紛飛，戴好頭盔，安全不吃虧”網友：誰懂這一鏡到底的實力！

營天下 2025-04-12 19:07:55
0 跟貼 0
算法不重要，AI的下一個范式突破，「解鎖」新數據源才是關鍵

機器之心Pro 2025-04-13 14:10:07
0 跟貼 0
微軟AI模型MatterGen能根據需求生成新材料

量子位 2025-01-21 18:07:40
0 跟貼 0
龐涓兵臨齊國都城，齊威王命令孫臏三天內想出退敵策略

小凱哥哥觀影 2025-04-11 16:34:34
1 跟貼 1
全球首個多模態AI內鏡智能體亮相中山醫院開啟"AI+超級微創"新模式

東方網 2025-04-12 13:45:18
2 跟貼 2
美媒：殲-50是空中飛行“紙老虎”，是嚇唬西方的第六代機模型

沐風論道 2025-04-12 21:53:45
0 跟貼 0
婆婆出院回來了，今天媳婦做一頓好吃的補補，感謝朋友們的關心

榮榮在農村 2025-04-13 15:05:46
324 跟貼 324
一群騎行男女偷菠蘿被村民抓住，每個人車上都裝著一大袋

眾橫四海 2025-04-13 11:55:45
2899 跟貼 2899
張延廷：美軍調整戰訓策略，為印太大規模對抗做準備

龍悅軍急送 2025-04-13 11:59:19
0 跟貼 0
地球的“規則”是否符合宇宙標準

一飲山河 2025-04-09 16:11:09
1 跟貼 1
特朗普貿易戰策略失效，中方反制措施堅定有力

全球熱點幕后 2025-04-13 05:37:07
0 跟貼 0
超級Agent，鳴槍起跑

機器之心Pro 2025-03-17 10:30:11
0 跟貼 0

不打了！愛德華茲自動停賽！NBA又一問題球星……

不打了！愛德華茲自動停賽！NBA又一問題球星……

籃球實戰寶典

2025-04-12 19:54:00

俄烏紅軍村大打出手，哥倫比亞雇傭兵叫板俄軍

俄烏紅軍村大打出手，哥倫比亞雇傭兵叫板俄軍

史政先鋒

2025-04-12 17:55:03

中方警告無效，澳總理態度強硬，若中企不出售港口，澳將強制征收

中方警告無效，澳總理態度強硬，若中企不出售港口，澳將強制征收

影孖看世界

2025-04-12 21:25:36

不爭氣！郭晶晶坐鎮裁判長，全紅嬋還是失誤，無奈拱手讓出冠軍

不爭氣！郭晶晶坐鎮裁判長，全紅嬋還是失誤，無奈拱手讓出冠軍

蜜桔娛樂

2025-04-13 07:06:44

Deepseek：越活越年輕的十大抗衰老習慣，早知早年輕

Deepseek：越活越年輕的十大抗衰老習慣，早知早年輕

尚曦讀史

2025-04-11 09:06:06

相愛相殺？莫蘭德調侃與洛夫頓抱摔視頻：能請你跳舞再來點薯片嗎

相愛相殺？莫蘭德調侃與洛夫頓抱摔視頻：能請你跳舞再來點薯片嗎

大嘴爵爺侃球

2025-04-13 16:10:43

美越部分談判條件流出，越南想復制當年中國走過的路！

美越部分談判條件流出，越南想復制當年中國走過的路！

談芯說科技

2025-04-12 21:57:29

賴亞文：總局正研究將向國家隊輸送運動員人數作為省市三大球指標任務

賴亞文：總局正研究將向國家隊輸送運動員人數作為省市三大球指標任務

懂球帝

2025-04-13 00:01:41

尷尬！網傳有人撿到電話手表想占己有，業主在群里施壓后失而復得

尷尬！網傳有人撿到電話手表想占己有，業主在群里施壓后失而復得

火山詩話

2025-04-13 09:33:37

編外人員“清退”開始了，輔警、城管協管、護士，將面臨失業風險

編外人員“清退”開始了，輔警、城管協管、護士，將面臨失業風險

巢客HOME

2025-04-02 00:05:08

中方宣布將減少美國影片進口，國產影片或迎發展新機遇

中方宣布將減少美國影片進口，國產影片或迎發展新機遇

第一財經資訊

2025-04-11 10:08:25

微軟撤退中國

大白聊IT

2025-04-11 10:31:56

中國第一次讓世界各國羨慕妒忌恨。

中國第一次讓世界各國羨慕妒忌恨。

滄海一書客

2025-04-06 07:43:47

沙溢一嘴烤瓷牙，比他暴瘦36斤還嚇人，上次被牙嚇到的還是劉濤呢

沙溢一嘴烤瓷牙，比他暴瘦36斤還嚇人，上次被牙嚇到的還是劉濤呢

小娛樂悠悠

2025-04-12 06:25:08

昆凌周杰倫合體上綜藝，相差14歲年齡差好明顯，女方17歲就在一起

昆凌周杰倫合體上綜藝，相差14歲年齡差好明顯，女方17歲就在一起

小咪侃娛圈

2025-04-13 11:24:50

賴昌星的兩大保護傘：一個是公安部長，一個是少將，其父是副國級

賴昌星的兩大保護傘：一個是公安部長，一個是少將，其父是副國級

古書記史

2023-05-24 19:57:44

王思聰的定位很明顯，只要每天玩，不賭不亂投資，就是最好的創業

王思聰的定位很明顯，只要每天玩，不賭不亂投資，就是最好的創業

橘色密碼

2025-02-22 07:20:45

太逗了！男子租房快到期才發現有廚房，之前在臥室做了近一年的飯

太逗了！男子租房快到期才發現有廚房，之前在臥室做了近一年的飯

行者聊官

2025-04-10 18:42:12

某魚百萬女神自曝下海？沒錢還房貸求救榜一：大哥也不能白幫啊

某魚百萬女神自曝下海？沒錢還房貸求救榜一：大哥也不能白幫啊

電競瓜皮

2025-04-07 20:34:09

暴瘦36斤后！沙溢面色發黃瘦脫相，主食只吃玉米青菜

暴瘦36斤后！沙溢面色發黃瘦脫相，主食只吃玉米青菜

可樂談情感

2025-04-11 15:04:00

機器之心Pro

專業的人工智能媒體

10353文章數 142293關注度

往期回顧全部

科技要聞

特朗普政府豁免消費電子等產品的對等關稅

頭條要聞

美民調超半數人對特朗普關稅不滿昔日副手彭斯發警告

頭條要聞

美民調超半數人對特朗普關稅不滿昔日副手彭斯發警告

體育要聞

那個抱起全紅嬋的英國女孩

娛樂要聞

倪虹潔給陳德容上了一課，贏得漂亮！

財經要聞

美國宣布部分商品免征“對等關稅”

汽車要聞

審美和深層次豪華阿維塔06都辦到了

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房產

手機

家居

健康

公開課

房產要聞

教育理想落地！9年制華師附與未來方洲正式簽約，定義“未來教育”新高度

手機要聞

調查顯示，美國用戶在手機電量平均降至 38% 時會產生焦慮

家居要聞

浪漫與優雅不被定義的現代法式

追夢駐境一步一景
半然鎏光時尚簡約且多功能
現代風格年輕簡約

在中國，到底哪些人在吃“偉哥”？

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
中國最大沙漠中唯一的城市，周邊300公里被黃沙覆蓋
李彥宏：百度離破產30天

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：莱州市| 肇源县| 张北县| 兴安盟| 云阳县| 凯里市| 本溪市| 长垣县| 屏南县| 沅陵县| 黄陵县| 游戏| 舟山市| 望城县| 武胜县| 若羌县| 多伦县| 塘沽区| 正镶白旗| 东港市| 武强县| 孝义市| 白城市| 黑龙江省| 奉新县| 定州市| 承德市| 银川市| 沙湾县| 高陵县| 陕西省| 登封市| 贵溪市| 大洼县| 北辰区| 梅州市| 许昌市| 浙江省| 维西| 壤塘县| 汤阴县|

<em id="qi5uu"></em>

<pre id="qi5uu"></pre>