99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

移動GUI智能體邁向實用化!全新驗證器架構V-Droid,刷新任務成功率記錄

0
分享至


新智元報道

編輯:LRST

【新智元導讀】移動GUI自動化智能體V-Droid采用「驗證器驅動」架構,通過離散化動作空間并利用LLM評估候選動作,實現了高效決策。在AndroidWorld等多個基準測試中任務成功率分別達到59.5%、38.3%和49%,決策延遲僅0.7秒,接近實時響應。

隨著人工智能和大語言模型(LLMs)的不斷突破,如何將其優勢賦能現實世界中可實際部署的高效工具,成為了業界關注的焦點。

近期,由微軟亞洲研究院、南洋理工大學、清華大學、香港科技大學等多家機構聯合推出移動圖形用戶界面(GUI)任務自動化智能體——V-Droid,憑借其全新「驗證器驅動」架構,V-Droid不僅在任務成功率上刷新記錄,同時在決策響應速度上實現了接近實時的表現,為移動端自動化控制開辟了全新局面。


鏈接:https://arxiv.org/abs/2503.15937


圖1:V-Droid與其他移動GUI智能體在AndroidWorld上的任務成功率與決策響應時間。對于V-Droid以及其他7B,8B基準模型,決策時間在雙卡4090上測試得出;對于72B基準模型,決策時間在四卡A100上測試得出

長期以來,移動設備上的任務自動化一直面臨兩大難題:一是如何在復雜、多變的GUI環境中準確識別和操作界面元素, 并以多步驟成功完成任務;二是如何在保證任務成功率的前提下降低決策延遲。

以往依靠LLM直接生成操作指令的方法,由于生成過程往往需要連續輸出大量信息,導致在實際應用中既不夠高效,又容易出現決策偏差。


圖2:在決策過程中,將 LLM 用作生成器與用作驗證器的智能體架構的關鍵區別在于:驗證器驅動的智能體不會直接根據任務狀態直接生成動作,而是在作出最終決策之前,明確地對每個候選都動作進行評估

V-Droid創新性地提出「驗證器驅動」的思路。該方法不再直接依賴大語言模型生成最終操作,而是首先通過對UI界面的深入解析構建出詳盡的動作集合,再利用經過精細訓練的基于大語言模型的驗證器對每個候選動作進行評估,最終選出得分最高的動作執行。

這種做法將操作生成與決策判斷有效解耦:一方面,與從零開始直接生成所需操作相比,該方案使智能體能夠在一個離散且有限的動作空間內高效地進行驗證,從而大大降低了決策的復雜度;

同時,由于每次驗證僅輸出極簡的信息(僅一個Token),并且可以對多個候選動作實現并行驗證,從而顯著縮短了每一步決策所需的時間。

V-Droid在多個公共移動任務自動化基準上均取得了顯著提升,例如在AndroidWorld基準上任務成功率達59.5%,比現有智能體提高了近10個百分點,而決策延遲在消費級硬件上(如4090)則降至僅0.7秒左右。


圖3:V-Droid 的工作流程:① 從用戶界面中提取動作并補充默認動作;② 針對每個候選動作使用模板構建驗證提示;③ 利用前綴緩存對候選動作進行批量打分;④ 完成并執行所選動作;⑤ 更新工作記憶

V-Droid的核心突破主要體現在以下幾個方面:

  1. 動作空間離散化與構建由于移動設備屏幕尺寸有限,每個界面上可交互的元素數量本就較少,V-Droid充分利用這一特性,從當前界面的XML描述中提取所有可點擊、長按、滾動、文本輸入等基本操作,將它們映射到一個有限的動作空間中。同時,為了應對界面上未直接呈現的操作(例如返回首頁或模擬系統操作),系統還預置了一系列默認動作。通過這種方式,原本無限的操作可能性被精細劃分為一個可枚舉的集合,在這個集合上進行驗證,大大降低了決策難度。

  2. 驗證器驅動的決策機制與流程不同于傳統依賴生成式模型直接輸出操作指令的方案,V-Droid將LLM的角色重新定位為驗證器。系統首先根據當前任務狀態構造出候選操作列表,并為每個候選動作生成一個預定義格式的驗證提示(Prompt),其中包含任務目標、當前界面狀態、歷史操作記錄以及具體的驗證問題。經過預先微調的驗證器(基于Llama-3.1-8B等小語言模型)會對每個候選動作進行評分,最終系統選擇評分最高的動作執行。由于驗證過程只需要生成「Yes」或「No」這類簡短回復。更重要是的,多組候選驗證可被高效并行,且此過程中只涉及Prefilling階段,從而極大地減少了計算時間,實現了近實時的決策響應。

  3. 對比式過程偏好(P^3)訓練為了提升LLM作為驗證器的決策能力,V-Droid提出P(3 )訓練策略:對比式過程偏好訓練策略(Pairwise Process Preference)。在每個任務步驟中,通過構建正負操作對(即標記正確操作為正樣本,其他操作為負樣本),系統能夠利用大量細粒度的訓練數據對驗證器進行優化,使其更準確地區分正確與錯誤的操作。這種方法不僅提高了模型對相似界面元素的辨別能力,也在一定程度上增強了系統的容錯與自我修正能力。

  4. 人機聯合標注的數據采集策略由于針對移動GUI任務的細粒度標注數據極為稀缺,V-Droid設計了一套人機聯合標注方案。系統初始階段由人工作業完成標注,隨后利用經過初步訓練的驗證器自動生成操作標注,再由人工審核與修正。隨著迭代訓練的進行,驗證器的準確性不斷提升,人工介入比例逐漸下降,從而高效構建起一個涵蓋上萬條任務軌跡的數據集,為后續大規模訓練提供了堅實基礎。



圖4:V-Droid的任務成功率與單步決策響應時間

V-Droid在多個移動任務自動化基準測試中均表現出色。例如,在AndroidWorld基準上,V-Droid的任務成功率達到59.5%,相比傳統代理有明顯優勢;在AndroidLab和MobileAgentBench上,其任務成功率分別為38.3%和49%,均超過先前系統約2%至9%的絕對提升。

此外,決策響應時間僅為0.7秒,使得該系統在實時性要求較高的移動場景中具有顯著應用潛力。

V-Droid所采用的驗證器驅動架構為移動端自動化任務帶來全新思路。通過將智能體的動作生成過程解耦為動作空間構建與驗證,該系統不僅在任務成功率上取得了顯著提升,還在決策延遲方面實現突破。

未來,這一技術有望推廣至更多實際應用中,如自動化測試等領域。隨著大語言模型技術的不斷進步,以及高效訓練與數據采集策略的成熟,驗證器驅動的移動GUI智能體或將成為智能交互領域的突破口。

演示視頻1:「請從 Broccoli 應用中刪除以下食譜:雞肉阿爾弗雷多意大利面、番茄羅勒烤面包以及番茄羅勒烤奶酪三明治」,V-Droid約使用20步操作完成此任務。視頻無加速處理。

演示視頻2:「發送短信息」,V-Droid約使用8步操作完成此任務。視頻無加速處理。

參考資料:

https://arxiv.org/abs/2503.15937

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
舊社會的家妓有多慘?被當做“肉屏風”,吞痰液,連娼妓都不如

舊社會的家妓有多慘?被當做“肉屏風”,吞痰液,連娼妓都不如

午夜故事會
2025-04-11 14:51:35
成都歡樂迪KTV全線下架美國酒水,國產酒水普降34%力挺國貨消費

成都歡樂迪KTV全線下架美國酒水,國產酒水普降34%力挺國貨消費

新浪財經
2025-04-12 20:07:03
出口轉內銷后第一個賣空了庫存的企業誕生了

出口轉內銷后第一個賣空了庫存的企業誕生了

中國網資訊
2025-04-13 11:13:04
中國地震臺網正式測定:04月13日10時24分在緬甸(北緯21.00度,東經95.95度)發生5.4級地震

中國地震臺網正式測定:04月13日10時24分在緬甸(北緯21.00度,東經95.95度)發生5.4級地震

每日經濟新聞
2025-04-13 11:04:06
中國香椿第一縣的“香椿自由”:每公斤最貴時380元,上市一個多月后收購價最低2元

中國香椿第一縣的“香椿自由”:每公斤最貴時380元,上市一個多月后收購價最低2元

紅星新聞
2025-04-13 14:56:15
連續輸給陳芋汐!中國新聞網:全紅嬋不得不面對身體發育的陣痛期

連續輸給陳芋汐!中國新聞網:全紅嬋不得不面對身體發育的陣痛期

直播吧
2025-04-13 09:21:12
從女神到全網嫌,又一個浪姐崩了…

從女神到全網嫌,又一個浪姐崩了…

于小戈
2025-04-13 00:21:10
最新調查:致西門子高管一家5口遇難的直升機上,沒有飛行記錄儀

最新調查:致西門子高管一家5口遇難的直升機上,沒有飛行記錄儀

新京報
2025-04-13 22:20:13
俄軍首次擊落烏軍F16戰機,全過程細節流出,1500萬獎勵即將兌現

俄軍首次擊落烏軍F16戰機,全過程細節流出,1500萬獎勵即將兌現

碳基生物關懷組織
2025-04-13 19:30:17
阿斯:姆巴佩前往阿拉維斯更衣室向布蘭科道歉 也向隊友表達歉意

阿斯:姆巴佩前往阿拉維斯更衣室向布蘭科道歉 也向隊友表達歉意

直播吧
2025-04-14 02:51:07
2025年,5國被踢出發達國家行列,分別都是誰?

2025年,5國被踢出發達國家行列,分別都是誰?

校長侃財
2025-03-02 09:37:24
美債崩潰說明了一切!華爾街:特朗普正在支付“白癡溢價”

美債崩潰說明了一切!華爾街:特朗普正在支付“白癡溢價”

財聯社
2025-04-13 08:21:10
火箭與首輪五大潛在對手交手戰績:對陣勇士劣勢 VS船熊3-1

火箭與首輪五大潛在對手交手戰績:對陣勇士劣勢 VS船熊3-1

直播吧
2025-04-14 04:37:12
這下太狠了!姆巴佩兇狠蹬踏對方小腿,被直紅罰下!

這下太狠了!姆巴佩兇狠蹬踏對方小腿,被直紅罰下!

直播吧
2025-04-13 22:57:25
英國被曝深度參與俄烏沖突,多次派遣部隊入烏

英國被曝深度參與俄烏沖突,多次派遣部隊入烏

界面新聞
2025-04-13 07:04:59
電動車企發明了“說真話罪”

電動車企發明了“說真話罪”

難得君
2025-04-13 18:22:02
結婚不到一年妻子病逝,廣東33歲男子為愛殉情!留下千字催淚遺書

結婚不到一年妻子病逝,廣東33歲男子為愛殉情!留下千字催淚遺書

滄海一書客
2025-04-13 21:06:05
“180度大轉彎”!特朗普關稅又反轉了 | 京釀館

“180度大轉彎”!特朗普關稅又反轉了 | 京釀館

新京報
2025-04-13 20:19:58
楊鳴:新疆打得比我們好不止一個檔次 我們運氣比他們好

楊鳴:新疆打得比我們好不止一個檔次 我們運氣比他們好

直播吧
2025-04-13 22:36:12
馬卡報給姆巴佩打2分超低分:絕對的紅牌,讓皇馬更衣室遭受重創

馬卡報給姆巴佩打2分超低分:絕對的紅牌,讓皇馬更衣室遭受重創

直播吧
2025-04-13 23:40:12
2025-04-14 04:48:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12522文章數 66012關注度
往期回顧 全部

科技要聞

特朗普政府豁免消費電子等產品的對等關稅

頭條要聞

特朗普"180度大轉彎" 首次"對中國商品實施重大豁免"

頭條要聞

特朗普"180度大轉彎" 首次"對中國商品實施重大豁免"

體育要聞

那個抱起全紅嬋的英國女孩

娛樂要聞

倪虹潔給陳德容上了一課,贏得漂亮!

財經要聞

美方豁免部分產品對等關稅 商務部回應

汽車要聞

審美和深層次豪華 阿維塔06都辦到了

態度原創

本地
藝術
親子
家居
時尚

本地新聞

華北將迎“歷史罕見”大風

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

親子要聞

“拒絕上學門診”一號難求,家長也別逼孩子

家居要聞

浪漫與優雅 不被定義的現代法式

今年春夏最實用的穿衣法則,照著搭就很時髦!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 金寨县| 桂阳县| 滨海县| 荃湾区| 进贤县| 开平市| 长子县| 邮箱| 渝中区| 平凉市| 巴塘县| 洪洞县| 灌云县| 浙江省| 东宁县| 上虞市| 永康市| 芷江| 罗田县| 牟定县| 铜川市| 酒泉市| 泗水县| 上犹县| 成武县| 嘉善县| 丹凤县| 龙川县| 永新县| 丁青县| 巴林左旗| 中超| 鹿泉市| 宜兰市| 营山县| 云阳县| 揭西县| 甘南县| 车险| 祁连县| 米林县|