團隊由 IEEE 會士,紐約大學教授 Claudio Silva 和紐約大學研究助理教授錢靖共同指導。 論文由Chenyi Li和Guande Wu共同第一作者。
在無數科幻電影中,增強現實(AR)通過在人們的眼前疊加動畫、文字、圖形等可視化信息,讓人獲得適時的、超越自身感知能力的信息。無論是手術醫生帶著 AR 眼鏡進行操作,還是智能工廠流水線前的例行檢查、或是面對書本時 AR 快速查找翻閱的超能力,是這一切只為一個最終目的——通過適時的信息輔助我們。
直到今日,大部分 AR 輔助依然停留在需要人工遠程接入輔助的層面,與我們期待的智能的、理解性的、可拓展的 AR 輔助相差甚遠。這也導致 AR 在重要產業和生活應用中的普及受到限制。如何能讓 AR 在生活中真正做到理解用戶、理解環境、并適時的輔助依然面臨巨大挑戰。
Satori 系統自動識別用戶稱重 11 g 咖啡的展示
這一切隨著 Satori 系統的誕生即將成為過去。來自紐約大學數據與可視化實驗室(NYU VIDA)聯合 Adobe 的研究人員融合多模態大語言模型(MLLM)與認知理論 BDI(Belief-desire-intention theory)讓 AI 首次真正意義的去理解使用者的行為、目標以及環境狀態,最終達到根據不同場景自動適配指示內容,指示步驟,與判斷輔助時機。讓 AR 輔助接入智慧核心,向泛化應用、智能交互邁進了里程碑的一步。
- 論文標題:Satori: Towards Proactive AR Assistant with Belief-Desire-Intention User Modeling
- 論文鏈接:https://arxiv.org/abs/2410.16668v2
- Github:https://github.com/VIDA-NYU/satori-assistance
Satori 創新介紹
創新點一:結合 BDI 模型讓 AI 理解用戶行為和場景關系
通過 AR 眼鏡讓 AI 擁有跟用戶共同視角的「具身感知」,成功的讓 AI 通過認知模型 BDI 理解用戶的動作行為及其短期目的。BDI 把人的行為分解成對周圍世界的理解(Belief),對總體目標的判斷(Desire),和為達目標進行的動作行為(Intention)三個部分。
本質上,BDI 強調人是主動性體(agentive being),做出的行為是基于對環境的理解和內部目標的組合,因此我們使用 AI 以多模態數據的模擬人接受信息和應對目標的方式,適合短期以行為目標為主的的 AR 輔助。
這使得 AR 眼鏡可以通過 AI 加持實時判斷用戶行為背后的目的,不再是單純的對于行為本身的判斷。
創新點二:大語言模型結構認知
Satori 系統以模塊化組織 MLLM,將圖像識別、語義理解、用戶交互歷史上下文解耦處理,并統一納入 BDI 認知架構中。通過將視覺感知模塊(如 OWL-ViT 與 DETR)與語言推理模塊(MLLM)分層協作,系統能夠從用戶的行為動態構建 Belief 狀態、識別任務目標,推理出即時意圖。
該模塊化結構不僅增強了推理透明度與可解釋性,還顯著提升了系統的泛化性與跨任務適配能力,展示了多模態大模型在具身智能中的結構認知潛力。
自動生成帶有動作和箭頭方向的指示圖片
創新點三:AI 自動生成多模態指示
在輔助過程中,AI 生成了適時的、應景的、易理解的圖片以及文字。在圖像層面,Satori 使用 DALLE-3 與場景感知(Belief)模塊自動生成與當前任務階段精準匹配的視覺提示(如剪刀與花的動作關系,與花瓶的空間位置關系),給用戶直接的視覺指引、減少語義誤解。
這項技術同時也用在了文字生成中,在基礎文本上追加對場景物體,用戶交互關系的描述(如「把花插入花瓶」變為「把花插入藍色花瓶」)。此創新讓 AI 更具備操作引導的即時性與可視化表達能力,大幅提升了 AR 輔助的清晰度與實用性。
創新點四:雙系統動作完成檢測方法減少用戶等待時間,增加提示準確率
AR 輔助中一大挑戰在于任務的復雜度影響了 AI 判斷成功率和速度。步驟越復雜、動作越多,AI 一次性判斷的噪音和不確定性越大。因此,Satori 團隊創新地將每個步驟分成多個更明確,易判斷的小目標(checkpoints),來完成對總體步驟的確認。例如:「剪花」任務中的「剪掉枯葉」步驟,會有「拿剪刀」,「對準枯葉」,和「完成剪切」三個小目標,系統判斷這些是否完成后便可觸發下一提示。
Satori 使用雙系統理論(Dual Process Theory)將 AI 的反饋分為「快速反應+理性結構」。動作識別由一個輕量 LLM 完成快速行為完成判斷,以高容量 LLM 補充結構性語義分析,通過交互設計機制將二者節奏對齊,確保系統既具響應性,又具智能表達力。
團隊所提出的模塊化多模態推理框架,不僅在技術層面上展示出對 AR 交互場景的高度適配性,更為未來跨平臺、多領域的智能輔助系統奠定了方法論基礎。系統核心可靈活部署于 HoloLens、Vision Pro、或者輕量級智能眼鏡如 Rokid、INMO、雷鳥、和 Nreal 等不同硬件平臺。
在 AI 與大語言模型快速發展的今天,無疑是 AR 技術邁向實用性的一次新的機遇。無論你是 AI、AR 的愛好者,或者是在學界,工業界的專業人士,都歡迎關注 AR 輔助這個正在覺醒的未來。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.