網易首頁 > 網易號 > 正文申請入駐

AR智能革命！Satori系統讀懂人類意圖，科幻電影場景成現實

2025-04-28 11:43:57　來源: 機器之心Pro

北京舉報

分享至

團隊由 IEEE 會士，紐約大學教授 Claudio Silva 和紐約大學研究助理教授錢靖共同指導。論文由Chenyi Li和Guande Wu共同第一作者。

在無數科幻電影中，增強現實（AR）通過在人們的眼前疊加動畫、文字、圖形等可視化信息，讓人獲得適時的、超越自身感知能力的信息。無論是手術醫生帶著 AR 眼鏡進行操作，還是智能工廠流水線前的例行檢查、或是面對書本時 AR 快速查找翻閱的超能力，是這一切只為一個最終目的——通過適時的信息輔助我們。

直到今日，大部分 AR 輔助依然停留在需要人工遠程接入輔助的層面，與我們期待的智能的、理解性的、可拓展的 AR 輔助相差甚遠。這也導致 AR 在重要產業和生活應用中的普及受到限制。如何能讓 AR 在生活中真正做到理解用戶、理解環境、并適時的輔助依然面臨巨大挑戰。

Satori 系統自動識別用戶稱重 11 g 咖啡的展示

這一切隨著 Satori 系統的誕生即將成為過去。來自紐約大學數據與可視化實驗室（NYU VIDA）聯合 Adobe 的研究人員融合多模態大語言模型（MLLM）與認知理論 BDI（Belief-desire-intention theory）讓 AI 首次真正意義的去理解使用者的行為、目標以及環境狀態，最終達到根據不同場景自動適配指示內容，指示步驟，與判斷輔助時機。讓 AR 輔助接入智慧核心，向泛化應用、智能交互邁進了里程碑的一步。

論文標題：Satori: Towards Proactive AR Assistant with Belief-Desire-Intention User Modeling
論文鏈接：https://arxiv.org/abs/2410.16668v2
Github：https://github.com/VIDA-NYU/satori-assistance

Satori 創新介紹

創新點一：結合 BDI 模型讓 AI 理解用戶行為和場景關系

通過 AR 眼鏡讓 AI 擁有跟用戶共同視角的「具身感知」，成功的讓 AI 通過認知模型 BDI 理解用戶的動作行為及其短期目的。BDI 把人的行為分解成對周圍世界的理解（Belief），對總體目標的判斷（Desire），和為達目標進行的動作行為（Intention）三個部分。

本質上，BDI 強調人是主動性體（agentive being），做出的行為是基于對環境的理解和內部目標的組合，因此我們使用 AI 以多模態數據的模擬人接受信息和應對目標的方式，適合短期以行為目標為主的的 AR 輔助。

這使得 AR 眼鏡可以通過 AI 加持實時判斷用戶行為背后的目的，不再是單純的對于行為本身的判斷。

創新點二：大語言模型結構認知

Satori 系統以模塊化組織 MLLM，將圖像識別、語義理解、用戶交互歷史上下文解耦處理，并統一納入 BDI 認知架構中。通過將視覺感知模塊（如 OWL-ViT 與 DETR）與語言推理模塊（MLLM）分層協作，系統能夠從用戶的行為動態構建 Belief 狀態、識別任務目標，推理出即時意圖。

該模塊化結構不僅增強了推理透明度與可解釋性，還顯著提升了系統的泛化性與跨任務適配能力，展示了多模態大模型在具身智能中的結構認知潛力。

自動生成帶有動作和箭頭方向的指示圖片

創新點三：AI 自動生成多模態指示

在輔助過程中，AI 生成了適時的、應景的、易理解的圖片以及文字。在圖像層面，Satori 使用 DALLE-3 與場景感知（Belief）模塊自動生成與當前任務階段精準匹配的視覺提示（如剪刀與花的動作關系，與花瓶的空間位置關系），給用戶直接的視覺指引、減少語義誤解。

這項技術同時也用在了文字生成中，在基礎文本上追加對場景物體，用戶交互關系的描述（如「把花插入花瓶」變為「把花插入藍色花瓶」）。此創新讓 AI 更具備操作引導的即時性與可視化表達能力，大幅提升了 AR 輔助的清晰度與實用性。

創新點四：雙系統動作完成檢測方法減少用戶等待時間，增加提示準確率

AR 輔助中一大挑戰在于任務的復雜度影響了 AI 判斷成功率和速度。步驟越復雜、動作越多，AI 一次性判斷的噪音和不確定性越大。因此，Satori 團隊創新地將每個步驟分成多個更明確，易判斷的小目標（checkpoints），來完成對總體步驟的確認。例如：「剪花」任務中的「剪掉枯葉」步驟，會有「拿剪刀」，「對準枯葉」，和「完成剪切」三個小目標，系統判斷這些是否完成后便可觸發下一提示。

Satori 使用雙系統理論（Dual Process Theory）將 AI 的反饋分為「快速反應+理性結構」。動作識別由一個輕量 LLM 完成快速行為完成判斷，以高容量 LLM 補充結構性語義分析，通過交互設計機制將二者節奏對齊，確保系統既具響應性，又具智能表達力。

團隊所提出的模塊化多模態推理框架，不僅在技術層面上展示出對 AR 交互場景的高度適配性，更為未來跨平臺、多領域的智能輔助系統奠定了方法論基礎。系統核心可靈活部署于 HoloLens、Vision Pro、或者輕量級智能眼鏡如 Rokid、INMO、雷鳥、和 Nreal 等不同硬件平臺。

在 AI 與大語言模型快速發展的今天，無疑是 AR 技術邁向實用性的一次新的機遇。無論你是 AI、AR 的愛好者，或者是在學界，工業界的專業人士，都歡迎關注 AR 輔助這個正在覺醒的未來。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.