當機器人面對 真實環境中的復雜任務 時,如何做到不只是執行單個簡單指令,而是也能 自主推理完成目標所需的多個步驟 ,進而像人類一樣出色地完成任務呢?
對此,美國具身智能初創公司 Physical Intelligence 的答案是—— 讓機器人學會以系統 2 思維進行思考。
美國著名心理學家 Daniel Kahneman 將人類解決問題的兩種思維模式描述為“系統 1”(“System 1”)和“系統 2”(“System 2”)。系統 1 是直覺、本能且自動的;系統 2 則是深思熟慮和有意識的。 打個比方,當人類做一道新菜肴時,他們會查看食譜,準備食材,在做菜的過程中仔細思考每一個步驟。這時所用的思維模式就是系統 2 思維。但是,當某人第一百次做同一件事時,熟練到幾乎不用思考,只需機械化地完成,所用的就是系統 1 思維模式。
昨日,Physical Intelligence 推出了“分層交互式機器人”(Hi Robot)系統,其能夠將視覺-語言-行動(VLA)模型,如 π0 ,納入一個分層推理過程。 π0 作為本能反應的“系統 1”可以執行熟練的任務,而一個高層次語義視覺-語言模型(VLM)則充當“系統 2”,通過“自言自語”來推理復雜任務和語言交互。這個系統 2 的高層次策略促使機器人能夠將復雜任務拆解成中間步驟。
先來看一下官方給出的視頻:
據介紹,這一高層次策略本身是一個 VLM,其使用與 π0 完全相同的 VLM 主干網,在訓練后 可以處理復雜的提示、觀察場景并將任務拆解成易于執行的小步驟, 將這些步驟(如“拿起一片全麥面包”)交給 π0 的 VLA 模型來執行,同時 結合實時的上下文反饋。
例如,如果它正在清理桌子,用戶說“那不是垃圾”,模型會理解這是什么意思,將物體(“那”)與圖像中機器人正在操作的物體關聯起來,并正確理解隱含的指令(即,“那”不應該被放入垃圾桶,因此應該放到其他地方),從而再次將正確的中間步驟交給 π0 模型來執行。
圖|高級策略處理來自底座和腕裝攝像頭的開放式指令和圖像,生成低級語言指令。低級策略使用這些指令、圖像和機器人狀態來生成動作和可選的語言響應。
相關研究論文以“Hi Robot: Open-Ended Instruction Following with Hierarchical Vision-Language-Action Models”為題,已發表在預印本網站 arXiv 上。
論文鏈接:https://www.arxiv.org/abs/2502.19417
分層推理有何優勢?
如果高層次的 Hi Robot 策略和低層次的 π0 模型都是基于相同的 VLM,那么為什么這種分層推理過程實際上具有優勢呢?
就像語言模型在解決復雜問題時,如果被允許生成額外的文本來“思考”一樣, Hi Robot 如果能夠先將復雜的提示和反饋拆解成簡單的步驟,然后再交給 π0 模型來執行,它就能更好地處理這些復雜的提示和反饋。 還有一個更為技術性的原因: Physical Intelligence 團隊用來初始化 VLM 的網絡規模預訓練,可以訓練模型生成文本答案,來回答那些涉及圖像和文本上下文的提示和問題。 這就意味著,這類模型在開箱即用的狀態下,已經非常擅長回答類似“在這張圖片中,機器人接下來應該抓取哪個物體來清理桌子?”的問題。
因此,Hi Robot 能夠更好地繼承 VLM 在大規模網絡預訓練中積累的知識。這與你思考的方式非常相似:當你做那道新菜肴時,你可能是在思考從食譜、朋友告訴你的東西,或者從烹飪節目里學到的東西——這些都是你從其他來源獲得的知識,而非親身體驗。
機器人學會“自言自語”
Physical Intelligence 團隊表示,通過檢查 Hi Robot 在面對復雜提示時的內部“思維”,他們可以了解到其系統是如何通過用戶提示完成復雜任務的。
在這種情況下,π0 接受的訓練就是簡單地清理桌子,將所有垃圾丟進垃圾桶,把所有餐具放入垃圾箱。如果讓 π0 自己去做,它會直接執行這個任務——你有過“自動駕駛”的經歷,自己不知不覺地完成了一項熟練的任務,甚至忘記了自己原本想做什么。但在 Hi Robot 的控制下,π0 可以按照這種更復雜的提示進行調整,按照用戶的命令,Hi Robot 會推理出應該提供給 π0 的修改版指令。 由于這些指令是以自然語言生成的,因此可以檢查它們,并觀察機器人是如何“自言自語”地執行任務的。
解讀用戶的上下文反饋是一個類似的問題,正如 Hi Robot 可以解析復雜的提示語一樣,甚至 它在執行任務的過程中也能實時地納入反饋。
用合成數據訓練高層次策略
訓練機器人跟隨復雜、開放式的提示,不僅僅需要帶有原子指令的演示數據。僅憑這些數據不太可能提供足夠豐富的多步驟交互示例。為了彌補這一差距,Physical Intelligence 團隊提出了合成標注數據集的方案—— 將機器人的觀察結果和人類標注的技能與假設的提示和人類插話配對。 這種方法模擬了現實的交互,幫助模型學習如何解讀和響應復雜的指令。
Physical Intelligence 團隊對 Hi Robot 在實際任務中的表現進行了評估(如清理桌子、做三明治和購物),并與先前的方法進行了比較。結果表明,Hi Robot 在性能上優于 GPT-4o 和平面 VLA 策略。如下面的定量評估所示, Hi Robot 在指令跟隨準確率上比 GPT-4o 高出 40%,表明它在對用戶提示和實時觀察的對齊方面有更強的能力。 此外,Hi Robot 在處理多階段指令、適應實時修正和遵守約束條件方面優于平面 VLA 策略。
像人類一樣推理
智能且靈活的機器人系統不僅需要執行靈巧的任務,還需要理解環境并推理復雜的多階段問題。 從表面上看,Hi Robot 側重于通過提示和反饋與用戶互動,但這個系統的最終目標是賦予機器人類似于你在解決像做新食譜這樣困難的問題時聽到的“內心聲音”。與人互動為我們提供了這一能力重要性的最生動例證,但它的意義遠不止于此。
能夠思考復雜問題并運用從大規模網絡預訓練中學到的知識的機器人將更加靈活,展現出顯著更好的常識推理能力,且從長遠來看,在開放世界環境中為我們提供更加自然的幫助。 它們將能夠理解當有人在白板上寫“請勿擦除”時的含義,知道如果一個人正在睡覺就不應該打擾,意識到脆弱物品應該小心處理。這些都是我們每天基于不僅是親身體驗,還有從他人處學到的東西所做的推理。
LLM 和 VLM 為我們提供了從互聯網上學習這類知識的強大工具,但要將這些知識與機器人等物理系統無縫連接起來,卻面臨著巨大的技術挑戰。Physical Intelligence 團隊希望,Hi Robot 可以是朝這個方向邁出的重要的一步。
參考鏈接:https://www.pi.website/research/hirobot
整理:陳小宇
如需轉載或投稿,請直接在公眾號內留言
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.