99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

遠超 GPT-4o!Physical Intelligence 推出 Hi Robot,通過“自言自語”學會人類思維

0
分享至


機器人面對 真實環境中的復雜任務 時,如何做到不只是執行單個簡單指令,而是也能 自主推理完成目標所需的多個步驟 ,進而像人類一樣出色地完成任務呢?

對此,美國具身智能初創公司 Physical Intelligence 的答案是—— 讓機器人學會以系統 2 思維進行思考。

美國著名心理學家 Daniel Kahneman 將人類解決問題的兩種思維模式描述為“系統 1”(“System 1”)和“系統 2”(“System 2”)。系統 1 是直覺、本能且自動的;系統 2 則是深思熟慮和有意識的。 打個比方,當人類做一道新菜肴時,他們會查看食譜,準備食材,在做菜的過程中仔細思考每一個步驟。這時所用的思維模式就是系統 2 思維。但是,當某人第一百次做同一件事時,熟練到幾乎不用思考,只需機械化地完成,所用的就是系統 1 思維模式。

昨日,Physical Intelligence 推出了“分層交互式機器人”(Hi Robot)系統,其能夠將視覺-語言-行動(VLA)模型,如 π0 ,納入一個分層推理過程。 π0 作為本能反應的“系統 1”可以執行熟練的任務,而一個高層次語義視覺-語言模型(VLM)則充當“系統 2”,通過“自言自語”來推理復雜任務和語言交互。這個系統 2 的高層次策略促使機器人能夠將復雜任務拆解成中間步驟。

先來看一下官方給出的視頻:

據介紹,這一高層次策略本身是一個 VLM,其使用與 π0 完全相同的 VLM 主干網,在訓練后 可以處理復雜的提示、觀察場景并將任務拆解成易于執行的小步驟, 將這些步驟(如“拿起一片全麥面包”)交給 π0 的 VLA 模型來執行,同時 結合實時的上下文反饋。

例如,如果它正在清理桌子,用戶說“那不是垃圾”,模型會理解這是什么意思,將物體(“那”)與圖像中機器人正在操作的物體關聯起來,并正確理解隱含的指令(即,“那”不應該被放入垃圾桶,因此應該放到其他地方),從而再次將正確的中間步驟交給 π0 模型來執行。


圖|高級策略處理來自底座和腕裝攝像頭的開放式指令和圖像,生成低級語言指令。低級策略使用這些指令、圖像和機器人狀態來生成動作和可選的語言響應。

相關研究論文以“Hi Robot: Open-Ended Instruction Following with Hierarchical Vision-Language-Action Models”為題,已發表在預印本網站 arXiv 上。


論文鏈接:https://www.arxiv.org/abs/2502.19417

分層推理有何優勢?

如果高層次的 Hi Robot 策略和低層次的 π0 模型都是基于相同的 VLM,那么為什么這種分層推理過程實際上具有優勢呢?

就像語言模型在解決復雜問題時,如果被允許生成額外的文本來“思考”一樣, Hi Robot 如果能夠先將復雜的提示和反饋拆解成簡單的步驟,然后再交給 π0 模型來執行,它就能更好地處理這些復雜的提示和反饋。 還有一個更為技術性的原因: Physical Intelligence 團隊用來初始化 VLM 的網絡規模預訓練,可以訓練模型生成文本答案,來回答那些涉及圖像和文本上下文的提示和問題。 這就意味著,這類模型在開箱即用的狀態下,已經非常擅長回答類似“在這張圖片中,機器人接下來應該抓取哪個物體來清理桌子?”的問題。

因此,Hi Robot 能夠更好地繼承 VLM 在大規模網絡預訓練中積累的知識。這與你思考的方式非常相似:當你做那道新菜肴時,你可能是在思考從食譜、朋友告訴你的東西,或者從烹飪節目里學到的東西——這些都是你從其他來源獲得的知識,而非親身體驗。

機器人學會“自言自語”

Physical Intelligence 團隊表示,通過檢查 Hi Robot 在面對復雜提示時的內部“思維”,他們可以了解到其系統是如何通過用戶提示完成復雜任務的。

在這種情況下,π0 接受的訓練就是簡單地清理桌子,將所有垃圾丟進垃圾桶,把所有餐具放入垃圾箱。如果讓 π0 自己去做,它會直接執行這個任務——你有過“自動駕駛”的經歷,自己不知不覺地完成了一項熟練的任務,甚至忘記了自己原本想做什么。但在 Hi Robot 的控制下,π0 可以按照這種更復雜的提示進行調整,按照用戶的命令,Hi Robot 會推理出應該提供給 π0 的修改版指令。 由于這些指令是以自然語言生成的,因此可以檢查它們,并觀察機器人是如何“自言自語”地執行任務的。

解讀用戶的上下文反饋是一個類似的問題,正如 Hi Robot 可以解析復雜的提示語一樣,甚至 它在執行任務的過程中也能實時地納入反饋。

用合成數據訓練高層次策略

訓練機器人跟隨復雜、開放式的提示,不僅僅需要帶有原子指令的演示數據。僅憑這些數據不太可能提供足夠豐富的多步驟交互示例。為了彌補這一差距,Physical Intelligence 團隊提出了合成標注數據集的方案—— 將機器人的觀察結果和人類標注的技能與假設的提示和人類插話配對。 這種方法模擬了現實的交互,幫助模型學習如何解讀和響應復雜的指令。

Physical Intelligence 團隊對 Hi Robot 在實際任務中的表現進行了評估(如清理桌子、做三明治和購物),并與先前的方法進行了比較。結果表明,Hi Robot 在性能上優于 GPT-4o 和平面 VLA 策略。如下面的定量評估所示, Hi Robot 在指令跟隨準確率上比 GPT-4o 高出 40%,表明它在對用戶提示和實時觀察的對齊方面有更強的能力。 此外,Hi Robot 在處理多階段指令、適應實時修正和遵守約束條件方面優于平面 VLA 策略。




像人類一樣推理

智能且靈活的機器人系統不僅需要執行靈巧的任務,還需要理解環境并推理復雜的多階段問題。 從表面上看,Hi Robot 側重于通過提示和反饋與用戶互動,但這個系統的最終目標是賦予機器人類似于你在解決像做新食譜這樣困難的問題時聽到的“內心聲音”。與人互動為我們提供了這一能力重要性的最生動例證,但它的意義遠不止于此。

能夠思考復雜問題并運用從大規模網絡預訓練中學到的知識的機器人將更加靈活,展現出顯著更好的常識推理能力,且從長遠來看,在開放世界環境中為我們提供更加自然的幫助。 它們將能夠理解當有人在白板上寫“請勿擦除”時的含義,知道如果一個人正在睡覺就不應該打擾,意識到脆弱物品應該小心處理。這些都是我們每天基于不僅是親身體驗,還有從他人處學到的東西所做的推理。

LLM 和 VLM 為我們提供了從互聯網上學習這類知識的強大工具,但要將這些知識與機器人等物理系統無縫連接起來,卻面臨著巨大的技術挑戰。Physical Intelligence 團隊希望,Hi Robot 可以是朝這個方向邁出的重要的一步。

參考鏈接:https://www.pi.website/research/hirobot

整理:陳小宇

如需轉載或投稿,請直接在公眾號內留言

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
樊福太,被查

樊福太,被查

新京報政事兒
2025-04-25 19:32:02
法裔修女在禁區淚別教皇:跨越禮儀的生死告別,56年情誼催人淚下

法裔修女在禁區淚別教皇:跨越禮儀的生死告別,56年情誼催人淚下

譯言
2025-04-26 16:48:55
已釋懷!王菲去看謝霆鋒演唱會,同天張柏芝戴千萬珠寶拍大片

已釋懷!王菲去看謝霆鋒演唱會,同天張柏芝戴千萬珠寶拍大片

明月聊史
2025-04-26 17:46:49
瑾汐認親后續!親生父母產業曝光,二姐抵達機場,哥哥身份大反轉

瑾汐認親后續!親生父母產業曝光,二姐抵達機場,哥哥身份大反轉

小米亞的故事
2025-04-26 16:36:47
“特朗普虛晃一招,中國沒上鉤”

“特朗普虛晃一招,中國沒上鉤”

觀察者網
2025-04-26 10:05:04
直擊教皇葬禮:威廉盡顯未來君主風范,夏琳王妃、萊后優雅搶鏡

直擊教皇葬禮:威廉盡顯未來君主風范,夏琳王妃、萊后優雅搶鏡

曉徙娛樂
2025-04-26 18:24:32
孫銘徽傷情動態更新!不打算核磁共振,只是有點腫,下場能打!

孫銘徽傷情動態更新!不打算核磁共振,只是有點腫,下場能打!

籃球資訊達人
2025-04-26 22:44:54
過安檢能讓多少人“身敗名裂”?網友分享太炸裂,一看一個不吱聲

過安檢能讓多少人“身敗名裂”?網友分享太炸裂,一看一個不吱聲

奇特短尾矮袋鼠
2024-06-26 20:24:41
OK鏡,賣不動了

OK鏡,賣不動了

健識局
2025-04-26 13:25:33
特朗普談印巴局勢,罕見局面出現:中國不動,俄不動,美國就不動

特朗普談印巴局勢,罕見局面出現:中國不動,俄不動,美國就不動

振華觀史
2025-04-26 20:32:48
逾20萬人參與!示威群眾嗆賴清德下臺,人潮碾壓綠營“419游行”

逾20萬人參與!示威群眾嗆賴清德下臺,人潮碾壓綠營“419游行”

海峽導報社
2025-04-26 16:38:06
廣廈大勝后瘋狂慶祝!楊鳴賽后疑似甩鍋 專家:遼籃連青島都不如

廣廈大勝后瘋狂慶祝!楊鳴賽后疑似甩鍋 專家:遼籃連青島都不如

籃球快餐車
2025-04-27 01:28:14
董明珠發現了海歸“行淫之具”

董明珠發現了海歸“行淫之具”

不正確
2025-04-26 23:02:51
90后攝影師鏡頭下的重慶再被外交部發言人全球推薦:外交部特別寵愛重慶風光

90后攝影師鏡頭下的重慶再被外交部發言人全球推薦:外交部特別寵愛重慶風光

上游新聞
2025-04-26 21:25:21
反轉大瓜?劉國梁或升任總局副局長,分管乒乓球和籃球?

反轉大瓜?劉國梁或升任總局副局長,分管乒乓球和籃球?

體育有點水
2025-04-26 12:16:59
閑魚變“黃魚”,表面賣女生自用自行車,實則做著見不得人的交易

閑魚變“黃魚”,表面賣女生自用自行車,實則做著見不得人的交易

西齋青簡
2024-05-07 11:55:02
隨著湖人1-2落后森林狼,快船2-1掘金,雷霆3-0,西部4強基本出爐

隨著湖人1-2落后森林狼,快船2-1掘金,雷霆3-0,西部4強基本出爐

球場沒跑道
2025-04-26 12:58:14
歐美高科技為啥不賣給中國?荷蘭:我70萬的平衡車,他們600拿下

歐美高科技為啥不賣給中國?荷蘭:我70萬的平衡車,他們600拿下

看世界的人
2025-04-26 11:21:26
周末大雷,萬億市值中字頭利潤暴降81%,12個中字頭股票集體暴雷

周末大雷,萬億市值中字頭利潤暴降81%,12個中字頭股票集體暴雷

鵬哥投研
2025-04-26 16:38:42
深夜打虎,侯有龍被查!

深夜打虎,侯有龍被查!

魯中晨報
2025-04-26 09:36:03
2025-04-27 05:32:49
學術頭條
學術頭條
致力于學術傳播和科學普及,重點關注人工智能、生命科學等前沿科學進展。
1247文章數 5069關注度
往期回顧 全部

科技要聞

百度心響實測:“能用版Manus”開了個好頭

頭條要聞

特朗普將舉行集會慶祝執政100天 美媒:時機不妙

頭條要聞

特朗普將舉行集會慶祝執政100天 美媒:時機不妙

體育要聞

廣廈19分勝遼寧獲開門紅 孫銘徽13分3助崴腳

娛樂要聞

金掃帚獎出爐,包貝爾意外獲“影帝”

財經要聞

韓國的"宇樹科技" 是怎樣被財閥毀掉的?

汽車要聞

充電5分鐘續航100公里 探訪華為兆瓦超充站

態度原創

藝術
本地
游戲
數碼
軍事航空

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

本地新聞

云游湖北 | 漢川文旅新體驗:千年陶藝邂逅湖光

夢幻西游:出了雙固傷玉魄卻難過,口袋版成刷80級環裝首選

數碼要聞

AMD修補高危安全漏洞!歷代Zen架構CPU 100%中招

軍事要聞

白宮爭吵后特朗普與澤連斯基"首度"碰面

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 塔城市| 陇南市| 余姚市| 香格里拉县| 奉化市| 临泉县| 峡江县| 泰顺县| 宽甸| 三穗县| 堆龙德庆县| 龙川县| 小金县| 中卫市| 周口市| 涡阳县| 清水河县| 惠州市| 拜泉县| 遂昌县| 乡宁县| 长治市| 西盟| 巴塘县| 新巴尔虎左旗| 中江县| 青岛市| 商水县| 常熟市| 新源县| 芦溪县| 军事| 东源县| 姜堰市| 观塘区| 浦县| 崇文区| 绥宁县| 土默特左旗| 曲麻莱县| 固始县|