繼DeepSeek之后,中國又一AI產品Manus火了,雖然外界對于該產品喜憂參半,但Manus引發的資本市場涌動,已經讓AI Agent相關概念板塊連板漲停。
雖然利用AI Agent完成任務并非Manus獨創,但它把多智能體協同做成產品,將多個AI能力整合進產品當中,并通過簡易化人機交互來完成復雜任務,其產品的設計思路值得我們每一位從業者去思考,這一點不光聚焦在大語言模型范疇,對于機器人行業亦是如此。
為什么開發機器人,必須掌握Python/C++等語言進行底層控制邏輯編寫,涉及到語言交互機器學習,還必須通過Python調用TensorFlow/PyTorch框架訓練模型,并整合到ROS系統中實現端到端控制。雖然部分研究機構推出了實驗性AI編程助手(如GitHub Copilot),用戶通過描述需求即可生成控制代碼,但當前仍局限于簡單場景,遠沒有達到泛化作業能力的水平。
▍面向人形機器人的AI Agent難點在哪里?
首先我們要明白一點,大語言模型并不能直接應用于人形機器人上。這里面的本質問題在于大語言模型依賴文本數據訓練,缺乏對物理世界的具身感知能力(如物體重量、空間方位、摩擦力等),盡管LLM擅長邏輯推理,但機器人需將抽象指令(如“打開抽屜取薯片”)轉化為具體動作序列(如關節控制參數),并協調感知-決策-執行閉環。未經微調的模型無法將語言指令映射到硬件操作,導致任務成功率低下。
目前業界較為普遍的方法是,通過領域數據注入(如運動軌跡、仿真環境)和參數優化(如LoRA技術),微調可壓縮模型規模、提升硬件適配性,并增強對物理規則的理解,從而打通大語言模型與機器人之間的“數字鴻溝”。
但這種方式并非主流,僅從Figure與Open AI分道揚鑣轉而自研端到端Helix模型就能看得出來。單純依靠LLM并不能解決人形機器人通用性的問題。而Helix模型則更多的整合了感知、語言理解和學習控制等技術,克服了機器人長期以來的多項挑戰。但需要關注的是這套VLA模型確實能夠進行單機和多機交互。但依然無法解決低門檻部署和泛化性任務問題。
▍為什么機器人規模化落地需要AI Agent?
上周,國地共建具身智能機器人創新中心發布了全球首個“一腦多能”“一腦多機”的通用具身智能平臺“慧思開物”。該平臺是對基于單一場景單一任務做專項開發這一傳統機器人應用開發模式的顛覆,同時也填補了具身智能領域在通用軟件系統方面的空白,真正推動智能機器人從單一任務執行向復雜環境下的自主決策與執行能力躍升。
相比稱其為具身智能平臺,筆者更愿意將其視為機器人AI Agent,它不僅具備傳統AI Agent的自主決策、任務規劃等核心能力,更能通過預設指令集,實現物理動作精準控制、多模態環境實時交互、跨硬件平臺泛化應用。這是人形機器人首次通過AI Agent從數字空間向物理空間的拓展。
正如國地共建具身智能機器人創新中心熊友軍所說,具身智能在“智能化”方面仍處于初級階段,為此行業亟需一個具備多本體兼容性、多場景適應性和強大泛化能力的通用智能平臺。
作為一個機器人AI Agent平臺,“慧思開物”除了能夠實現從任務理解到執行的全流程智能化,還具備處理多場景復雜任務的泛化能力,并實現了單個軟件系統在機械臂、輪式機器人、人形機器人等多構型本體上的兼容,能夠適應多樣化的場景作業要求。這與采用VLA模型來驅動機器人進行任務的方式有很大不同。
“慧思開物”作為機器人中樞神經系統,集成感知、決策、語言、學習及運動控制等高級認知功能,通過多專家智能體協同實現模型能力提升,提高機器人在復雜任務中的智能化與執行效率,同時通過低代碼方式降低機器人開發門檻,簡化開發流程。
▍具身"大腦"與"小腦"協同的閉環控制機制
"慧思開物"系統基于AI大模型構建任務規劃具身"大腦"與數據驅動型端到端技能執行具身"小腦"的協同架構,構成支持多類型機器人與物理環境交互的開放式技術平臺。該體系整合了具身智能雙模態核心:
1、具身"大腦"模塊具備多模態交互能力、三維空間認知、語義解析與決策生成功能,支持分層任務規劃與執行過程監控,并通過強化學習實現錯誤補償機制;
2、具身"小腦"采用雙軌架構:
①具身操作子平臺包含元技能知識圖譜、自適應抓取算法庫、復雜動作序列解耦引擎及異常狀態處理模塊
②具身運控子平臺實現全身動力學模型控制、雙臂協同運動規劃、動態平衡調節及多模態導航算法
系統通過具身"大腦"生成任務規劃指令,調用具身"小腦"技能庫執行具體操作,構建"規劃-執行-反饋-優化"的閉環控制流程,形成具有自迭代能力的機器人智能交互體系。
▍自動化、易部署、具備泛化作業能力 四大場景能力展示
在結構化的環境下,“慧思開物”平臺已經實現了工業分揀、積木搭建、桌面清理和物流打包的測試驗證。操作者無需使用Python/C++來實現運控調用,也不需要使用手柄或遙操作設備遠程控制機器人。僅需采用語音指令和“慧思開物”APP直連的方式,與機器人進行任務交互,全程可視化,甚至可以一鍵切換到機器人本體搭載的攝像頭上,進行遠程監控與部署。
在工業分揀場景,操作員通過“慧思開物”APP調用UR-5e機械臂進行雙臂協作分揀任務,免去了傳統機器人使用示教器或控制面板執行預編寫程序的復雜操作?!癆PP+機器人”模式,極大降低了操作者的使用門檻,簡化操作流程。
結構化積木搭建作業,非??简灆C器人對空間的理解能力與操作精度,利用大模型思維鏈能力,“慧思開物”將復雜的任務進行拆解并執行。它具備很強的思考能力,能夠明白三層結構的積木搭建順序,并通過視覺大模型(VLM)進行任務規劃,逐層對人類演示積木結構進行復建,操作精度達到毫米級別。
桌面清理作業,搭載“慧思開物”的“天工”機器人,通過雙臂協作和端到端模型,對桌面垃圾進行清理,將廢紙團投入桌邊垃圾桶中。值得關注的是,搭載“慧思開物”的“天工”機器人即使面臨人為擾動,仍能自主糾錯并完成任務,擁有極強的動態規劃與自適應糾錯能力。
在長程任務的解決能力上,“天工PRO”模擬了流水線當中的物流打包場景,通過上半身協調和雙臂協同作業,機器人成功完成掃碼、裝箱、封箱和貼標簽等一系列操作。真正意義上做到了全流程化自主操作。
▍不止“慧思開物”谷歌DeepMind也在開發機器人AI Agent
幾乎在“慧思開物”發布的同一時間,谷歌DeepMind實驗室公布了Gemini系列最新研究成果。團隊通過Gemini模型,成功實現了對文本、圖像、音頻和視頻的多模態協同分析能力,為復雜問題提供了數字化解決方案。谷歌DeepMind研發人員表示,為了讓AI在物理領域真正服務于人類,具備類似人類的具身推理能力至關重要。
DeepMind團隊基于Gemini 2.0架構發布了兩項最新研究成果:Gemini Robotics和Gemini Robotics-ER(具身推理增強版)。Gemini Robotics作為先進的視覺-語言-動作(VLA)模型,新增了物理動作輸出模塊,能夠直接生成機器人控制指令,實現了多模態感知與實體動作執行的閉環,支持復雜任務的端到端控制。
而Gemini Robotics-ER則專注于空間理解與物理推理,為機器人專家提供了可編程的具身推理框架,顯著增強了機器人在處理動態場景時的決策能力。
從DeepMind Youtube放出的測試視頻來看,搭載Gemini 2.0架構機器人展現出強大的任務操作能力,Gemini Robotics能夠解決各種開箱即用的任務,包括訓練中未見過的任務,且擅長處理新物體、指令和環境。其實時交互能力尤為突出,能夠在快速變化的環境中持續調整行動策略,實現高精度操作。
例如,在折紙任務中,機器人不僅能準確完成復雜動作,還能通過語音交互解釋詞源。此外,Gemini Robotics還具備跨場景泛化能力,能夠成功操作未經專門訓練的實體對象。
為了適配多樣化硬件形態,研究團隊在多個機器人平臺上進行了驗證,并正在與多家人形機器人本體廠商合作,共同開發下一代更具智能化的機器人產品。同時,團隊還發布了新數據集ASIMOV,用于評估和改進具身人工智能和機器人的語義安全性,以推動學術界和工業界在機器人安全方面的研究。
▍結語與未來:
除國地共建具身智能機器人創新中心、谷歌DeepMind之外,微軟也在2025年推出Magma,集成多模態交互與實時決策,支持語音指令直接觸發物理操作。能夠預判的是未來3-5年,具備多模態泛化能力、硬件兼容性和簡單易部署的機器人AI Agent系統級平臺將成為主流趨勢,也將會成為機器人大規模落地的關鍵點之一。當硬件成本與使用門檻得到進一步降低,那么機器人的時代就離我們不再遙遠。
目前來看,雖然機器人AI Agent的“iPhone時刻”尚未到來,但全球范圍內圍繞操作系統級平臺的競爭已悄然啟幕,中國能否在本輪競爭中保持領先優勢,讓我們拭目以待。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.