作者 | 金旺
欄目 | 機器人新紀元
2024年1月,騰訊發布《2024數字科技前沿應用趨勢》報告,在這份報告中,“AI加速人形機器人‘手、腦’進化”排在十大前沿應用趨勢第三位。
于是,我們看到,3月30日,在上海舉辦的首屆中國具身智能大會上,騰訊Robotics X實驗室成了大會四大鉆石贊助商之一,騰訊首席科學家、Robotics X實驗室主任張正友在大會上也做了具身智能主題演講。
張正友在大會上指出,AGI的終極形態,會是一個機器人形態。
在人形機器人最熱鬧的這一年里,騰訊做了靈巧手、機械臂(相當于人形機器人上半身的手臂控制能力),也做了各種四足機器人(相當于人形機器人的下半身的運動能力)。
科技行者在騰訊關于機器人的未來規劃中,已經看到了人形機器人的身影。
現在,我們可以再期待一下騰訊的人形機器人了。
01 智能,是否需要具身?
什么是具身智能?
張正友指出,所謂具身智能,是指有物理載體的智能體(也就是智能機器人)在與物理世界的交互過程中,通過感知、控制和自主學習來積累知識和技能,形成智能,并由此影響物理世界的能力。
實際上,具身智能并不是什么新鮮事物,早在1950年,人工智能之父艾倫·圖靈發表的那篇大名鼎鼎的論文《Computing Machinery and Intelligence》中,就已經提出了這一概念。
OpenAI CEO奧特曼也曾指出,“如果我們有了通用人工智能,而在物理世界中完成一件事唯一的方法還是讓人類自己去做,那就太令人沮喪了。”
“我們會在某個時候以某種方式重返機器人領域。”
奧特曼最初構建OpenAI時,就是想基于機器人來實現通用人工智能,只不過,命運多舛,才有了后來的ChatGPT和Sora。
實際上,OpenAI在過去兩年里已經相繼投資了兩家人形機器人公司,一家是1X Technologies、另一家是Figure AI。
那么,智能,到底是否需要具身呢?
這一問題在產業界其實依然有兩種聲音:
一種聲音認為,智能并不一定與物理形態有關,智能主要關乎信息處理、問題解決和決策制定,這些都可以通過軟件或算法實現。
另一種聲音則認為,身體對于智能至關重要,智能源于生物體與周圍環境之間的互動,這需要物理形態。
張正友在大會上指出,“我相信大家都認為智能是需要具身的,否則就不會來參加這場具身智能大會了。”
贊同這一觀點的人,當然也包括張正友本人。
實際上,張正友在演講中也指出,AGI的終極形態,是一個機器人形態。
02 騰訊造機器人的A2G
2018年,張正友正式加入騰訊,并在這一年組建了騰訊機器人實驗室,Robotics X實驗室。
張正友說,騰訊這一實驗室成立之初定了,團隊內部定下了一個指導方針——A2G。
具體而言,是用ABCDEFG代指了幾個技術要素的英文縮寫,翻譯過來,這幾個要素分別為:人工智能、機器人本體、精準控制、發育學習、情感理解、靈巧操控、守護天使。
其中,人工智能、機器人本體、精準控制為底層基礎能力,發育學習、情感理解、靈巧控制構成了更上層的中間層能力。
最上層的G,具體是指通過部署在環境中的傳感器,讓環境和機器人信息共通,通過云與家人和世界互聯,讓機器人成為守護天使。
這是一個相當宏大的愿望,一個宏大到很難說這個實驗室還要經歷幾代科學家的努力,才能達成夙愿。
不過,就這樣,騰訊在這一年開始了機器人的技術研發,各類機器人在之后幾年里也陸續面世:
2019年12月,騰訊發布了自平衡自行車;
2020年10月,騰訊發布了的四足機器人Jamaca學會了走梅花樁;
2021年2月,騰訊發布了多模態四足機器人Max;
2021年11月,騰訊發布了IDC運維機器人;
……
到2023年,騰訊又發布了擁有靈巧手和機械臂的機器人,這款機器人還學會了調酒。
就在大家覺得機器人離走進人類生活已經近在咫尺時,實際上,AGI+機器人的模式創新才剛剛開始。
03 再造一個新范式
也是在本次大會上,張正友重提了一個概念“SLAP范式”。
每個科學家要想自成一派,就要創造一套自己的理論。
早在2018年,Robotics X實驗室成立后,張正友就提出了SLAP范式。
這一范式的提出,其實基于張正友對智能控制的理解。
張正友說,“我們感興趣的機器人要能應對不同環境,即使在不確定性很大的環境中,仍然能夠有自主調整和規劃的系統。”
這就要求機器人有兩類自主能力:
一類是反應式的自主能力,另一類是有意識的自主能力。
反應式的自主能力是說,在遇到被人踢了一腳這樣意想不到的情況后,機器人能夠很快適應變化,并調整自己的姿態;
有意識的自主能力則是說,機器人要有自主規劃能力。
要實現這樣的具身智能,顯然已經無法依賴傳統的“感知-計劃-行動”的控制范式,于是,張正友提出了SLAP范式。
SLAP范式同樣是幾個英文單詞的所系,具體而言是,感知、行動、學習、計劃。
這套范式與傳統控制范式最主要的區別在于,張正友將感知與行動連系到了一起,并將學習滲透到了各個模塊。
“只有感知與行動緊密相連,才能夠把反應是怎樣實現的搞清楚。”
張正友提出的這一范式,其實也參考了人類大腦的思考范式,并參考人類大腦,提出了具身智能的三層系統:
第一層是原始控制層(Primitive Level Control),通過運動數據,對機器人進行訓練。
第二層是環境感知控制層(Environmental Level Control),通過對環境的感知,實現機器人在不同環境中的平穩運動。
第三層是策略控制層(Strategic Level Control),通過給定相關任務,機器人進行自行推理,然后在環境中實現類似人類大腦的控制決策。
實際上,騰訊的四足機器人的控制系統就是這樣一步一步構建出來的。
不過,這些都是騰訊過去幾年做的工作。
現在,騰訊Robotics X實驗室正在將多模態大模型融合到機器人系統中,增強機器人環境感知和視覺能力,讓他們的機器人能夠聽懂人話,能夠和人類在語言和動作上進行簡單的交互。
至于未來規劃,科技行者在現場也了解到,騰訊Robotics X實驗室至少已經有了兩方面考慮:
首先,騰訊將就三維感知數據和騰訊的混元大模型或開源大模型LLAMA2-7B優化策略控制層;
其次,騰訊也已經將人形機器人寫到了未來計劃中。
接下來,我們可以期待一下騰訊的人形機器人了。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.