今年5月,北京大學(xué)與銀河通用機(jī)器人共同成立了「北大-銀河通用具身智能聯(lián)合實(shí)驗(yàn)室」,身為北京大學(xué)前沿計(jì)算研究中心助理教授、博士生導(dǎo)師的王鶴擔(dān)任聯(lián)合實(shí)驗(yàn)室主任。
在本月舉辦的WAIC 上,王鶴在「人形機(jī)器人與具身智能發(fā)展論壇」上,發(fā)表了他對通用機(jī)器人發(fā)展現(xiàn)狀、商業(yè)應(yīng)用及近期趨勢的思考。
(王鶴 / 圖片來源:智東西)
「通用」的兩個(gè)維度
隨著NVIDIA Project GR00T的發(fā)布,「通用機(jī)器人」這一概念的熱度隨之高漲。
在王鶴看來,通用人形機(jī)器人要實(shí)現(xiàn)專用機(jī)器人不能做的柔性工作,滿足多樣任務(wù)的需求,并且能夠用自然語言來與人溝通。
“這些目標(biāo)一旦達(dá)到,我們就實(shí)現(xiàn)了員工型的機(jī)器人,員工型機(jī)器人對未來中國制造業(yè)勞動(dòng)力的巨大缺口,以及人口負(fù)增長時(shí)代的養(yǎng)老缺口,都將起到重要的彌合作用?!?/p>
他認(rèn)為,「通用」可以分為兩個(gè)維度:
1、任務(wù)通用性:機(jī)器人不能只做一件事情,而是至少在應(yīng)用場景中完成N件事情,才能真正節(jié)省一個(gè)人力。
2、環(huán)境通用性:不限于單一場景,而是可以跨場景、跨地形穿梭工作。
基于這兩點(diǎn)通用性,如今的研發(fā)工作要從本體層、數(shù)據(jù)層去考慮人形機(jī)器人的基石——基于本體和數(shù)據(jù)搭建通用機(jī)器人的大腦和小腦。
通用機(jī)器人的“體與腦”
王鶴從「四個(gè)元素」來講解了銀河通用機(jī)器人的思考:本體、數(shù)據(jù)、大腦、小腦。
一、本體
顧名思義,人形機(jī)器人的形態(tài)與人類最為相似。
不過在未來,通用機(jī)器人也可能具備各種形態(tài)。不過最終,只有最大程度與人類工作需求相匹配的機(jī)器人,能夠得到最大的市場比重。
人形機(jī)器人可被拆分為上半身的雙手、雙臂、眼腦,以及下半身的雙腿。上半身是干活兒的核心,主要是靠雙手和雙臂來做的;而雙腿就是為了實(shí)現(xiàn)環(huán)境通用,讓機(jī)器人穿梭于各個(gè)場景。
“還有一點(diǎn)大家可能沒有意識(shí)到:腿還有一個(gè)重要作用是輔助手——如果腿不能下蹲,手就摸不到地。也就是說,腿能夠擴(kuò)展手的工作空間,從地面一直到2m以上。
王鶴表示,這一點(diǎn)是腿式人形機(jī)器人的一大挑戰(zhàn)——除行走之外,類似彎腰撿、蹲下拿的能力比較欠缺,一系列腿部強(qiáng)化學(xué)習(xí)和能力有待發(fā)展。
“當(dāng)物品從貨架上掉下來,如果人形機(jī)器人不能彎腰撿起,那這個(gè)場景就做不到閉環(huán),也無法完整替代一個(gè)人的工作。所以在今天,甚至未來3年內(nèi),除了對成本的考慮之外,我們認(rèn)為人形機(jī)器人的下半身可以有其他的解決方案,及早實(shí)現(xiàn)全空間工作。”
根據(jù)上述思考,銀河通用帶來的一個(gè)解決方案——機(jī)器人下半身通過一個(gè)360度的全相移動(dòng)底盤,和把兩條腿并成一條腿,實(shí)現(xiàn)下蹲撿拾地下的物品。同時(shí),機(jī)器人雙臂較長,能摸到2.4m的高處。
王鶴表示,這樣的設(shè)計(jì)成本,相對大多人形機(jī)器人的雙腿來說,非常低廉。同時(shí),其工作空間和移動(dòng)范圍可以達(dá)到人的水平。
“我們相信未來,當(dāng)腿的價(jià)格可以慢慢逼近輪,同時(shí)如果腿能夠?qū)崿F(xiàn)穩(wěn)定的下蹲、彎腰撿等技能,我們將迎來「全面人形」的切換時(shí)間點(diǎn)。而在目前,我們更關(guān)注機(jī)器人上半身能否完成泛化工作,且整體形態(tài)能否支持在場景中完全閉環(huán)的作業(yè)需求。”
二、數(shù)據(jù)
如今的機(jī)器人,也同樣在以數(shù)據(jù)驅(qū)動(dòng),這也是與傳統(tǒng)機(jī)器人之間最大的區(qū)別。但數(shù)據(jù)同樣是當(dāng)下通用機(jī)器人的一大挑戰(zhàn)。
在數(shù)據(jù)采集方式上,王鶴以特斯拉機(jī)器人舉例。他表示,Optimus把電池放進(jìn)盒子里的動(dòng)作數(shù)據(jù),是依靠戴著VR眼鏡看機(jī)械手采集數(shù)據(jù)。僅這一套動(dòng)作,就需要出動(dòng)40人的團(tuán)隊(duì)進(jìn)行采集。
“這種數(shù)據(jù)采集的成本能否支持它落地的時(shí)候的利潤?如果我們替代了一個(gè)工資5000元左右的人,但是一套動(dòng)作的數(shù)據(jù)采集和神經(jīng)網(wǎng)絡(luò)的訓(xùn)練就耗費(fèi)了幾百萬元,那這一商業(yè)模式是不是良性的?這是人形機(jī)器人落地最大的挑戰(zhàn)?!?/p>
對此,銀河通用認(rèn)為,當(dāng)下可以真正實(shí)現(xiàn)規(guī)?;慨a(chǎn)的數(shù)據(jù),就是合成數(shù)據(jù)。王鶴表示,只有合成數(shù)據(jù)才是真正的“想要什么就有什么,想要多少就有多少?!?/p>
他介紹稱,通過合成數(shù)據(jù),關(guān)于抓、握、拿等動(dòng)作相關(guān)的標(biāo)簽,都可以通過計(jì)算提前得到,并將海量大數(shù)據(jù)還給機(jī)器人。這種方式才能實(shí)現(xiàn)真正泛化,并弱化數(shù)據(jù)采集成本。
在斯坦福大學(xué)讀博士期間,王鶴及團(tuán)隊(duì)用了7年時(shí)間,利用合成數(shù)據(jù)克服了物理不一樣、控制不一樣和視覺感知不一樣等問題。如今,他們完全靠合成數(shù)據(jù),通過視覺閉環(huán)反饋,實(shí)現(xiàn)泛化操作的大遷移。
“從我們訓(xùn)練出來的效果看,對任意物體抓取已經(jīng)形成了一定能力——對于透明物體來說,二維的傳感器有泛化問題,三維傳感器又看不見金屬高光的物體,需要完全靠合成數(shù)據(jù),進(jìn)行千萬場景、十億抓取的大規(guī)模合成。今天真正銀河通用已經(jīng)達(dá)到了對包括半透明物體在內(nèi)的任何材質(zhì)的完全泛化。這也給了我們信心——靠合成數(shù)據(jù)具身智能能夠完全0-1的突破?!?/p>
具身智能的Scaling law
據(jù)王鶴介紹,銀河通用去年合成了100萬的數(shù)據(jù),今年落實(shí)得更徹底了,一口氣合成了10億。
他表示,有了這十億規(guī)模的靈巧手抓取數(shù)據(jù)加持,不僅能實(shí)現(xiàn)各種形態(tài)透明、高光材質(zhì),以及各種隨機(jī)堆疊物品的高穩(wěn)定抓取,還能擴(kuò)散模型,通過生成式大模型抓取各種各樣的東西。
這也使王鶴觀察到了具身智能的scaling law:當(dāng)用10億數(shù)據(jù)的時(shí)候,在仿真環(huán)境里進(jìn)行測試,能夠得到86%的成功率;但如果只用10萬數(shù)據(jù)的話,只有58%的成功率。
“靠遙操什么時(shí)候能采到10億?而今天我們站在10億規(guī)模上,就可以做100億、1000億,這是銀河通用最大的技術(shù)特色,完全在合成數(shù)據(jù)在真實(shí)世界實(shí)現(xiàn)了泛化。“
基于這樣的合成數(shù)據(jù)基礎(chǔ),銀河通用還訓(xùn)練了端到端的大模型。
目前端到端可達(dá)到的效果,也就是王鶴所說的“言出法隨“——讓機(jī)器人在陌生環(huán)境中根據(jù)指令行動(dòng),例如“直走到墻然后左轉(zhuǎn),一直走到門然后停下”等等,機(jī)器人都能明白,這就是圖文動(dòng)作大模型給予的泛化導(dǎo)航能力。
“這樣的數(shù)據(jù)背后是上百萬條合成的指令和機(jī)器人行走的軌跡,這如果只靠人工去采,什么時(shí)候能采出來?”
AI機(jī)器人應(yīng)用前景
在王鶴演示的視頻中,基于端到端大模型的機(jī)器人,能根據(jù)“把‘卡皮巴拉’放在金屬杯子里”的指令,將河豚玩偶放進(jìn)制定位置。
“這些能力我們目前超過了Google的RT2系列,因?yàn)楹笳卟荒茏龅椒攀裁捶较?,只能放到位置上,而且Google是靠人力采集RT1的數(shù)據(jù)集,用17個(gè)月花費(fèi)上千萬美元進(jìn)行的數(shù)據(jù)采集?!?/p>
對于這樣的能力,王鶴描繪了一個(gè)應(yīng)用場景——機(jī)器人在一排超市貨架上自動(dòng)進(jìn)行場景認(rèn)知,拍照,并自動(dòng)完成三維語義的建圖和位置理解。這樣它不僅能辨別超市中的商品位置,名稱類別,還能根據(jù)下單信息取來商品。
根據(jù)王鶴的預(yù)判,在具身智能基于合成數(shù)據(jù),實(shí)現(xiàn)大小腦聯(lián)合之后,即將走向2B和B2C的各種場景。
“相信未來一兩年、兩三年中,在生活當(dāng)中將會(huì)看到銀河通用帶來的通用機(jī)器人具身系統(tǒng)賦能的機(jī)器人。”
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.