網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

云棲十問人形機器人：具身智能如何創(chuàng)造“圖靈時刻”？

2024-09-20 12:57:53　來源: 科技行者

北京舉報

分享至

作者 | 金旺

來源 | 科技行者

2024年，全球科技目光領(lǐng)聚焦到了兩個關(guān)鍵詞上：一曰大模型，二曰人形機器人。

大模型掀起了新一輪全球人工智能革命，人形機器人則借力大模型這個催化劑，開始向產(chǎn)業(yè)落地方向大踏步前進，創(chuàng)造看得見，更摸得著的具身智能。

作為一年一度的全球科技盛會，9月19日，阿里云棲大會再度開幕，回應(yīng)了這個技術(shù)主旋律。

與往屆云棲大會相同的是，今年的云棲大會依據(jù)聚焦前沿科技、產(chǎn)業(yè)落地，不僅將大模型、人形機器人等明星產(chǎn)品邀請到了現(xiàn)場，還為現(xiàn)場觀眾設(shè)置了一系列互動環(huán)節(jié)；

與往屆云棲大會不同的是，在今年云棲大會主論壇上，阿里特別設(shè)置了大模型、自動駕駛、人形機器人三場巔峰對話，邀請相關(guān)領(lǐng)域知名學(xué)者、科學(xué)家現(xiàn)場研討前沿技術(shù)命題。

這其中，尤以作為壓軸的人形機器人對話——《人形機器人的“圖靈時刻”》最受關(guān)注。

本場對話邀請到了清華大學(xué)交叉信息研究院助理教授、星動紀(jì)元創(chuàng)始人陳建宇，北京大學(xué)助理教授、北大-銀河通用具身智能聯(lián)合實驗室主任、智源學(xué)者王鶴，宇樹科技創(chuàng)始人、CEO王興興，逐際動力創(chuàng)始人張巍四位明星創(chuàng)業(yè)者，由至頂科技CEO兼總編輯高飛主持。

圓桌上的十個提問和回答，不僅可以看作是人形機器人創(chuàng)業(yè)者們的心路歷程，也是半個世紀(jì)人形機器人產(chǎn)業(yè)發(fā)展的階段性總結(jié)。

從左至右依次為：至頂科技CEO兼總編輯高飛，星動紀(jì)元創(chuàng)始人陳建宇，北京大學(xué)助理教授、北大-銀河通用具身智能聯(lián)合實驗室主任、智源學(xué)者王鶴，宇樹科技創(chuàng)始人兼CEO王興興，逐際動力創(chuàng)始人張巍

問初心：為什么是人形機器人？

人類對于人形機器人的探索可以追溯到半個世紀(jì)之前，早稻田大學(xué)1972年研發(fā)的WABOT被視為人類探索人形機器人的開端，這之后，行業(yè)中也曾出現(xiàn)過本田ASIMO、波士頓動力Atlas這樣驚世艷俗的產(chǎn)品。

作為最適合應(yīng)用于本就為人類設(shè)定的各種工作、生活場景中的產(chǎn)品形態(tài)，人形機器人不僅僅是人類科學(xué)家的執(zhí)念。

提問一：王興興作為機器人創(chuàng)業(yè)者，一開始反對做人形機器人，后來又堅決做人形機器人，是什么讓他改變態(tài)度？

王興興：幾年前有投資人問我做不做人形機器人，我是堅決反對的，原因很簡單，我在大學(xué)的時候做過一個小型的人形機器人，當(dāng)時發(fā)現(xiàn)，以當(dāng)時的技術(shù)無法駕馭這么復(fù)雜的機器人系統(tǒng)，所以我們沒有做人形機器人。

自2016年開始，人工智能技術(shù)得到了飛速發(fā)展，到2022年時，AI模型的效果已經(jīng)非常驚艷，這樣的技術(shù)發(fā)展遠(yuǎn)超我自己的預(yù)計，所以我們在2023年年初開始涉足人形機器人領(lǐng)域。

雖然我們公司做人形機器人起步相對較晚，但到現(xiàn)在差不多一年半的時間，我們已經(jīng)發(fā)布過兩款人形機器人，目前取得的成果還是非常驚艷的，在機器人領(lǐng)域我們一直在按照自己的發(fā)展節(jié)奏走。

提問二：逐際動力將自己定義為通用機器人公司，為什么通用機器人一定要做成人形？

張巍：我認(rèn)為一定要做成人形，而且是有兩條腿的人形機器人，我對這件事的理解是，首先機器人和AI的使命是不同的，AI代替人來思考決策，機器人本質(zhì)上要代替人類運動，所以它必須要能動。

大家看到的機器人種類很多，這些機器人本質(zhì)在做兩件事：

第一，移動，空間中從A到B；

第二，操作。

所謂的通用機器人，就是要在這兩個能力上都達(dá)到和人一樣的環(huán)境適應(yīng)和任務(wù)泛化兩大能力。

通用移動能力其實不太需要雙臂，只要能從A移動到B就可以，但是通用的操作能力反而是需要雙腿的，否則機器人將無法到達(dá)人類能到達(dá)的地方去干活。

當(dāng)下AGI的發(fā)展相較于上一代AI技術(shù)最大的區(qū)別是從專用到通用的變化，大模型出現(xiàn)之前，通用感覺是個貶義詞，一說通用證明它什么都能干，卻沒什么用。

但是大模型出現(xiàn)后，大家發(fā)現(xiàn)，像之前我們這種在專業(yè)領(lǐng)域收數(shù)據(jù)、做專項任務(wù)訓(xùn)練的方式有很大的局限性，反而我們要忽略解決專項任務(wù)的能力，要先構(gòu)建一個通用的基礎(chǔ)模型，再基于此長出專用能力，這才是系統(tǒng)化解決泛化性的關(guān)鍵。

我認(rèn)為，軟件算法的通用性靠大模型技術(shù)，機器人和物理世界交互的通用性需要靠人性機器人，這也是我們公司關(guān)注的方向。

提問三：銀河通用的機器人除了有腿形態(tài)的，還有輪式的，什么形態(tài)的機器人符合人形機器人的定義？

王鶴：我們公司叫銀河通用，從公司成立第一天我們的目標(biāo)就是要實現(xiàn)通用機器人，當(dāng)然，通用有一個發(fā)展過程，首先是要做到單一場景多任務(wù)可移動，其次要做到多場景多任務(wù)，最后要做到全場景、幾乎全任務(wù)。

在這個過程中，不同階段也有它最適合、最經(jīng)濟、最穩(wěn)定的載體，當(dāng)下人形機器人或者說通用機器人，我們選擇了先從幾個場景里的多任務(wù)做起，例如零售商超場景的上貨下貨、工廠里抱箱子。

在這些場景中，我們發(fā)現(xiàn)如果場景是平地的話，輪子是夠用的，也不能說我們沒有腿，我們是把兩條腿并在了一起——在360°可旋轉(zhuǎn)輪盤上，我們兩只腿并在一起，它可以跪下來，這樣機器人的手就可以碰到地面、撿地面上的東西。

為什么要雙手？

因為我們發(fā)現(xiàn)在諸如抱箱子你要兩只手，你在超市里買東西是一只手拿籃子，一只手拿貨，也是要兩只手，所以我們的形態(tài)目前是360°輪式底盤+雙腿并成一條腿，1.73m-2.4m，蹲下來可以摸地，用最便宜的價格、最穩(wěn)定的機器人技術(shù)，率先實現(xiàn)商用落地。

提問四：具身智能和人形機器人，很多人將它們視作一個概念，如何有一個清晰的劃分？

陳建宇：雖然這兩個詞非常接近，但是他們的側(cè)重點還是不相同的。

具身智能主要是關(guān)注我們智能和軟件層面的技術(shù)，它對形態(tài)要求不高，可以是人形，也可以是四足，甚至輪式底盤+機械臂，它是一個廣泛的概念。

人形機器人將機器人形態(tài)限定在了人形，它不僅僅要研究人形機器人的具身智能怎么做，同時也需要研究它的本體怎么做，這里面有很多挑戰(zhàn)。

我們星動紀(jì)元非常重視具身智能和人形機器人兩個領(lǐng)域，其實也代表我們非常重視軟件和硬件的協(xié)同一體發(fā)展。

對于人類而言，人腦和身體是不可分割的，我們認(rèn)為機器人的軟件和硬件也需要協(xié)同發(fā)展。

問門道：人形機器人難在哪里？

波士頓動力Atlas在過去很長一段時間里，都被視為人形機器人領(lǐng)域明星般的存在，跑酷、跳遠(yuǎn)、后空翻，種種擬人行為，讓波士頓動力運動能力讓世人咂舌。

運動能力超強，但卻遲遲無法走出“屏幕”，直到波士頓動力向外界公布執(zhí)行運動任務(wù)的一系列失敗視頻，大家才發(fā)現(xiàn)，原來波士頓動力絲滑運動視頻拍攝背后，是難向世人道的艱辛。

那么，人形機器人究竟難在哪里？

人形機器人的展示也人人都喜歡看，但是到底應(yīng)該看哪個部位，哪種動作，才能判斷其中的技術(shù)含金量？

提問五：現(xiàn)在人形機器人很多，展示也很多，普通人如何學(xué)會一眼鑒別這些人形機器人的技術(shù)含量？

陳建宇：人形機器人相關(guān)技術(shù)可以分成三部分：大腦、小腦和本體，相對而言，我認(rèn)為對于人形機器人最關(guān)鍵的是小腦，因為它是承接大腦的思考，是規(guī)劃和調(diào)用硬件本體，是真正幫助我們到物理世界里干活的的基礎(chǔ)。

另外，我認(rèn)為人形機器人的小腦相對其它兩個部分反而是最薄弱的，技術(shù)的不確定性最高，也最沒有收斂。

本體雖然也很難，但其中諸如芯片如何做，已經(jīng)有諸如機器人、電動汽車等產(chǎn)業(yè)發(fā)展可以借鑒，對于大腦而言，我們現(xiàn)在也已經(jīng)有強大的大語言模型技術(shù)，但對于小腦，我們發(fā)現(xiàn)大部分機器人現(xiàn)在用的還是十幾年前，甚至幾十年前的技術(shù)。

至于如何鑒別，我覺得非常重要的行走的泛化性，當(dāng)你在它演示過程中“搗亂”，它行走的時候你踹它一腳，抓取的時候，你突然把這個東西拿開，看它是否能夠穩(wěn)定、智能地適應(yīng)環(huán)境并完成相應(yīng)任務(wù)。

王鶴：我們最關(guān)心的是機器人上半身——手眼腦的協(xié)調(diào)，這其中有大腦，有小腦，有對本體的控制。

我們的機器人首先有泛化抓取能力，這非常體現(xiàn)具身智能的泛化能力，因為泛無論是透明的、高光的、吸光的各種材質(zhì)的物體，我們的機器人都能抓取，諸如抱箱子、拿藥盒全都是靠視覺引導(dǎo)的泛化。

與大腦耦合時，在完全沒見過的環(huán)境里，我們用宇樹的機器狗做了DEMO，我們的導(dǎo)航可以基于視頻輸入，在零代碼部署下進行導(dǎo)航行走。

這是我認(rèn)為人形機器人技術(shù)含金量最高的兩個地方。

王興興：我個人希望到明年人形機器人可以做非常復(fù)雜的全身運動類表演。

我們現(xiàn)在雖然也做了一部分的這樣工作，但目前大部分動作還是單獨訓(xùn)練，而且每次訓(xùn)練還是挺花時間和人力的，如果能夠給人形機器人看一個視頻或者一個簡單的演示，它就能學(xué)會一個動作，這會讓人形機器人的表演能力發(fā)生一個翻天覆地的變化。

另外我們依然希望有更好的操作能力，無論是操作簡單的桌面整理，還是做復(fù)雜的生產(chǎn)裝配，甚至更復(fù)雜的推理任務(wù)，操作能力會得到極大的提升，從而真正讓人形機器人解決大部分手臂操作任務(wù)。

張巍：我認(rèn)為人形機器人的門道看兩個關(guān)鍵能力，一是泛化，二是通用。

人形機器人之所以被視為一個新物種，而不是傳統(tǒng)機械臂的延續(xù)，本質(zhì)就是要長出兩條腿，腿也是機器人實現(xiàn)通用能力的基礎(chǔ)。

機器人的腿主要看兩點，一個是有是否已經(jīng)完成了諸如復(fù)雜地形行走這樣本應(yīng)該由腿足實現(xiàn)的功能；二是能否支撐雙臂完成全身協(xié)同的通用操作。

問突破：大模型讓人形機器人覺醒

2022年9月，特斯拉Optimus全球首秀，掀起了如今這波人形機器人熱潮。

不過，真正將人形機器人這波浪潮推向高潮的，還有另一個關(guān)鍵因素——2022年11月ChatGPT的發(fā)布。

人工智能技術(shù)的再突破，大模型范式的興起，尤其多模態(tài)大模型能力的不斷提升，讓人形機器人的泛化性得以大幅長進，正是有了這樣的時代機遇，國內(nèi)人形機器人賽道一時涌入了上百個團隊。

人形機器人的百團大戰(zhàn)，因大模型再度開打。

提問六：云棲大會今年的主旋律是大模型，特別提出要超越屏幕里的AI，接引物理世界的AI，那么大模型對機器人的發(fā)展起到了怎樣的作用？

張巍：我覺得機器人這一波發(fā)展不是自我革命，而是AGI發(fā)展為機器人產(chǎn)業(yè)帶來了革命，我甚至認(rèn)為具身智能將會是多模態(tài)大模型的一個殺手級應(yīng)用，當(dāng)然我把無人駕駛也算在具身智能和機器人賽道中。

由于受到大模型技術(shù)發(fā)展的啟發(fā)，機器人領(lǐng)域的發(fā)展也經(jīng)歷了從規(guī)則驅(qū)動到算法驅(qū)動、再到數(shù)據(jù)驅(qū)動的一個蛻變。

之前是看你有什么算法，然后根據(jù)算法的需求收集數(shù)據(jù)來解決問題，現(xiàn)在的思維變成了首先看你有什么數(shù)據(jù)、有多少數(shù)據(jù)，你獲取新數(shù)據(jù)的方式和成本如何，這些數(shù)據(jù)的質(zhì)量分布是什么樣的，這直接決定了你采用什么樣的算法、如何去訓(xùn)練。

所以我們公司有一個口號：軟件定義硬件，但數(shù)據(jù)定義軟件。

王興興：通用人形機器人是目前大模型落地最好的載體，而且可以解決大模型目前落地場景問題，所以我認(rèn)為二者是一個很好的組合關(guān)系。

王鶴：我覺得現(xiàn)在通用機器人雖然有一些技能，但幾乎都是一些分立的小模型，所以大模型賦能機器人技能分幾步：

第一步，大模型可以作為一個智能體，來調(diào)用API進行長程的任務(wù)規(guī)劃；

第二步，大模型可以作為一個控制器，來監(jiān)控小模型執(zhí)行過程中有沒有出錯，及時地終止或調(diào)用其它技能來挽救這些錯誤；

第三步，端到端視覺語言動作模型將動作作為大模型輸出模態(tài)，像自動駕駛一樣實現(xiàn)通用感知、規(guī)劃和執(zhí)行融為一體的大模型，這也是最有想象力的。

陳建宇：我認(rèn)為大模型帶給我們最重要的啟發(fā)是告訴我們有Scaling Law的存在。

我們在研究通用機器人，它必須要有與它匹配的通用智能，引導(dǎo)我們思考如何做機器人的scaling Law，同時它也帶給我們一些語言模型領(lǐng)域技術(shù)，例如基于transformer架構(gòu)、predict next token的算法技術(shù)，當(dāng)然這些遠(yuǎn)遠(yuǎn)不夠，畢竟我們的機器人需要在物理世界去交互、去做事情，去理解整個物理世界。

所以不管是你的算法層面還是模型層面，還是數(shù)據(jù)層面，其實都有很多的不同，需要我們?nèi)ヌ剿鳌?/p>

具體而言，視頻數(shù)據(jù)、合成數(shù)據(jù)、真實數(shù)據(jù)，人形機器人的下一個突破，需要不同數(shù)據(jù)的融合；而基于根據(jù)人形機器人未來的智能負(fù)載，也需要算力層面的云端協(xié)同。

問場景：人形機器人何時走入生活

人形機器人何時能夠走入人類生活？

面對當(dāng)下的人形機器人熱潮，這是所有人最關(guān)心的問題，我們能夠看到的是人形機器人已經(jīng)開始進入工廠做POC，也已經(jīng)有專注于家庭場景的人形機器人研究團隊出現(xiàn)。

在一眾人形機器人團隊都在思考如何推動人形機器人產(chǎn)業(yè)落地過程中，2024年成了人形機器人進入人類生活的關(guān)鍵年。

提問七：長期看，人形機器人是一個多大體量的市場？

王鶴：銀河通用的機器人在云棲大會現(xiàn)場展示了在零售場景的應(yīng)用，剛剛同事給我發(fā)來的圖片已經(jīng)排起了10米的長隊，觀眾可以在我們的iPad上下單，我們的機器人就可以給大家從貨架上拿觀眾想要的東西遞給他。

其實像零售這樣主要是抓取、放置動作的場景，現(xiàn)在的技術(shù)已經(jīng)到達(dá)了產(chǎn)業(yè)化的邊界，我預(yù)計明年將會是商用元年，我們的目標(biāo)是5年內(nèi)在這樣的場景（包括汽車工廠抱箱子）出貨達(dá)到1萬臺。

10年是我認(rèn)為安全性可以達(dá)到進入家庭的標(biāo)準(zhǔn)，15年后將可能會形成一個千萬乃至大幾千萬級別的市場。

提問八：人形機器人最快的干活時間點有多快？

陳建宇：我覺得人形機器人要能初步用起來的話，無論是工業(yè)還是商用，甚至是家用，可能都在很近的時間，例如一兩年的時間就能做一些簡單工作。

根據(jù)羅杰斯的創(chuàng)新擴散模型，任何一個產(chǎn)業(yè)都會有一些早期嘗鮮者，他們愿意在你產(chǎn)品還沒有特別完善的時候嘗試使用，我相信兩年內(nèi)就能看到各行各業(yè)有一些早期使用者開始使用。

王興興：我個人比較樂觀，我覺得明年像工業(yè)場景或者固定場景中做一些有商業(yè)價值的落地應(yīng)用已經(jīng)能夠?qū)崿F(xiàn)。

因為現(xiàn)在全球在機器人AI領(lǐng)域的人才、資金投入是巨量的，是過去的幾百倍乃至上千倍，我認(rèn)為三年左右至少全球范圍內(nèi)有通用型機器人AI出來的概率很大，這樣的機器人可以在包括擴工廠、家庭中做很多事情，這樣的機器人你只要給它簡單做個示范，它就可以學(xué)會相應(yīng)的工作。

張巍：首先我認(rèn)為用時間衡量是一個比較難的事，我認(rèn)為產(chǎn)業(yè)發(fā)展應(yīng)該是事件驅(qū)動，而不是時間驅(qū)動，它更關(guān)鍵的是看人工智能技術(shù)的“關(guān)鍵開關(guān)”什么時候能找到。

雖然我也是比較樂觀的，但我們在避免過早地做商業(yè)化，GPT在2.0或3.0的時候你想做個超級應(yīng)用，一定要打一堆補丁，因為上一代人工智能和機器人落地的過程中也遇到了很多這種挑戰(zhàn)，大家當(dāng)時都在調(diào)侃“人工智能等于智能不夠靠人工”，是靠增加部署和售后的成本才能跑通商業(yè)邏輯。

提問九：人形機器人何時能敲門進屋，走進客廳？

陳建宇：不需要太久，現(xiàn)在我們的機器人已經(jīng)能夠?qū)崿F(xiàn)上下樓梯，在戶外進行導(dǎo)航，已經(jīng)完全可以了，它完全可以自主導(dǎo)航到你家門口執(zhí)行敲門動作。

這個沒有難度，難的是如果大規(guī)模應(yīng)用，進入家庭一定需要很長時間，因為家庭是一個沒有邊界的場景，對泛化能力要求很高，人形機器人一定會先在工業(yè)場景這種有邊界或可以人為制定一些規(guī)則的場景落地。

能、能、能、能

在對話的結(jié)尾，主持人問了四位嘉賓最后一個問題，也是直接呼應(yīng)對話主題的問題。那就是“人形機器人，會不會接棒聊天機器人，在物理世界有一天突破圖靈測試，完全融入我們的工作和生活，與人類難分彼此？”。

四位嘉賓或許在之前的提問中，觀點還有所差異，但是在這個最本質(zhì)的問題上，都是斬釘截鐵的一個字“能！”。

顯然，人形機器人如今在全球已經(jīng)形成了一個勢不可擋的熱潮，國內(nèi)這一賽道也已經(jīng)涌現(xiàn)出了上百個人形機器人團隊，這一領(lǐng)域經(jīng)歷著又一輪百團大戰(zhàn)。

作為一年一度的全球科技盛會，今年的云棲大會在前沿展館特別開辟了人形機器人先進陣列展區(qū)，包括特斯拉Optimus、宇樹科技H1、星動紀(jì)元小星、銀河通用Galbot G1、逐際動力CL-2、優(yōu)寶特行者泰山等一系列明星產(chǎn)品都在云棲大會亮相，并與觀眾進行了一系列互動演示。

圓桌嘉賓的四個“能”字，和現(xiàn)場的人頭攢動，也相繼成了今年人形機器人熱潮的絕佳縮影。

至頂科技CEO兼總編輯高飛在圓桌討論最后總結(jié)稱，“計算機科學(xué)家艾倫·凱曾經(jīng)講過一句話，預(yù)測未來的最好方法就是發(fā)明它，相信在座的各位作為人形機器人領(lǐng)域主要推動力，會和更多生態(tài)創(chuàng)新力量一起攜手，一定可以共同創(chuàng)造一個美好的，人機協(xié)同的——機器人新紀(jì)元。”

值得注意的是，就在云棲上人形機器人這一顛覆對話結(jié)束時，還特別增設(shè)了一個獨特的環(huán)節(jié)——四家明星企業(yè)展區(qū)的人形機器人和臺上的四位創(chuàng)始人面向觀眾揮手致意。

這一幕，注定將載入云棲史冊，也將載入世界人形機器人發(fā)展史。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.