作者 | 金旺
來源 | 科技行者
2024年,全球科技目光領聚焦到了兩個關鍵詞上:一曰大模型,二曰人形機器人。
大模型掀起了新一輪全球人工智能革命,人形機器人則借力大模型這個催化劑,開始向產業落地方向大踏步前進,創造看得見,更摸得著的具身智能。
作為一年一度的全球科技盛會,9月19日,阿里云棲大會再度開幕,回應了這個技術主旋律。
與往屆云棲大會相同的是,今年的云棲大會依據聚焦前沿科技、產業落地,不僅將大模型、人形機器人等明星產品邀請到了現場,還為現場觀眾設置了一系列互動環節;
與往屆云棲大會不同的是,在今年云棲大會主論壇上,阿里特別設置了大模型、自動駕駛、人形機器人三場巔峰對話,邀請相關領域知名學者、科學家現場研討前沿技術命題。
這其中,尤以作為壓軸的人形機器人對話——《人形機器人的“圖靈時刻”》最受關注。
本場對話邀請到了清華大學交叉信息研究院助理教授、星動紀元創始人陳建宇,北京大學助理教授、北大-銀河通用具身智能聯合實驗室主任、智源學者王鶴,宇樹科技創始人、CEO王興興,逐際動力創始人張巍四位明星創業者,由至頂科技CEO兼總編輯高飛主持。
圓桌上的十個提問和回答,不僅可以看作是人形機器人創業者們的心路歷程,也是半個世紀人形機器人產業發展的階段性總結。
從左至右依次為:至頂科技CEO兼總編輯高飛,星動紀元創始人陳建宇,北京大學助理教授、北大-銀河通用具身智能聯合實驗室主任、智源學者王鶴,宇樹科技創始人兼CEO王興興,逐際動力創始人張巍
問初心:為什么是人形機器人?
人類對于人形機器人的探索可以追溯到半個世紀之前,早稻田大學1972年研發的WABOT被視為人類探索人形機器人的開端,這之后,行業中也曾出現過本田ASIMO、波士頓動力Atlas這樣驚世艷俗的產品。
作為最適合應用于本就為人類設定的各種工作、生活場景中的產品形態,人形機器人不僅僅是人類科學家的執念。
提問一:王興興作為機器人創業者,一開始反對做人形機器人,后來又堅決做人形機器人,是什么讓他改變態度?
王興興:幾年前有投資人問我做不做人形機器人,我是堅決反對的,原因很簡單,我在大學的時候做過一個小型的人形機器人,當時發現,以當時的技術無法駕馭這么復雜的機器人系統,所以我們沒有做人形機器人。
自2016年開始,人工智能技術得到了飛速發展,到2022年時,AI模型的效果已經非常驚艷,這樣的技術發展遠超我自己的預計,所以我們在2023年年初開始涉足人形機器人領域。
雖然我們公司做人形機器人起步相對較晚,但到現在差不多一年半的時間,我們已經發布過兩款人形機器人,目前取得的成果還是非常驚艷的,在機器人領域我們一直在按照自己的發展節奏走。
提問二:逐際動力將自己定義為通用機器人公司,為什么通用機器人一定要做成人形?
張巍:我認為一定要做成人形,而且是有兩條腿的人形機器人,我對這件事的理解是,首先機器人和AI的使命是不同的,AI代替人來思考決策,機器人本質上要代替人類運動,所以它必須要能動。
大家看到的機器人種類很多,這些機器人本質在做兩件事:
第一,移動,空間中從A到B;
第二,操作。
所謂的通用機器人,就是要在這兩個能力上都達到和人一樣的環境適應和任務泛化兩大能力。
通用移動能力其實不太需要雙臂,只要能從A移動到B就可以,但是通用的操作能力反而是需要雙腿的,否則機器人將無法到達人類能到達的地方去干活。
當下AGI的發展相較于上一代AI技術最大的區別是從專用到通用的變化,大模型出現之前,通用感覺是個貶義詞,一說通用證明它什么都能干,卻沒什么用。
但是大模型出現后,大家發現,像之前我們這種在專業領域收數據、做專項任務訓練的方式有很大的局限性,反而我們要忽略解決專項任務的能力,要先構建一個通用的基礎模型,再基于此長出專用能力,這才是系統化解決泛化性的關鍵。
我認為,軟件算法的通用性靠大模型技術,機器人和物理世界交互的通用性需要靠人性機器人,這也是我們公司關注的方向。
提問三:銀河通用的機器人除了有腿形態的,還有輪式的,什么形態的機器人符合人形機器人的定義?
王鶴:我們公司叫銀河通用,從公司成立第一天我們的目標就是要實現通用機器人,當然,通用有一個發展過程,首先是要做到單一場景多任務可移動,其次要做到多場景多任務,最后要做到全場景、幾乎全任務。
在這個過程中,不同階段也有它最適合、最經濟、最穩定的載體,當下人形機器人或者說通用機器人,我們選擇了先從幾個場景里的多任務做起,例如零售商超場景的上貨下貨、工廠里抱箱子。
在這些場景中,我們發現如果場景是平地的話,輪子是夠用的,也不能說我們沒有腿,我們是把兩條腿并在了一起——在360°可旋轉輪盤上,我們兩只腿并在一起,它可以跪下來,這樣機器人的手就可以碰到地面、撿地面上的東西。
為什么要雙手?
因為我們發現在諸如抱箱子你要兩只手,你在超市里買東西是一只手拿籃子,一只手拿貨,也是要兩只手,所以我們的形態目前是360°輪式底盤+雙腿并成一條腿,1.73m-2.4m,蹲下來可以摸地,用最便宜的價格、最穩定的機器人技術,率先實現商用落地。
提問四:具身智能和人形機器人,很多人將它們視作一個概念,如何有一個清晰的劃分?
陳建宇:雖然這兩個詞非常接近,但是他們的側重點還是不相同的。
具身智能主要是關注我們智能和軟件層面的技術,它對形態要求不高,可以是人形,也可以是四足,甚至輪式底盤+機械臂,它是一個廣泛的概念。
人形機器人將機器人形態限定在了人形,它不僅僅要研究人形機器人的具身智能怎么做,同時也需要研究它的本體怎么做,這里面有很多挑戰。
我們星動紀元非常重視具身智能和人形機器人兩個領域,其實也代表我們非常重視軟件和硬件的協同一體發展。
對于人類而言,人腦和身體是不可分割的,我們認為機器人的軟件和硬件也需要協同發展。
問門道:人形機器人難在哪里?
波士頓動力Atlas在過去很長一段時間里,都被視為人形機器人領域明星般的存在,跑酷、跳遠、后空翻,種種擬人行為,讓波士頓動力運動能力讓世人咂舌。
運動能力超強,但卻遲遲無法走出“屏幕”,直到波士頓動力向外界公布執行運動任務的一系列失敗視頻,大家才發現,原來波士頓動力絲滑運動視頻拍攝背后,是難向世人道的艱辛。
那么,人形機器人究竟難在哪里?
人形機器人的展示也人人都喜歡看,但是到底應該看哪個部位,哪種動作,才能判斷其中的技術含金量?
提問五:現在人形機器人很多,展示也很多,普通人如何學會一眼鑒別這些人形機器人的技術含量?
陳建宇:人形機器人相關技術可以分成三部分:大腦、小腦和本體,相對而言,我認為對于人形機器人最關鍵的是小腦,因為它是承接大腦的思考,是規劃和調用硬件本體,是真正幫助我們到物理世界里干活的的基礎。
另外,我認為人形機器人的小腦相對其它兩個部分反而是最薄弱的,技術的不確定性最高,也最沒有收斂。
本體雖然也很難,但其中諸如芯片如何做,已經有諸如機器人、電動汽車等產業發展可以借鑒,對于大腦而言,我們現在也已經有強大的大語言模型技術,但對于小腦,我們發現大部分機器人現在用的還是十幾年前,甚至幾十年前的技術。
至于如何鑒別,我覺得非常重要的行走的泛化性,當你在它演示過程中“搗亂”,它行走的時候你踹它一腳,抓取的時候,你突然把這個東西拿開,看它是否能夠穩定、智能地適應環境并完成相應任務。
王鶴:我們最關心的是機器人上半身——手眼腦的協調,這其中有大腦,有小腦,有對本體的控制。
我們的機器人首先有泛化抓取能力,這非常體現具身智能的泛化能力,因為泛無論是透明的、高光的、吸光的各種材質的物體,我們的機器人都能抓取,諸如抱箱子、拿藥盒全都是靠視覺引導的泛化。
與大腦耦合時,在完全沒見過的環境里,我們用宇樹的機器狗做了DEMO,我們的導航可以基于視頻輸入,在零代碼部署下進行導航行走。
這是我認為人形機器人技術含金量最高的兩個地方。
王興興:我個人希望到明年人形機器人可以做非常復雜的全身運動類表演。
我們現在雖然也做了一部分的這樣工作,但目前大部分動作還是單獨訓練,而且每次訓練還是挺花時間和人力的,如果能夠給人形機器人看一個視頻或者一個簡單的演示,它就能學會一個動作,這會讓人形機器人的表演能力發生一個翻天覆地的變化。
另外我們依然希望有更好的操作能力,無論是操作簡單的桌面整理,還是做復雜的生產裝配,甚至更復雜的推理任務,操作能力會得到極大的提升,從而真正讓人形機器人解決大部分手臂操作任務。
張巍:我認為人形機器人的門道看兩個關鍵能力,一是泛化,二是通用。
人形機器人之所以被視為一個新物種,而不是傳統機械臂的延續,本質就是要長出兩條腿,腿也是機器人實現通用能力的基礎。
機器人的腿主要看兩點,一個是有是否已經完成了諸如復雜地形行走這樣本應該由腿足實現的功能;二是能否支撐雙臂完成全身協同的通用操作。
問突破:大模型讓人形機器人覺醒
2022年9月,特斯拉Optimus全球首秀,掀起了如今這波人形機器人熱潮。
不過,真正將人形機器人這波浪潮推向高潮的,還有另一個關鍵因素——2022年11月ChatGPT的發布。
人工智能技術的再突破,大模型范式的興起,尤其多模態大模型能力的不斷提升,讓人形機器人的泛化性得以大幅長進,正是有了這樣的時代機遇,國內人形機器人賽道一時涌入了上百個團隊。
人形機器人的百團大戰,因大模型再度開打。
提問六:云棲大會今年的主旋律是大模型,特別提出要超越屏幕里的AI,接引物理世界的AI,那么大模型對機器人的發展起到了怎樣的作用?
張巍:我覺得機器人這一波發展不是自我革命,而是AGI發展為機器人產業帶來了革命,我甚至認為具身智能將會是多模態大模型的一個殺手級應用,當然我把無人駕駛也算在具身智能和機器人賽道中。
由于受到大模型技術發展的啟發,機器人領域的發展也經歷了從規則驅動到算法驅動、再到數據驅動的一個蛻變。
之前是看你有什么算法,然后根據算法的需求收集數據來解決問題,現在的思維變成了首先看你有什么數據、有多少數據,你獲取新數據的方式和成本如何,這些數據的質量分布是什么樣的,這直接決定了你采用什么樣的算法、如何去訓練。
所以我們公司有一個口號:軟件定義硬件,但數據定義軟件。
王興興:通用人形機器人是目前大模型落地最好的載體,而且可以解決大模型目前落地場景問題,所以我認為二者是一個很好的組合關系。
王鶴:我覺得現在通用機器人雖然有一些技能,但幾乎都是一些分立的小模型,所以大模型賦能機器人技能分幾步:
第一步,大模型可以作為一個智能體,來調用API進行長程的任務規劃;
第二步,大模型可以作為一個控制器,來監控小模型執行過程中有沒有出錯,及時地終止或調用其它技能來挽救這些錯誤;
第三步,端到端視覺語言動作模型將動作作為大模型輸出模態,像自動駕駛一樣實現通用感知、規劃和執行融為一體的大模型,這也是最有想象力的。
陳建宇:我認為大模型帶給我們最重要的啟發是告訴我們有Scaling Law的存在。
我們在研究通用機器人,它必須要有與它匹配的通用智能,引導我們思考如何做機器人的scaling Law,同時它也帶給我們一些語言模型領域技術,例如基于transformer架構、predict next token的算法技術,當然這些遠遠不夠,畢竟我們的機器人需要在物理世界去交互、去做事情,去理解整個物理世界。
所以不管是你的算法層面還是模型層面,還是數據層面,其實都有很多的不同,需要我們去探索。
具體而言,視頻數據、合成數據、真實數據,人形機器人的下一個突破,需要不同數據的融合;而基于根據人形機器人未來的智能負載,也需要算力層面的云端協同。
問場景:人形機器人何時走入生活
人形機器人何時能夠走入人類生活?
面對當下的人形機器人熱潮,這是所有人最關心的問題,我們能夠看到的是人形機器人已經開始進入工廠做POC,也已經有專注于家庭場景的人形機器人研究團隊出現。
在一眾人形機器人團隊都在思考如何推動人形機器人產業落地過程中,2024年成了人形機器人進入人類生活的關鍵年。
提問七:長期看,人形機器人是一個多大體量的市場?
王鶴:銀河通用的機器人在云棲大會現場展示了在零售場景的應用,剛剛同事給我發來的圖片已經排起了10米的長隊,觀眾可以在我們的iPad上下單,我們的機器人就可以給大家從貨架上拿觀眾想要的東西遞給他。
其實像零售這樣主要是抓取、放置動作的場景,現在的技術已經到達了產業化的邊界,我預計明年將會是商用元年,我們的目標是5年內在這樣的場景(包括汽車工廠抱箱子)出貨達到1萬臺。
10年是我認為安全性可以達到進入家庭的標準,15年后將可能會形成一個千萬乃至大幾千萬級別的市場。
提問八:人形機器人最快的干活時間點有多快?
陳建宇:我覺得人形機器人要能初步用起來的話,無論是工業還是商用,甚至是家用,可能都在很近的時間,例如一兩年的時間就能做一些簡單工作。
根據羅杰斯的創新擴散模型,任何一個產業都會有一些早期嘗鮮者,他們愿意在你產品還沒有特別完善的時候嘗試使用,我相信兩年內就能看到各行各業有一些早期使用者開始使用。
王興興:我個人比較樂觀,我覺得明年像工業場景或者固定場景中做一些有商業價值的落地應用已經能夠實現。
因為現在全球在機器人AI領域的人才、資金投入是巨量的,是過去的幾百倍乃至上千倍,我認為三年左右至少全球范圍內有通用型機器人AI出來的概率很大,這樣的機器人可以在包括擴工廠、家庭中做很多事情,這樣的機器人你只要給它簡單做個示范,它就可以學會相應的工作。
張巍:首先我認為用時間衡量是一個比較難的事,我認為產業發展應該是事件驅動,而不是時間驅動,它更關鍵的是看人工智能技術的“關鍵開關”什么時候能找到。
雖然我也是比較樂觀的,但我們在避免過早地做商業化,GPT在2.0或3.0的時候你想做個超級應用,一定要打一堆補丁,因為上一代人工智能和機器人落地的過程中也遇到了很多這種挑戰,大家當時都在調侃“人工智能等于智能不夠靠人工”,是靠增加部署和售后的成本才能跑通商業邏輯。
提問九:人形機器人何時能敲門進屋,走進客廳?
陳建宇:不需要太久,現在我們的機器人已經能夠實現上下樓梯,在戶外進行導航,已經完全可以了,它完全可以自主導航到你家門口執行敲門動作。
這個沒有難度,難的是如果大規模應用,進入家庭一定需要很長時間,因為家庭是一個沒有邊界的場景,對泛化能力要求很高,人形機器人一定會先在工業場景這種有邊界或可以人為制定一些規則的場景落地。
能、能、能、能
在對話的結尾,主持人問了四位嘉賓最后一個問題,也是直接呼應對話主題的問題。那就是“人形機器人,會不會接棒聊天機器人,在物理世界有一天突破圖靈測試,完全融入我們的工作和生活,與人類難分彼此?”。
四位嘉賓或許在之前的提問中,觀點還有所差異,但是在這個最本質的問題上,都是斬釘截鐵的一個字“能!”。
顯然,人形機器人如今在全球已經形成了一個勢不可擋的熱潮,國內這一賽道也已經涌現出了上百個人形機器人團隊,這一領域經歷著又一輪百團大戰。
作為一年一度的全球科技盛會,今年的云棲大會在前沿展館特別開辟了人形機器人先進陣列展區,包括特斯拉Optimus、宇樹科技H1、星動紀元小星、銀河通用Galbot G1、逐際動力CL-2、優寶特行者泰山等一系列明星產品都在云棲大會亮相,并與觀眾進行了一系列互動演示。
圓桌嘉賓的四個“能”字,和現場的人頭攢動,也相繼成了今年人形機器人熱潮的絕佳縮影。
至頂科技CEO兼總編輯高飛在圓桌討論最后總結稱,“計算機科學家艾倫·凱曾經講過一句話,預測未來的最好方法就是發明它,相信在座的各位作為人形機器人領域主要推動力,會和更多生態創新力量一起攜手,一定可以共同創造一個美好的,人機協同的——機器人新紀元。”
值得注意的是,就在云棲上人形機器人這一顛覆對話結束時,還特別增設了一個獨特的環節——四家明星企業展區的人形機器人和臺上的四位創始人面向觀眾揮手致意。
這一幕,注定將載入云棲史冊,也將載入世界人形機器人發展史。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.