AI向左,機器人向右,具身智能站在交叉點。
如果說,大模型給人的印象是抽象和理性,那么以具身智能為內(nèi)核的人形機器人則更顯性感。
在大模型的普及和GPT-4等前沿模型的推動下,我們似乎見證了人工智能領域的一個新時代,人機交流也變得前所未有的流暢和無縫。
從今年的世界人工智能大會到世界移動通信大會,人形機器人幾乎已成為必備元素。有它們在的地方,就會聚集相當多的人氣,是當之無愧的“流量密碼”。
《自然》網(wǎng)站報道稱,人工智能和機器人技術的“聯(lián)姻”,可能是一場將彼此推向新高度的“雙向奔赴”。
AI技術的集大成者
從符號主義到聯(lián)結主義,智能體與真實世界的交互得到日益重視。上世紀50年代的達特茅斯會議之后的一段時期內(nèi),對人工智能的研究主要限于符號處理范式。符號主義的局限性很快在實際應用中暴露出來,并催動了聯(lián)接主義的發(fā)展,形成了包括多層感知機、前向神經(jīng)網(wǎng)絡、循環(huán)神經(jīng)網(wǎng)絡,直至今日風靡學術界與產(chǎn)業(yè)界的深度神經(jīng)網(wǎng)絡等多種方法。
這種用人工神經(jīng)網(wǎng)絡模擬認知過程的方法在適應、泛化與學習方面的確取得了很大的進展,但并未真正解決智能體與真實物理世界交互的難題。要讓電腦如成人般地下棋是相對容易的,但是要讓電腦有如一歲小孩般的感知和行動能力卻是相當困難甚至是不可能的。
針對以上問題,“具身智能”(Embodied AI)概念應運而生。1950年,“計算機之父”圖靈(Alan Turing)在他的論文《Computing Machinery andIntelligence》結尾展望了人工智能可能的兩條發(fā)展道路:一條路徑是聚焦抽象計算(比如下棋)所需的智能,另一條路徑則是為機器配備最好的傳感器、使其可以與人類交流、像嬰兒一樣地進行學習。這兩條道路逐漸演變成了如今的非具身智能和具身智能。
其中,具身智能指的是一種基于物理身體進行感知和行動的智能系統(tǒng),其通過智能體與環(huán)境的交互獲取信息、理解問題、做出決策并實現(xiàn)行動,從而產(chǎn)生智能行為和適應性。它包含人工智能領域幾乎所有的技術,包括計算機視覺、自然語言理解、認知和推理、博弈倫理、機器學習等,橫跨多個學科方向,是人工智能的集大成者。
2023年,是生成式AI的爆發(fā)之年,也被業(yè)內(nèi)稱為“機器人覺醒之年”,ChatGPT等生成式AI與人形機器人行業(yè)結合,開啟了具身智能時代。
這一年,具身智能領域的幾項關鍵性技術都取得了突破性進展。李飛飛團隊發(fā)布了具身智能新成果VoxPoser,能從3D空間分析出目標和環(huán)境障礙,讓真實世界中的機器人在未經(jīng)培訓的情況下直接執(zhí)行任務。
VoxPoser系統(tǒng)的出現(xiàn),將大型模型與機器人結合,進一步提升了具身智能體的環(huán)境交互能力,使其在完成任務時無須額外的數(shù)據(jù)和訓練。這種深度的人機交互和理解使得具身智能更接近于人類的認知和情感模式,有望實現(xiàn)更深層次的人機共融,也揭示出從具身智能走向超級智能的路徑。
DeepMind發(fā)布了Robotic Transformer 2(RT-2),其在訓練時模型就同時學習視覺、語言、機器人行為這三種數(shù)據(jù),并將這些知識轉化為機器人控制的通用指令。RT-2一方面吸收了視覺語言模型的語義推理、問題解決、視覺解釋能力,另一方面能夠從真實的機器人動作中實現(xiàn)具身任務推理,且兩方面能夠相互促進。在自然語言輸入后,通過模型的運算,直接產(chǎn)生動作的輸出,讓人類可以通過純語言命令優(yōu)化機器人控制。
在ITF World 2023半導體大會上,英偉達創(chuàng)始人兼CEO黃仁勛直言,人工智能下一個浪潮將是具身智能,是能理解、推理、并與物理世界互動的智能系統(tǒng),AI與機器人的融合,具有很好的想象空間。特斯拉CEO馬斯克在日前舉行的2024特斯拉股東大會上表示,人形機器人將是今后特斯拉主要的長期價值來源,他也認為,以具身智能機器人為代表的產(chǎn)品有望成為AI的下一浪潮,并且將成為工業(yè)主力,數(shù)量有望超越人類,預計將達到100億至200億臺。特斯拉的目標是年產(chǎn)10億臺,占據(jù)市場10%以上的份額。
從全球具身智能當前發(fā)展看,大致可以分為三個流派:實用派、性能派、學術派。
實用派——以特斯拉、AgilityRobotic和1X Technologies為代表的實用派看重商業(yè)化落地的可能性,希望“讓一部分人先用起來”。可以接受前期僅在部分場景中替代少量勞動力,在設計初期便擁有明確的商業(yè)化落地目標,著重于快速降低成本、推動量產(chǎn)落地。特斯拉于2023年12月中旬發(fā)布了第二代人形機器人,提升了行走速度,可完成拿雞蛋等精細操作,給了市場更多的信心,預計2024年試產(chǎn),2025年量產(chǎn),最終目標售價期望低于每臺2萬美元。
性能派——以波士頓動力為代表的運動性能派,則擁有與軍方三十年之久的合作經(jīng)驗,著重于挖掘現(xiàn)有人形形態(tài)機器人的運動潛力,不太關注成本,Demo機已擁有完成諸如后空翻、跑酷等高難度動作的能力,有可能在未來戰(zhàn)爭中起到一定作用,但礙于成本過高,而影響了量產(chǎn)計劃。而Apptronik這類公司則擁有深海、太空等極端環(huán)境下的產(chǎn)品經(jīng)驗,還與NASA有較多合作開發(fā)經(jīng)驗,第一款通用機器人Demo只有上半身,計劃在2024年底前實現(xiàn)商業(yè)化。
學術派——以李飛飛教授和谷歌團隊為代表的學術派則非常追求大模型對于機器人的變革,打造出“RobotGPT”的基座模型,實現(xiàn)零樣本或少樣本學習,在更復雜乃至陌生的環(huán)境中執(zhí)行任務,實現(xiàn)人形機器人的智能涌現(xiàn)。
在國內(nèi),人形機器人產(chǎn)業(yè)亦被認為是下一個藍海市場。據(jù)《人形機器人產(chǎn)業(yè)研究報告》顯示,全球人形機器人行業(yè)發(fā)展進入黃金時期。預計2026年中國人形機器人市場規(guī)模超百億,達到104.71億元,2030年有望成長為千億市場,市場規(guī)模達1192.46億元。
螺旋上升與曲折前進
具身智能這條長坡厚雪的賽道上從不缺少拓疆者。從簡單的結構驅動到關節(jié)驅動,再到完成跑步、轉彎、識別特定人群面孔系統(tǒng)的高度集成,至目前能發(fā)揮自主決策等功能的高動態(tài)運動階段,早稻田大學WABOT-1、本田ASIMO、波士頓動力Atlas、特斯拉Optimus、小米CyberOne“鐵大”、優(yōu)必選WalkerS等代表作,不斷突破著技術的邊界。
在進入生成式人工智能時代之后,大語言模型(LLM)為具身智能賦予了新的“大腦”,結合視覺語言模型(VLM)和視覺導航模型(VNM),推動著機器人在不確定環(huán)境中的應變能力,從而為應用端開拓了前所未有的可能性。
但目前僅有大模型技術的創(chuàng)新,還不足以驅動具身智能發(fā)展。香港大學機器人與自動化首席教授、新興技術研究所所長席寧表示,計算機控制機器人必須解決這三個問題:邏輯關系、特殊關系和時間關系。然而,現(xiàn)有的大型語言模型等方法,只能回答其中一個維度的問題。
ChatGPT只是數(shù)據(jù)驅動的靜態(tài)智能,未來是時空環(huán)境驅動的具身智能,智能載體不是今天的人工神經(jīng)網(wǎng)絡,而是類腦的脈沖神經(jīng)網(wǎng)絡。這需要多模態(tài)(文本、語音、圖片、視覺、運動等)融合感知、認知、決策和行為生成能力,并基于人工反饋的強化學習完成并快速智能進化。基于具身智能,還將衍化出多智能體協(xié)同感知、控制、決策的群體智能,從而實現(xiàn)更廣泛的智能體之間的協(xié)作交互。
綜合來看,具身智能在其發(fā)展過程中目前仍面臨著多項挑戰(zhàn),這些挑戰(zhàn)源自于其發(fā)展過程中的復雜性和不斷變化的需求。
首先,是要適應非結構化真實環(huán)境。與預設規(guī)則和模式驅動的傳統(tǒng)AI系統(tǒng)不同,具身智能必須在一個充滿復雜性和不可預測性的非結構化環(huán)境中找到立足點。在這種環(huán)境中,信息的稀缺和場景的多變性,要求AI系統(tǒng)具備更加先進和靈活的計算能力,以便能夠適應環(huán)境的不斷變化和不確定性。這不僅是一個數(shù)據(jù)處理的問題,更是對AI系統(tǒng)感知和適應能力的全面考驗。
其次,是要發(fā)展更高級的認知策略。在自然界中,生物體通過視覺、聽覺和觸覺等多種感覺途徑獲得復雜的感知信息,并在大腦中進行有效的多模態(tài)信息融合。具身智能同樣需要模仿這種高效的多模態(tài)融合過程,以更全面地理解和適應其所處的環(huán)境。這包括但不限于對三維空間中物體的精確識別和定位,以及對環(huán)境變化和內(nèi)在聯(lián)系的動態(tài)捕捉。
同時,具身智能還需要超越傳統(tǒng)的計算模型對靜態(tài)數(shù)據(jù)處理,發(fā)展出對事物的動態(tài)變化和相互關系的深層次理解。這不僅關系到對時間和空間信息的處理,還涉及到理解其他生物(尤其是人類)的意圖和行為動機,從而實現(xiàn)更自然、更智能的人機協(xié)同。
此外,涌現(xiàn)式創(chuàng)新與突破的缺乏影響著具身智能的進化程度。生物群體能夠展現(xiàn)出令人驚嘆的集體智慧,主要歸功于其中個體之間的協(xié)同作用。對具身智能來說,一個重要的挑戰(zhàn)是模仿這種群體智能系統(tǒng)。這意味著需要將智能分散到多個實體中,并通過它們之間的協(xié)作,實現(xiàn)更高級別的認知和決策能力。生物群體所展現(xiàn)的自組織和適應性特征,允許它們根據(jù)環(huán)境的變化和個體之間的差異進行自我調整。具身智能需要發(fā)展類似的機制,以實現(xiàn)分工協(xié)作和動態(tài)任務分配,從而能夠更靈活地應對多種情境。
然而,理解和模擬生物群體中的涌現(xiàn)現(xiàn)象,尤其是在計算模型中,仍是一個巨大的挑戰(zhàn)。要發(fā)展出一個符合生物原理的計算模型,從而使具身智能能夠真正實現(xiàn)群體間復雜的交互和創(chuàng)新,顯然還有很長的路要走。
最后,具身智能在與真實環(huán)境進行交互并充分學習時,勢必會收集和處理大量數(shù)據(jù)。這就引出了一個關鍵問題:如何在實時交互中確保這些數(shù)據(jù)的安全性和隱私性。保障數(shù)據(jù)安全和用戶隱私是具身智能發(fā)展中不可忽視的重要方面。此外,具身智能在決策時還需要考慮倫理和道德問題。因此,未來的發(fā)展不僅需要技術創(chuàng)新,還需要建立更為健全和全面的倫理指南,以指導具身智能在復雜情境中的行為決策,確保其行為符合道德原則和社會價值觀。
具身智能的發(fā)展不僅是技術革新的過程,更是對人類理解、倫理道德和社會影響的深思,相關研究在推動科技邊界的同時,還將深刻影響人類社會的方方面面。
從“實驗室”走向“應用場”
具身智能本質上是把人工智能從軟件層面與物理世界形成一個具體的交互窗口,人形機器人是最直接能想到的一個形態(tài)。
事實上,具身智能可以看作是智能體的大腦,具象化的形態(tài)可以多種多樣,人形機器人只是具身智能的一個子集,也可以是一個機器狗、自動駕駛汽車或是大型工業(yè)設備,只要加上人工智能,都可以成為一個具身智能系統(tǒng)。
實際上,人形機器人的發(fā)展歷程本質上是對它控制維度和控制能力不斷進行升級的過程。以日本早期的機器人為例,像ASIMO這樣的模型還沒有力矩控制功能,主要依賴位置控制,因此它行走時步伐細小且多在平地上試探性地移動。
波士頓動力是最早采用力矩反饋進行局部運動控制的團隊之一,在電機技術尚未成熟時,他們采用液壓系統(tǒng)開發(fā)了Altas系列人形機器人。如今,隨著電機性能的提升,得益于新能源車產(chǎn)業(yè)的發(fā)展和技術的外溢,像Figure AI這樣的人形機器人公司開始推出他們的產(chǎn)品,特斯拉也開始帶火市場。
在有些場景,比如說制造業(yè),就不一定都需要人形的形態(tài),一個自動化的設備就能體現(xiàn)具身智能。又比如家庭場景中,則需要更適合跟人類交互的設備和機器,很多現(xiàn)有設施也是為人類需求而設計的,人形就比較合適。
今天具身智能的商業(yè)模式是基于機器人作為自動化的節(jié)點來形成的,這個模式本質上非常重,不管是從技術層面還是商業(yè)模式角度,都在逼著所有的機器人公司去做通用化的智能機器,以實現(xiàn)產(chǎn)品化。
當前的大模型類似于哲學里的“缸中之腦”,它是一個理想化的模型,只輸出語言或多模態(tài)信息,獨立于機器或身體存在。未來它應該連接到什么樣的身體或形態(tài),才能完全發(fā)揮其通用功能,這是目前投資者和創(chuàng)業(yè)者都在探索的問題。
從產(chǎn)業(yè)角度看,無論是具身智能還是通用智能機器人,它們的發(fā)展主要來自于兩個產(chǎn)業(yè)的交叉融合。
一方面,是硬件領域,工業(yè)化和產(chǎn)業(yè)化推動了汽車、機器人等機械結構、電氣化和傳感器的快速發(fā)展,也降低了硬件的成本,使它們更加普及。
另一方面,是軟件和數(shù)據(jù)領域,從早期的電腦和PC到軟件,再到互聯(lián)網(wǎng),產(chǎn)生了海量數(shù)據(jù),結合強大的算力,催生了今天的規(guī)模法則和大模型。
在制造業(yè)中,具身智能正通過高度自動化的機器人流水線實現(xiàn)生產(chǎn)過程的優(yōu)化;在醫(yī)療領域,具身智能應用在機器人輔助手術和患者護理上;在服務行業(yè),智能機器人正在改變客戶服務的面貌……這些具體的應用場景在展示具身智能的廣泛適用性之余,還體現(xiàn)了它在提高效率、精度和用戶體驗方面的巨大潛力。
比如交通領域,車路云一體化不僅可以降低單車的智能化成本,同時在具身智能的加持下,可以賦予道路更加智能的路側感知系統(tǒng)(MRS),通過融合激光雷達、毫米波雷達、攝像頭等多類傳感器數(shù)據(jù),經(jīng)過深度神經(jīng)網(wǎng)絡處理,完成包括三維場景下的全景分割、物體檢測、場景流估計、運動狀態(tài)估計、自車位姿修正以及占用體素估計等任務,并形成運動物體未來5秒的運動軌跡、車輛行駛意圖、自車的決策信息以及自車未來的規(guī)劃軌跡信息,幫助智能網(wǎng)聯(lián)汽車進行交通態(tài)勢分析,提供全局最優(yōu)路徑規(guī)劃,使其在復雜環(huán)境中更加安全、順暢地運行。
智力革命已經(jīng)打響,就像工業(yè)革命解放生產(chǎn)力,電力革命解決能源流通,是全新生態(tài)的構建。未來嵌入具身智能的機器人、自動駕駛汽車、自動化設備等,不僅是對人類智能的延伸,更是一個通用人工智能誕生和發(fā)展的舞臺,為超越人類智能水平的人工智能提供了理想的試驗場和成長空間。或許,這也是各大科技公司對具身智能寄予厚望的深層次原因。
這預示著,一個更加智能、更加互聯(lián)的未來正向我們走來。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.