出品|虎嗅科技組
作者|宋思杭
編輯|苗正卿
頭圖|電影《模仿游戲》
回國兩個月后,羅劍嵐加入智元。這是他探索國內(nèi)具身智能的一個起點。
從機器人不再稱之為“機器人”,而是被叫做“具身智能”開始,這個賽道也逐漸年輕化。王興興、彭志輝、王鶴、楊豐瑜,如今國內(nèi)的具身智能圈已經(jīng)是90后、甚至00后的主場。似乎更名換姓后,人也變年輕了。和上述創(chuàng)業(yè)者一樣,從伯克利回來的羅劍嵐也是一位90后。但不同的是,他的野心不在于拿融資、創(chuàng)業(yè)、找錢。也許是性格使然,羅劍嵐回國后依然堅持了他過往的科研路線。
2015年,是羅劍嵐在機器人領(lǐng)域研究更早的起點。在后續(xù)的十年時間里,他有8年都在做學(xué)術(shù)研究,先后就讀于伯克利的博士和博士后學(xué)位。而在重返伯克利就讀博士后之前,他還有兩年的時間是在谷歌度過,分別擔(dān)任Google X和Google DeepMind研究科學(xué)家。在此期間,他還領(lǐng)導(dǎo)開發(fā)了全球首個超人類的機器人真機強化學(xué)習(xí)系統(tǒng)。
盡管在具身智能領(lǐng)域,對于走 IL(模仿學(xué)習(xí))路線還是 RL(強化學(xué)習(xí))路線,分歧始終存在,但羅劍嵐卻是一名堅定的 RL 擁護者。他的主張是,除非模仿學(xué)習(xí)準確率能達到100%,否則在現(xiàn)實世界的不確定性是極大的。而實際情況是準確率達到99.9%都是幾乎不可能的。
回到國內(nèi),羅劍嵐在做科研與回歸產(chǎn)業(yè)界之間,選擇了一條折中的路線。他決定加入智元擔(dān)任首席科學(xué)家,并牽頭組建了“智元具身研究中心”,還做了稚輝君的同事。
與羅劍嵐回國的初衷相吻合,這個“智元具身研究中心”并非傳統(tǒng)意義上的研究機構(gòu),而是一個連接基礎(chǔ)研究和產(chǎn)業(yè)落地之間的橋梁。在羅劍嵐的口中,”它并不是為了發(fā) paper 而存在的,這個事情不需要我在智元做,具身研究中心存在的意義是用問題推動科研,它的導(dǎo)向是去解決實際問題,最重要的是,在這個研究中心里,基礎(chǔ)研究和產(chǎn)業(yè)落地沒有嚴格的界限”。
而羅劍嵐口中的界限也正是中美在具身智能領(lǐng)域最大的區(qū)別所在。同時,它也是朱嘯虎口中具身智能存在泡沫的根源。
我們不能總是在一個個榜單和視頻的 demo 里看到具身智能的進步,具身智能只有應(yīng)用到具體的產(chǎn)業(yè)中,轉(zhuǎn)為實際生產(chǎn)力,才能讓人感受到它的進步。沉浸在學(xué)術(shù)界多年的羅劍嵐,也并不排斥朱嘯虎的觀念。從某種程度上,朱嘯虎代表著現(xiàn)實主義,但這種現(xiàn)實主義也恰是籠罩在具身智能這種基礎(chǔ)研究與產(chǎn)業(yè)落地脫節(jié)的現(xiàn)實之下。
在與羅劍嵐對話的過程中,他流露出了一種非常 open 的態(tài)度。他說,“完全可以理解朱嘯虎作為投資人的立場”,但同時這并不代表應(yīng)該放棄基礎(chǔ)研究。當(dāng)下,大眾對朱嘯虎的觀點存在一種誤讀,甚至解讀成對具身智能的唱衰。實際上恰恰相反,他反而在提醒企業(yè),具身智能領(lǐng)域真正需要解決的是基礎(chǔ)研究與產(chǎn)業(yè)落地之間的 gap 問題。
但這種 gap 在美國的具身智能圈要更加嚴重。“和國內(nèi)不同,美國的氛圍太過于偏重基礎(chǔ)研究,可能他們不卷吧”,羅劍嵐對虎嗅說道。但這同時也是國內(nèi)具身智能的魅力所在,“國內(nèi)有很多做硬件的公司,而且商業(yè)化也會更快一步,這很有利于填補基礎(chǔ)研究與產(chǎn)業(yè)落地之間的 gap。” 羅劍嵐告訴虎嗅。
實際上,國內(nèi)的具身智能圈,一直都縈繞著兩種氛圍,一種是聚集了UC伯克利和斯坦福等人才的學(xué)術(shù)派,一種是聚集了華為、小米等人才的大廠派。但在羅劍嵐身上,卻既看得到屬于學(xué)術(shù)派的浪漫主義風(fēng)格,也有來自大廠派的務(wù)實風(fēng)格。這次回國,羅劍嵐更多是帶著問題回來的。
在具身智能領(lǐng)域,目前最大的難題還是在 manipulation(操控)身上,通俗來講就是準確應(yīng)對外部世界的無限性、不確定性。這也是目前各界都在攻克的重點。
而在智元,羅劍嵐想用一種“以問題驅(qū)動科研”的方式繼續(xù)完成他的科研工作,同時這里也是他從科研回歸到產(chǎn)業(yè)界的開始。
以下為虎嗅與智元首席科學(xué)家羅劍嵐對話實錄,有刪改:
虎嗅:你在伯克利期間,對國內(nèi)具身智能公司有過接觸嗎?當(dāng)時你怎么看國內(nèi)這些公司的?
羅劍嵐: 2016、17年的時候,那時產(chǎn)業(yè)化處于比較早期階段,更多是硬件導(dǎo)向或者是偏服務(wù)類的機器人,真正關(guān)注具身智能和通用機器人的還并不多。當(dāng)時還沒有這個概念,普遍都叫機器人。
國外也只是有幾家機構(gòu)在做,包括Google在內(nèi)。當(dāng)時大家對于把 learning 移到機器人上這件事一直是持懷疑態(tài)度的。那個時候國內(nèi)偏傳統(tǒng)一些,AI做得少。但這一兩年,國內(nèi)至少從聲勢上看比美國要大得多。
虎嗅:是因為商業(yè)化的原因嗎?
羅劍嵐: 國內(nèi)可能會比較關(guān)注這個詞。相比之下,國內(nèi)更易獲得場景和數(shù)據(jù),使用效率也會相對較高。但美國會更堅持技術(shù)的長期探索。
虎嗅:回國之后,為什么沒有選擇自己創(chuàng)業(yè),而是加入到一家具身智能公司做首席科學(xué)家?
羅劍嵐: 在產(chǎn)業(yè)界做科研需要一套落地的系統(tǒng),這涉及到跨學(xué)科跨層級的系統(tǒng)性協(xié)作。目前這個階段,我希望專注在我擅長的事情上,而不是一開始就陷入團隊建設(shè)、融資、工程化這些事情上。
虎嗅:你說跨學(xué)科協(xié)作。但國外跨學(xué)科會不會走得更往前一些?
羅劍嵐: 我倒覺得中國天生的土壤或基因會比較好一點,比如美國,第一他沒硬件,第二美國AI 人才密度非常高,所以大家會更多基礎(chǔ)在AI研究上。但相比之下,在國內(nèi)恰好相反,國內(nèi)更容易找到機器人所需要硬件本體、算法等等。
虎嗅: 那智元最吸引你的點在哪?
羅劍嵐: 它是全棧的公司,也就是說硬件、軟件、算法都是閉環(huán)的。這和我的理念非常相符。
虎嗅:你的理念是什么?
羅劍嵐: 我覺得現(xiàn)在很多機器人的問題是,現(xiàn)在在硬件、軟件、算法上面工程和科研沒有一起迭代。你不能把它當(dāng)做其他的 AI 方向,就是你有一個 benchmark,有一個 dataset,你在上面刷刷點,找一個場景。我比你好10%就好了。這樣沒有反映實際的進展,也不客觀公平。
虎嗅:你在智元牽頭組建的“智元具身研究中心”,這個研究中心是怎樣的存在?比如它的組織架構(gòu)和獨立性。
羅劍嵐:目前還在持續(xù)招聘。它是一個連接基礎(chǔ)研究,到真正可以被部署到真實系統(tǒng)的中臺。他不會只發(fā)論文,這可能只是目標之一;但更重要是推動具身系統(tǒng)能力的演進,以及部署到真實世界中。它是內(nèi)嵌式的科研中臺,具有相對的獨立性,可以探索新的科研范式,同時也會和我們產(chǎn)品工程這類部門是保持強聯(lián)動,避免脫節(jié)。
虎嗅:那在這個研究中心里,它的基礎(chǔ)研究和落地方面會有一個比例嗎?
羅劍嵐:這是個好問題。我覺得機器人領(lǐng)域有一個挺大的問題,就是在別的領(lǐng)域比說大語言模型,最新的研究成果是幾乎可以馬上轉(zhuǎn)化到商用上,大家可以看得見摸得著,可以用起來。但機器人研究卻很多停留在了紙上,拍個視頻發(fā)到網(wǎng)上說自己比別人好10%,然后就沒有后續(xù)了,也沒有人負責(zé)落地。
所以你說的這個比例問題,在我們的研究中心里我不會設(shè)一個就非常boundary的界限,我不會把基礎(chǔ)研究和落地分開來。我覺得機器人作為系統(tǒng)性的學(xué)科,它是可以被最后 push 到真正應(yīng)用上的,而不是留在 demo 和論文,然后誰也不管的狀態(tài),所以整體會是比較流動的狀態(tài)。
虎嗅:在國外的話,基礎(chǔ)研究和產(chǎn)業(yè)落地的這個界限會有多重?
羅劍嵐:我覺在機器人領(lǐng)域,國外比較尷尬的一點是,他們?nèi)绻肼涞乇容^難找場景。受制于一些客觀因素,他們的制造業(yè)和服務(wù)業(yè)相對較少。這并不是他們不想做。還有一點是美國環(huán)境會包容一點,整個機制會更鼓勵大家去做比較長期的探索,而且資本非常充裕,他們對失敗的容忍率也比較高,這也導(dǎo)致了在具身智能領(lǐng)域很多問題沒有落地。
虎嗅: 所以,“用問題驅(qū)動科研”這也是你回到國內(nèi)要做的主要事情嗎?
羅劍嵐: 對,我覺得好的技術(shù)研究能轉(zhuǎn)化為生產(chǎn)力也是一件非常激動人心的事情。
虎嗅:DeepSeek這波熱潮之后,國內(nèi)外對RL接受度會更高嗎?
羅劍嵐:對, DeepSeek 或 GPT-O1會讓大家看到 RL 的潛力。之前 RL 火起來還是在2016年AlphaGo 那波,但因為后來沒找到應(yīng)用,又沉寂了一會。然后2023年大家看到大語言模型的時候又好了,再到現(xiàn)在大家仿佛又看到了 RL 的潛力。今年圖靈獎也頒給了 RL 領(lǐng)域的兩位宗師。
我對 RL 的看法是這樣,它是一個歸納法和演繹法的區(qū)別。歸納法是你現(xiàn)在看到的現(xiàn)象,他現(xiàn)在是什么,以后也就會是什么。但演繹是,你根據(jù)它底層的邏輯去推理。因為如果只是 supervise learning (監(jiān)督學(xué)習(xí))的話,沒有辦法做優(yōu)化,也沒有辦法做多步的推理。但RL 在原則上是一個比supervise learning更合理的framework(框架)。如果它出問題了,也不一定是它本身的問題,即使真有的話,我們應(yīng)該讓它變得更好,而不是看到問題就認為它不行了。
虎嗅:現(xiàn)在在具身智能領(lǐng)域,堅持 RL 的會很多嗎?
羅劍嵐: 我覺得現(xiàn)在做locomotion,也就是做移動的肯定用的比較多了。但manipulation (操控)的話,這個涉及到真實世界,大家還在探索階段吧,
虎嗅:為什么會這么說?這個locomotion和manipulation具體體現(xiàn)在什么地方?
羅劍嵐: 因為 locomotion 更多關(guān)注的是你自己的行為。比如狗往前走,機器人 往前走,你只要控制好自己模型的準確性就可以了。但manipulation 更多關(guān)于外部世界,除非你的仿真器能夠模仿整個世界,但這是個很難的事情。
在過去二三十年的機器學(xué)習(xí)的經(jīng)驗和教訓(xùn)中告訴我們,在一個AI系統(tǒng)里,如果有一個部分不隨著數(shù)據(jù)的scale(增多)從而性能scale(提升),那么這部分最后就會變成這個系統(tǒng)的瓶頸。仿真器是我們用手設(shè)計的,不隨著整個系統(tǒng)的提升而提升,最后我們學(xué)出來的策略就不會超過仿真器的本身。
虎嗅:所以在manipulation還存在很大問題的情況下,你覺得具身智能接下來的發(fā)展方向應(yīng)該是什么?
羅劍嵐: 我覺得接下來幾年,我們不要說做全能機器人,而是做有用的機器人,解決一個任務(wù)可能太specialize (專用)了,但至少可以解決4、5個場景里面的任務(wù)。我也不關(guān)注他到底是不是人形。
本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4197063.html?f=wyxwapp
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.