衡宇 李根 發(fā)自上海
量子位 | 公眾號 QbitAI
火爆,實在太火爆。
具身智能,被視為AI、自動駕駛之后下一個時代科技風口,現(xiàn)如今正在火爆得一塌糊涂,臺上熱鬧、水下更是滾燙——
量子位獲悉,一家2025年2月才低調(diào)出發(fā)的創(chuàng)業(yè)公司,團隊還很精簡,技術和產(chǎn)品也才剛剛立項,就在投資市場引發(fā)了追逐風暴:大牌投資機構搶著競購,最后罕見在春節(jié)前后完成超募,甚至有些動作不夠快的投資機構,只能排到下一輪。
這家具身智能公司,最終官宣了1.2億美元的天使輪融資,創(chuàng)造了中國具身智能行業(yè)最大天使輪新紀錄。
可問題是這都已經(jīng)2025年了……最早出發(fā)的具身智能創(chuàng)業(yè)者,在3年前的時間點已經(jīng)下水。進展快速的具身智能公司,也已經(jīng)開啟場景驗證和落地。以及具身智能領域,也從不缺天才和大牛創(chuàng)業(yè)者。
還有什么樣的創(chuàng)業(yè)團隊,憑什么在此時此刻攪動如此風云?
一位知情人士說,核心原因是團隊豪華,堪稱夢之隊,而且還是有過硬科技完整落地經(jīng)驗的工程派。也有人拿NBA籃球類比,“庫里和約基奇聯(lián)手組了隊,聯(lián)盟大結局”——庫里是三分外線第一人,約基奇則被視為最全能的內(nèi)線中鋒,而這家公司背后的核心人物也是兩位自動駕駛領域的第一人。
- 一位叫陳亦倫,來自L2,代表智能駕駛;
- 一位叫李震宇,來自L4,代表Robotaxi。
據(jù)說這兩人聯(lián)手創(chuàng)業(yè)的進展傳出后,獲得了這樣的評價:陳亦倫帶隊,牛了;李震宇坐鎮(zhèn),穩(wěn)了。他們在上海,組建戰(zhàn)隊,取名它石智航TARS,競逐具身智能的GPT時刻。
他們創(chuàng)業(yè)的消息,實際流傳已久,但現(xiàn)如今隨著創(chuàng)紀錄的1.2億美元天使融資曝光,再也藏不住了。
中國具身智能最壕天使輪融資
它石智航(TARS)官宣的新進展是這樣的:
完成天使輪1.2億美元融資,開啟具身智能創(chuàng)業(yè)新征程。本輪融資由藍馳創(chuàng)投、啟明創(chuàng)投聯(lián)合領投,線性資本、恒旭資本、洪泰基金、聯(lián)想創(chuàng)投、襄禾資本、高瓴創(chuàng)投跟投。
沒錯,融資額1.2億美元。而更多時候,這樣的數(shù)額通常是天使輪的估值金額。這筆天使輪投資,也創(chuàng)下了具身智能領域天使輪最大融資額。
它石智航的打造者,也有了首次公開發(fā)言。
△陳亦倫,它石智航創(chuàng)始人兼CEO
它石智航創(chuàng)始人兼CEO陳亦倫說:“它石智航的使命是以物理世界AI和通用機器人技術為核心,構建可信賴的超級具身智能系統(tǒng),讓高性能AI規(guī)模化的融入人類社會的生產(chǎn)與生活中。”陳亦倫還判斷,未來十年,具身智能將成為全球產(chǎn)業(yè)升級的關鍵引擎。它石智航將持續(xù)突破物理世界的智能化邊界,探索具身智能無限潛力。
據(jù)披露,本輪融資將被重點投入產(chǎn)品與技術研發(fā)、模型訓練以及場景拓展。
領投方之一的藍馳創(chuàng)投管理合伙人朱天宇更進一步說明了它石智航的三大核心競爭優(yōu)勢:
第一,團隊具備全球頂尖的世界模型構建能力、以及超大復雜系統(tǒng)的工程化落地能力;
第二,公司在機器人本體設計與運動控制算法(小腦系統(tǒng))上擁有深厚技術積累,具備軟硬件一體化交付能力;
第三,公司對目標行業(yè)痛點有深度洞察,能精準錨定高價值應用場景,交付完整解決方案,不只是“機器人公司”,更是“行業(yè)場景解決方案公司”。
另外一家領投方,啟明創(chuàng)投主管合伙人周志峰則表示,投身這一領域創(chuàng)業(yè),不僅需要對前沿技術的發(fā)展趨勢具備深刻的洞察力,還必須擁有豐富的工程化、產(chǎn)品化以及量產(chǎn)經(jīng)驗。它石智航是行業(yè)內(nèi)為數(shù)不多的具備完整能力的優(yōu)秀團隊。”
這些一定程度上劇透了它石智航的技術方向和核心特點。
量子位獲悉,作為具身智能創(chuàng)業(yè)公司,它石智航從一開始就會在軟硬件上全棧推進,包含智能軟件(算法和大腦)能力、硬件本體能力,以及AI大模型產(chǎn)品研發(fā)。
其中,被視為核心技術引擎的是名為AWE——AI World Engine的世界模型,類如具身領域的GPT大模型。但區(qū)別GPT利用互聯(lián)網(wǎng)語料訓練,它石智航的AWE會率先開創(chuàng)Human-Centric 具身數(shù)據(jù)引擎,以人為本采集數(shù)據(jù),用真實世界具身數(shù)據(jù)獲取能力的跨越式突破。
它石智航內(nèi)部提到,相比于外部更高熱度的“具身智能”,更常用的是“物理AI”,據(jù)稱這更接近他們追求的目標,打造一套數(shù)據(jù)驅(qū)動、可泛化的通用物理世界智能系統(tǒng),并且更關鍵的是,實現(xiàn)這套系統(tǒng)的工程化、產(chǎn)品化和量產(chǎn)商用。
而這種工程化產(chǎn)品化,正是這個團隊被看好的最核心原因,也是這個“豪華夢之隊”的獨特所在,他們都在具身智能的子集——自動駕駛,實現(xiàn)過前沿技術從0到1,從技術到產(chǎn)品,從demo到量產(chǎn)商用。
CEO陳亦倫博士,先后任職大疆機器視覺總工程師、華為自動駕駛CTO、清華大學智能產(chǎn)業(yè)研究院智能機器人方向首席科學家,是中國自動駕駛領域的產(chǎn)業(yè)領軍人物……
現(xiàn)如今以“遙遙領先”聞名的華為ADS智駕系統(tǒng),發(fā)軔端到端,改寫行業(yè)格局,就是從陳亦倫開始的。
董事長李震宇,獲得過華為最高榮譽嘉獎,后擔任百度集團資深副總裁,掌管百度阿波羅自動駕駛事業(yè)群多年。
但即便是創(chuàng)業(yè)首秀,陳亦倫和李震宇也謝絕了自己站到臺前來分享,而是希望讓更多人感受到年青人的天才和光芒——這個年輕天才指向很具體:丁文超博士,李震宇說:“有時候我還在啃論文的時候,丁博幾句話就講清楚了,而且直接給出了代碼。我是丁博的粉絲。”
丁文超,它石智航的聯(lián)合創(chuàng)始人,擔任首席科學家,生于1993年,是華為“天才少年”計劃的首批入選者,并且被派往了挑戰(zhàn)最大的自動駕駛軍團,從0到1主導了華為ADS智駕端到端決策網(wǎng)絡……
后來返回學界,從0到1搭建了復旦機器人系統(tǒng)實驗室,打造了復旦首個人形機器人。
此外,陳亦倫還介紹了另一位量產(chǎn)工程化大神:它石智航的聯(lián)合創(chuàng)始人、首席架構師陳同慶。
陳亦倫笑稱,內(nèi)部把陳同慶稱之為“兵王”,因為他帶出過很強的規(guī)模化產(chǎn)品量產(chǎn)團隊。這位能征善戰(zhàn)的“兵王”陳同慶是清華大學博士,國家重大專項首席科學家,空間感知首席技術專家,深耕工業(yè)制造、AI、自動駕駛、機器人等產(chǎn)業(yè),引領多個產(chǎn)品成功商用。
這些大牛們聚在一起,它石智航就此啟程了。
我問丁文超,決定入局具身智能創(chuàng)業(yè),Why Now?
他說感知到了時代的召喚。時代在呼喚一支技術創(chuàng)新、工程化經(jīng)驗、軟硬件一體具身團隊。
△丁文超博士,它石智航聯(lián)合創(chuàng)始人&首席科學家
(量子位與丁文超博士展開了一場獨家長對話,下文為對話節(jié)選,并做了便于書面化閱讀的編輯和整理)
對話它石智航丁文超
“打造一個《星際穿越》里的AI機器人”
量子位:我們從最初始的問題開始吧,它石智航(TARS)是一家什么樣的公司?你們要做什么?
丁文超:它石(TARS)是一家什么樣的公司,可能從名字也能窺見一二。首先名字來源于《星際穿越》中的機器人。其次這個機器人非常智能可靠,協(xié)助主角一路過關,非常可信。
但TARS也是縮寫,代表我們的出發(fā)點:Trusted AI and Robotics Solution——可信賴的AI和機器人解決方案。目前業(yè)內(nèi)現(xiàn)狀也有不同的具身智能公司,有做本體的,有做大模型的,也有關鍵零部件,但還缺少一個真正可信賴的AI機器人方案。
量子位:怎么理解“可信賴”?
丁文超:我能在各種場景里信任這個機器人,不論是在工廠,還是家庭生活場景,都能幫你完成各種各樣的事情。就像自動駕駛系統(tǒng)一樣,你放心地把方向盤交給它。
量子位:這個路徑如何實現(xiàn)?
丁文超:路徑也寫在了TARS名字中,實現(xiàn)這一目標,首先需要強大的AI能力,其次必須能夠?qū)嶋H應用到實體機器人身上。所以我們歸納起來,可以從三個維度展開討論——超級算法,超級本體,超級應用。
超級算法,就是打造人類智能水平的具身技術模型。超級本體就是機器人身體。超級應用就是核心場景下的爆點應用。
具身智能領域,有些公司只做算法,有些做本體,但我們從一開始就構建全棧,目的還是希望能把解決方案做好,做可信賴的AI機器人解決方案,就需要全棧。
從投入來說,目前最核心的還是兩手抓:一方面是構建超級算法,另一方面是有一到兩個爆點應用可以打穿。
我可以先講具體應用場景,倒推分享更抽象的算法挑戰(zhàn)。
應用來說,比如有一個場景是汽車生產(chǎn)制造中工廠中的柔性操作場景,目前具身智能整體干得還不好,沒有方法論,或者局限在一個很小的場景。所以只有把柔性物體操作做得很好,才能真正實現(xiàn)產(chǎn)線級生產(chǎn)力,真正實現(xiàn)工廠各個角落的自動化。
柔性物體的問題為什么難?主要還是你一碰這個線,它會隨著你的運動而形變。不像你碰剛性物體如電腦,只是把它移動到其他位置。柔性物體比如這張餐巾紙,你一碰它它就形變,你的動作其實影響了整個環(huán)境,所以面對柔性物體的操作,本質(zhì)就是不僅要知道自己怎么動,還要知道動了之后環(huán)境世界會怎么演化,需要對變化做變化。
自動駕駛里也有類似的問題,擁堵場景下你加塞,你動別人也會動,原本你旁邊是沒有空間的,但你強行擠出了一個空間,這個過程就是改變了原來的世界,還要對這個改變做預測和規(guī)劃。
所以這背后牽扯到了我們認為最關鍵的技術核心,我們把它稱作:AI World Engine。
AI世界引擎主要預測兩個關鍵因素,第一是看到這個場景后采取什么樣的行動,第二是建立一個模型,模擬行動后世界會如何變化。
目前這樣的模型極為稀缺。因為很難,首先需要模型架構上的創(chuàng)新,其次數(shù)據(jù)能力上也需要創(chuàng)新。訓練這種模型不是少量數(shù)據(jù)可以實現(xiàn)的,我們按照第一性原理來推,我需要“精確知道我做了什么動作”的數(shù)據(jù),這樣的數(shù)據(jù)反映我做了什么,還反映客觀環(huán)境怎樣變化。
動作本身的數(shù)據(jù)并不難采集,但環(huán)境變化的數(shù)據(jù)很難。你可以用攝像頭捕捉一些間接的觀測,但客觀世界里物理規(guī)律在3D空間的變化,很難捕捉和預測。
而只有大量的這樣的數(shù)據(jù),才能支撐訓練AI世界引擎。
量子位:所以關鍵依然是如何獲得你們想要的數(shù)據(jù)?
丁文超:按照第一性原理,你想要達到人類水平的具身智能,要獲得人類水平的認知世界或行動能力,相應的數(shù)據(jù)也需要從人類身上來,從人身上找答案。這會是我們區(qū)別于業(yè)內(nèi)其他公司的地方。
現(xiàn)在怎么采集數(shù)據(jù)?帶著XR眼鏡或者手柄遙控,人動,機器人跟著動,但這些數(shù)據(jù)采集方式都是“以Robot為中心”的。我不認為這是通向具身智能的正確道路。
智能汽車可以類似啟動,因為沒有智能的汽車也可以銷售靠影子模式構建數(shù)據(jù)飛輪,但沒有智能能力的機器人不會有人買單,所以如果靠要人類遙控操作產(chǎn)生數(shù)據(jù)去訓練機器人,甚至遙控操作出來的數(shù)據(jù)還不如人類水平,相當于把人套在機器軀殼上,實現(xiàn)的技術肯定是降級的。
所以我們的思路是以人為本源,才能達到人類水平的具身智能。
量子位:強化學習在其中是什么作用?
丁文超:單純靠端到端是達不到可信賴的,單純依靠模仿人類遠遠不夠,不僅要模仿人的動作,還要學會應對環(huán)境變化,環(huán)境變化之后的動作變化,結合強化學習,你才能最終實現(xiàn)可信賴的具身智能AI。
“AWE是具身版GPT”
量子位:所以它石的具身技術模型究竟是什么?
丁文超:我們的核心技術引擎就是AWE——AI World Engine世界模型 ,可以說AWE就是具身版的GPT模型。
量子位:相比于GPT,AWE的打造最大挑戰(zhàn)是什么?
丁文超:首先是數(shù)據(jù)。GPT的互聯(lián)網(wǎng)語料數(shù)據(jù)相對容易獲得,但具身的數(shù)據(jù)很難獲取,不光是簡單的圖像和視頻,還需要操作中的動作,動作類數(shù)據(jù)很稀缺。
其次跟GPT相比,AWE需要有很強的空間感知能力,因為具身智能機器人需要執(zhí)行真實世界的具體任務,缺乏空間感知能力一定不work。物理 AI自然需要被定義在物理空間內(nèi),所以空間的概念是非常重要的。
語言不需要空間感知能力,你跟ChatGPT對話,它缺乏空間感知弄錯一些數(shù)據(jù)問題不大,但具身智能不行,從一開始就需要有很強的空間感知能力,這也是業(yè)內(nèi)沒有被很好突破的難點。
有些具身大模型簡單粗暴套LLM的邏輯,把圖像變成語言一樣的token,然后讓大模型輸出動作……這其中缺失很多東西,缺少空間感知相關的能力,導致目前也沒有真正好用、可信賴的具身大模型出來。
量子位:做好具身大模型就需要強空間感知能力,空間感知能力依賴于數(shù)據(jù)……
丁文超:是,所以我們致力于打造一家成功的具身智能公司時,就明確了一定要有自主可控的數(shù)據(jù)閉環(huán)。這個邏輯和自動駕駛一樣,幾乎沒有成功的自動駕駛公司靠外部采集數(shù)據(jù)而獲得成功,一定是需要數(shù)據(jù)閉環(huán)機制。如何打造一個完整的數(shù)據(jù)閉環(huán),這個方面,我們有非常強的經(jīng)驗。
之前做自動駕駛產(chǎn)品落地的時候,每天接觸最多的就是數(shù)據(jù)閉環(huán)的問題,如何在數(shù)據(jù)雪球開始后,根據(jù)信號迭代模型和網(wǎng)絡,再進一步迭代數(shù)據(jù)。
量子位:有了數(shù)據(jù)如何訓練好空間感知能力?
丁文超:這是我們團隊核心技術能力之一。為什么空間感知能力之前沒有很好的模型,我認為是大家建模的時候太粗暴,比如認為基于過去的圖像和視頻,就能預測未來,就認為模型具備空間感知能力了。但實際不是,視頻預測模型學會的空間感知能力,可能很間接。
比如大家現(xiàn)在可能會刷到AI生成的短視頻,看起來逼真,但很多小細節(jié)可能在違反物理定律。或者前后一致性的問題。
我們的解決思路是4D空間對齊,在具身智能領域,3D空間操作之外,加入時間的維度,引導AWE預測整個4D空間的變化。這實際上展示了模型學習和理解空間感知的能力。
為什么其他人無法做到這一點?首先可能是尚未意識到重要性。其次是訓練這樣的模型,必須要有強大的自動化標注能力作為支撐,以及有對應的訓練數(shù)據(jù)資料。
空間感知能力需要模型學會,它不會靈光一現(xiàn)涌現(xiàn),需要你教小孩子一樣,先有監(jiān)督學習,只不過這個監(jiān)督學習主要是數(shù)據(jù)自動化標注獲得。數(shù)據(jù)自動化標注的能力、場景重建的能力實際非常有門檻,做好了這個才能設計好整個模型架構,設計模型學習的任務,而這條路我們在自動駕駛工程項目中獲得了經(jīng)驗。
量子位:怎么理解數(shù)據(jù)的自主可控?
丁文超:具身智能的數(shù)據(jù)來源大概有這樣幾種,一是買數(shù)據(jù),但供應商的數(shù)據(jù)參差不齊、有些噪聲還很大,或者動作和圖像同步?jīng)]做好,最后會限制模型的能力。
另一種是自己采集,比如在空間里設置場景,然后工程師通過搖桿操作,人動、機器人跟著動,學習一些任務。但這樣的場景采集的數(shù)據(jù)是自主可控的嗎?我覺得不是,多樣性太弱了,你很難相信這樣環(huán)境訓練出來的模型能夠泛化到家庭場景…
我認為數(shù)據(jù)的自主可控,核心還是你自己去架構整個數(shù)據(jù)采集的機制和流程,保證可擴展性。這個數(shù)據(jù)采集機制能夠到每個人身上,不受限于機器人本體,可以忠實地記錄真實世界,記錄人的方方面面,記錄人干的各種各樣的事情,以及作用于周圍環(huán)境后引發(fā)的變化。
量子位:比如說咱們所處的這個房間空間,把里面的一切都記錄下來成為數(shù)據(jù)?
丁文超:不是,我認為數(shù)據(jù)的問題不是在于對房間建模是否精細,核心還是場景,真正的智能涌現(xiàn)不會來自一兩個這樣場景里的數(shù)據(jù),你只會容易過擬合,你想讓具身智能機器人學會操作水瓶,不能局限于這個桌子上,得讓它見過各種場景、角度、形狀得水瓶。
這聽起來是一個簡單的任務,但你沒辦法在一個房間里把所有的排列組合都搭建出來,成本很高,效率很低……我認為正確的數(shù)據(jù)獲取方式,應該是和人綁定。
量子位:所以你認為具身智能大的路徑是有共識的,但具體實現(xiàn)上,算法、模型和架構的質(zhì)量,大家還是會有差距的?
丁文超:或者這么去理解,大趨勢都在逐漸收斂成共識,大家現(xiàn)在都意識到要用端到端大模型的方法去支撐具身智能,已經(jīng)沒人再做小模型或模塊化了,但即便如此,認知水平的差距、工程化實操水平的差距、數(shù)據(jù)迭代的差距,最后都會造成結果上的差距。
自動駕駛現(xiàn)在的方法論很透明了,端到端網(wǎng)絡、Transformer架構、車的數(shù)據(jù)也很直接……但真正能夠成功實現(xiàn)端到端自動駕駛的玩家并不多,對吧?
量子位:想到還要能做到……
丁文超:所以我認為現(xiàn)階段時代是在呼喚一個具身智能團隊的,這個團隊既能把新技術用起來,還能夠做好工程化。
之前可能有團隊做研究做得很好,發(fā)很多論文,展出各種小的demo,但真正拿出可靠的產(chǎn)品化方案,可能還沒有,要么可能是對前沿技術follow不足,要么是工程化能力不夠。
所以某種意義上,我認為時代在呼喚能夠兼顧前沿技術和工程化能力的團隊,就像早期自動駕駛落地一樣,這是我們現(xiàn)在出發(fā)的原因。
“時代在呼喚一個技術創(chuàng)新與工程化并重,軟硬一體的團隊”
量子位:我一直有個疑問,你們感知到了時代的召喚,但具身智能實際是阿蘭·圖靈時代就提出的概念,是什么原因讓現(xiàn)在可行了?
丁文超:我覺得之前已經(jīng)有了很多的鋪墊。首先就是自動駕駛被解決得很好,如果大家還都陷在自動駕駛苦海,還在一個個寫規(guī)則代碼,那是不敢碰具身智能的。所以自動駕駛是一個明確的信號,你可以依靠數(shù)據(jù)驅(qū)動,端到端網(wǎng)絡,實現(xiàn)可靠的自動駕駛落地應用。
第二是大語言模型的成功,讓大家意識到智能的上限可以這么高。原先自動駕駛是很垂直場景的AI落地,但大語言模型的成功,讓大家相信通用智能的存在,并且ChatGPT、豆包、DeepSeek這樣的應用,每一個人日常都能感知到它的能力了。自動駕駛也是,都開始標配了。
我們公司“它石”也可以從它山之石來理解,就是具身智能浪潮本源來說,很多進展和資源都堆積到這里了,物理世界的AI化大勢所趨,開始要替代信息世界的AI成為主旋律了。
具身智能這個概念我覺得相對拗口難解釋,實際上我更喜歡物理AI,更加直觀。
最后,很多供應鏈和工具生態(tài)都相對成熟,可以支撐推動時代浪潮。進展也是顯而易見的,特斯拉的機器人第一年還是概念不能走,第二年再出現(xiàn)就能夠獨立行走可以抓球拋球……說明技術和資源都在加速發(fā)展。
量子位:語言智能之前被稱為AI皇冠上的明珠,自動駕駛也被稱為AI皇冠上的明珠,現(xiàn)在兩顆明珠合而為一了。
丁文超:確實。兩股能量匯集也需要有出口。
量子位:剛才談論了數(shù)據(jù)的重要性,也有觀點會強調(diào)仿真和合成數(shù)據(jù),你怎么看?
丁文超:我認為對仿真數(shù)據(jù)的依賴是一個行業(yè)早期不可避免的過程,但問題是為什么需要仿真數(shù)據(jù)?可能還是沒有自主可控的數(shù)據(jù)流程。如果可控、可泛化、可擴展的真實數(shù)據(jù)不可得,就會寄希望于仿真。
但我們的基本判斷是真實數(shù)據(jù)的優(yōu)先級永遠高于仿真。
如果能確保海量真實數(shù)據(jù)的時候,仿真的優(yōu)先級相對較低。仿真數(shù)據(jù)更適合項目的早期階段,模型冷啟動,但在后期的作用非常有限。
你只要做過仿真器,就知道里面有超級多的魔鬼數(shù)字,本質(zhì)是你在用代碼重構真實世界,這是很難的事情,而真正能夠重構世界的是AI大模型,所以我們叫AI World Engine,如果能夠?qū)W習到動作和環(huán)境變化,AWE可以扮演仿真器的決策,
而事實上AWE遠遠超越了仿真器的概念,我們是靠AI方法去學會的,而不是編程實現(xiàn)的。
量子位:那基于真實數(shù)據(jù)去構建AWE,參數(shù)的量級是一個怎樣的問題?
丁文超:這也是一個波動的過程,具身這個領域此前也有行業(yè)案例證明不是必須使用如此大的模型才能達到它展現(xiàn)的水平。我認為具身界的DeepSeek也會很快出來。好的數(shù)據(jù)不挑網(wǎng)絡,核心可能還是沒搞清楚數(shù)據(jù)。
“行業(yè)首創(chuàng) Human-Centric,對于 Scaling Law 至關重要”
量子位:問題是比如GPT可能干到了很大參數(shù)發(fā)現(xiàn)了智能涌現(xiàn),然后DeepSeek才能用更小的參數(shù)實現(xiàn)這樣的能力。但具身智能如果沒有這個過程…
丁文超:具身智能確實一口吃不成胖子,模型規(guī)模和智能能力是相輔相成的。但語言模型的特點是天然數(shù)據(jù)量很大,足夠飽和,所以你早期增加模型規(guī)模可以展現(xiàn) …
但Scaling Law我認為有三個維度:
- 第一是數(shù)據(jù)維度的Scaling Law;
- 第二是參數(shù)規(guī)模的Scaling Law;
- 第三是推理時上的Scaling Law。
因為語言模型天然可以通過爬蟲獲取數(shù)據(jù),所以跳過了第一個維度的Scaling Law,直接被看到的就是參數(shù)規(guī)模和現(xiàn)在的推理時間上的Scaling Law。
具身的問題是被卡在了數(shù)據(jù)的Scaling Law,然后就沒辦法談模型規(guī)模上的Scaling Law,比如目前看到有些行業(yè)具身智能機器人展現(xiàn)的是在房間里抓抓取取,這些很顯然并不需要多么龐大的模型參數(shù)。
那具身的話,我認為首先是啟動數(shù)據(jù)的Scaling Law,然后會看到模型規(guī)模上的,接著強化學習。
所以我認為,具身一開始可能不是一個很大的模型,比如7B或者30B就能很強了,等數(shù)據(jù)飽和到一定程度,再擴大模型參數(shù),再進一步變強,然后再接著做強化學習達到next level……這三個Scaling Law都探索完成,真的有可能達到AGI。
因為具身或者說物理AI和語言——信息AI是互補的,這二者最后匯集起來真的可能會導向我們說的AGI。
所以我認為模型規(guī)模大小,現(xiàn)在還不是最關鍵的因素,不是瓶頸。
量子位:你提出的Human-Centric對于Scaling Law的意義是什么?
丁文超:我們在行業(yè)開創(chuàng)了Human-Centric 具身數(shù)據(jù)引擎,這是一個全新的技術范式,對于Scaling Law至關重要。它可以實現(xiàn)真實世界具身數(shù)據(jù)獲取能力的跨越式突破,我相信這將為物理世界 AI的持續(xù)發(fā)展注入強勁驅(qū)動力。
量子位:我們談到了AGI,在信息領域,目前大概的共識是每一個領域都達到人類博士的水平,那在具身智能領域,如何定義AGI?
丁文超:需要有場景。
量子位:那為什么不先在某個場景,比如工廠中的工作場景打造一個行業(yè)模型,而是一開始就打造一個通用的AWE世界模型?
丁文超:這是一個選擇問題,我一直認為人做事情,往往是求上得中,求中得下,求下而不得。如果一開始就做一個工廠中工作場景下的事情,能做成也能做得很好,但人終究是有局限的,你很容易過擬合。
后面從工廠場景切換到生活場景,有些GAP你就可能跨越不了了。
所以從出發(fā)點來說,我們肯定是要用通用的方法來做具身智能,不管開始落地的場景是一個還是兩個,但方法一定是要通用的,適用于所有的場景,只不過可能剛開始會有數(shù)據(jù)分布上的調(diào)整,哪個場景多一些,哪個場景先不那么多,只是為了讓性能在具體場景下更好。當我開始不同場景遷移的時候,不需要重新寫代碼或者調(diào)整架構。
量子位:GPT展現(xiàn)的能力涌現(xiàn),經(jīng)歷了1.0、2.0、3.0…你們的具身大模型,也需要經(jīng)歷這樣的過程嗎?
丁文超:我們構建第一個AWE模型,可能版號就是3.0。我們希望直接對標的就是GPT-3展現(xiàn)的能力,GPT-1和2的時候展現(xiàn)了一些智能信號,但不是很work,等到GPT-3的時候或者說3.5的時候真正把數(shù)據(jù)和規(guī)模達到了一定程度,也很系統(tǒng)地研究了Scaling Law,打造了垂直的ChatGPT應用,真正展現(xiàn)可用了。
我們也是類似邏輯,先打造AWE3.0,把數(shù)據(jù)和工程化做好,后面針對垂直場景做優(yōu)化,就推3.5版本,再后面推強化學習,可能也對應以o命名…目前規(guī)劃了這三個版本。
量子位:這三個模型版本,機器人本體都是一樣的嗎?
丁文超:我們準備設計一個模塊化的本體形態(tài),核心判斷是本體形態(tài)會在很快的范圍內(nèi)收斂形成共識,唯一不確定的是靈巧手形態(tài)。
但大的變化可能不會那么大了,雖然我們一開始還是會在本體設計上追求全棧,自己組裝,但后面會不斷收斂,利用產(chǎn)業(yè)分工和供應鏈能力。
量子位:有些玩家可能更加專注于“大腦”打造,本體有共識了放進來…
丁文超:我們對本體從一開始自研,核心還是希望真正了解和定義每一個硬件模塊需要的算力、傳感器方案,目前行業(yè)也有做得不錯的硬件玩家,但這類機器人不一定為我們的需求和場景而生,我們需要自己做一做,才知道如何做整體的設計和調(diào)整。
“自動駕駛分級標準不適合具身智能,但有兩大維度參考”
量子位:你們團隊都有自動駕駛落地背景,自動駕駛按照技術能力有L0-L5的分級,一定程度上指導了落地,你覺得具身智能領域需要這樣的分級嗎?
丁文超:很多人拿這個來比較,但我認為套用自動駕駛的分級來指導具身智能是不合適的。因為自動駕駛的分級本質(zhì)是劃分權責,L3以下是人類司機責任,L3、L4又是限定區(qū)域ODD擴展……L3允許接管,L4不允許接管。
但對機器人來說,它從第一天開始就需要具備一定的自主性,比如你買了一個機器人在工廠應用,它如果出錯了,這個機器人就需要負責任。直接跳過了自動駕駛L3之前需要人類司機負責任的階段。
至于具身智能怎么劃分,我更傾向于技術拆解出來的兩個維度。一個是自動化維度的宕機率,多長時間宕機一次,或者可能類似自動駕駛里的MPI——走多長公里不會跌倒。
另一個是智能化維度,按照掌握的技術數(shù)來衡量。
我們的目標是打造一個基本不會宕機的機器人,然后今年、明年推出的初代產(chǎn)品,可以在一些柔性技術能做得很好,可以支撐商業(yè)化場景落地。
量子位:這兩個維度,也有人會用大腦、小腦來類比,專門打造兩個模型。
丁文超:是的,但可能越往后越會發(fā)現(xiàn)大小腦之間沒辦法分的那么開。比如行業(yè)有能做回旋踢的機器人,我覺得非常好,證明小腦代表的運動能力非常強了,但有個問題是那個機器人眼睛里到底有沒有那根棍子?是看見了棍子去踢,還是它按照一個模式做出了720°回旋踢,然后有人在合適的時間把棍子放到合適的地方配合著讓機器人踢走?
更進一步的問題是這反映的是大腦能力還是小腦能力不足?其實這恰恰是大小腦完全分離導致的。
量子位:所以從一開始你們就不會把大小腦分開訓練或者做這種劃分?
丁文超:可能剛起步階段,為了研發(fā)進度,可能會稍微區(qū)分,但終極上肯定還是要融合統(tǒng)一的,統(tǒng)一的一個架構。
量子位:我默認你們就是在打造人形形態(tài)的機器人,你們確實是嗎?
丁文超:形態(tài)的問題,我覺得馬上就不會再被討論了。之前討論形態(tài),主要還是人形形態(tài)能力,一直沒有深入人心。
但這個過程展現(xiàn)了形態(tài)的本體的成熟度。但具體到是不是一定要有兩個腳掌,可能不一定,人也不是時刻需要兩個腳掌,比如騎電瓶車的時候。下肢可能匹配使用的工具,配合底盤使用。
上肢的話是不是人形這種操作能力更加能夠達到人類水平,我覺得從第一性原理來說,有很有可能是的。
量子位:人形形態(tài)是因為對萬物之靈人類的模擬,還是說做好人形就能做好其他形態(tài),像你剛才說的求上得中…
丁文超:我傾向于后者,具身形態(tài)以后的定義可能還是在擬人形,“擬”這個字也挺微妙,放開了下肢自由度,但沒有放開上肢。
反向思考的話,如果你的目標場景需要Scale數(shù)據(jù)、Scale模型…你需要什么樣的本體才能匹配得上需要的AI能力skill?就會發(fā)現(xiàn)垂類、特別專一的設計沒辦法匹配,在某個時間點就需要重構本體甚至扔掉換更好的,最終這樣的過程后,迭代到的可能就是一個擬人形的樣子。
量子位:所以為了這個大腦,具身機器人也需要有這么一個身體?
丁文超:是的,我認為這就是具身的含義,你需要有一個軀體去承載聰明的AI大腦。軀體長什么樣,會跟自然進化一樣,某種程度是重演進化史。垂類也會進化出垂類的形態(tài),占據(jù)垂類市場,但通用的會占據(jù)最大的市場。
量子位:在自動駕駛領域有升維迭代進化的概念,從L2做到L4,但具身里好像不談論這個,從一開始就是“L4”?
丁文超:核心還是具身智能里,從一開始就沒有人給機器人兜底。它work不work都是一瞬間的事情,人是很難接管的,機器人沒有駕駛艙,你也永遠不可能讓它永遠處在人類的監(jiān)督之下。
量子位:好像也不會在用不用激光雷達上吵來吵去?
丁文超:在自動駕駛早期,核心還是AI能力不夠,算法對用激光雷達還是純視覺,對架構和代碼改變是很大的,但今天都是神經(jīng)網(wǎng)絡端到端的方式,你接激光雷達數(shù)據(jù)還是圖像傳感器數(shù)據(jù),都是前融合了,區(qū)別不大。
量子位:最后影響的核心是成本?畢竟激光雷達始終要貴一些。
丁文超:成本是一方面,另一個也有數(shù)據(jù)效率的原因,如果激光雷達可以把幾何掃得很好了,一定程度上也能減少你網(wǎng)絡學習的難度,但同時也會帶來數(shù)據(jù)多樣性的增加,或者說數(shù)據(jù)異構性的增加。純視覺就同構,加激光雷達就會多一點,所以有優(yōu)點也有挑戰(zhàn),就看不同公司的取舍。
量子位:那芯片算力是一個問題嗎?
丁文超:算力不是問題,現(xiàn)在的自動駕駛車載算力夠用。
量子位:是不是意味著以后也是云端大模型,終端放蒸餾小模型?
丁文超:這是以后實際部署的問題了,可能會有很多工程化的方法。云端是不是有模型,肯定有,邊端也會有,然后二者協(xié)同配合。當你這個機器人沒有網(wǎng)絡,長程思考就需要終端自己完成,有網(wǎng)絡就云端,可能會影響到思考速度的快慢。或者也類似現(xiàn)在快慢模型,有一個跑得快的模型做精細的閉環(huán)操作。
算力的分配會結合網(wǎng)絡場景來思考,最極端的場景,沒有網(wǎng)絡,機器人可能表現(xiàn)得沒那么聰明,但它也有一些基本的能力,這可能就是將來的一個趨勢。
“具身智能里的分歧和爭論,持續(xù)不了太久了”
量子位:所以當前具身智能領域,你認為存在技術路線分歧嗎?
丁文超:我覺得你剛才問的幾個問題,其實都是分歧。
第一,要真實數(shù)據(jù)還是仿真數(shù)據(jù)?
第二,靠大小腦合一還是分離式架構?
第三,你數(shù)據(jù)到底長什么樣子?本體什么形態(tài)?
第五,你落地場景到底怎么樣?應該先做垂類還是通用。
這些都是分歧或者爭議的話題。
量子位:大家都想相互去證明?
丁文超:是的,但我覺得這些爭議不會持續(xù)太久。
量子位:會隨著什么而結束?
丁文超:隨著具身AI能力的提升而結束。因為這就是一個方法論,只要你是對的,提升就會很明顯。
就好像自動駕駛早期都在各種爭論,預測和決策應該是什么關系,感知和PnC之間什么關系…技術專家在吵,網(wǎng)友也在吵,包括到今天一段式好還是兩段式好也還在吵…
但最后你會發(fā)現(xiàn),技術方向路子一旦對了,爭論慢慢就平息了,討論問題沒有意義,只想怎么更快縮短差距。
量子位:看療效了,看你最后交付的東西。
丁文超:對,是的,具身也一樣。比如有誰交出了最穩(wěn)定的自動化程度,效果一出來,很快方法論就會被歸因出來。
量子位:現(xiàn)在業(yè)內(nèi)玩家也會不時放demo,或者展會上秀能力,你會重點關注什么?
丁文超:其實我不太會看展會秀的能力,因為太容易是過擬合下的產(chǎn)物。我傾向于能在哪里看到機器人,這是我的金標準。
量子位:實際落地的場景?
丁文超:對,就是看機器人到底在哪里實際工作,這就是以后的新標準。比如現(xiàn)在有一些機器人,哪怕沒有什么大腦能力的展現(xiàn),但運動能力很不錯,大家可以買來用或者玩,挺成功的。
量子位:目前一些機器人有這樣的定位,本體做得很好,以后等一個DeepSeek或者安卓的大腦,一下子讓它獲得很強的大腦能力。
丁文超:那不就是我們要做的事情嗎?
量子位:但你們會軟硬件一起做。
丁文超:早期是這樣,但最終是不是也會有一個東西可以抽象出來?
我也在思考這個問題。最終是不是真會出現(xiàn)一個Robot OS,或者說物理AI OS,它有很多真實世界的接口,然后你抓取東西的能力就是一個API,和現(xiàn)在虛擬世界的操作系統(tǒng)API一樣……你通過補充數(shù)據(jù)就可以創(chuàng)造新使用,而不是再編碼……
如果可行,那這個東西的價值太大了。可以快速落地各種場景和產(chǎn)品。
量子位:我還想問的是,假如你在幫VC做技術盡調(diào),什么樣的具身智能項目拿不到你的投資推薦?
丁文超:我覺得如果這個節(jié)點還在講概念,沒有實際落地能力的人,我不認為能拿到投資。這個階段已經(jīng)不像三年前,三年前可以靠理想夢想,但現(xiàn)階段要靠實際效果或者產(chǎn)品說話了。
量子位:但你們現(xiàn)在剛入局,也沒有產(chǎn)品,卻依然吸引了最大的首輪融資。
丁文超:我想核心還是我們這個團隊做過成功的產(chǎn)品,起碼能證明我們有產(chǎn)品化經(jīng)驗,有扎實的功底把東西做出來。而且我們對具身智能的理解和認知,或許也是大家對我們的信心。
我相信投我們不僅僅是因為一些名頭光環(huán),核心還是大家相信具身智能的工程化我們能搞定。我們這個團隊的構成,之前交付了中國最好的智能駕駛產(chǎn)品,交付了中國最好的Robotaxi產(chǎn)品。
所以可能大家需要這樣一家公司,它能夠在具身智能領域打造類似的產(chǎn)品,而我們打造過,可以被相信。
量子位:這也可以作為對潛在候選人的說服,為什么你們這艘船值得加入?
丁文超:我們中文名“它石”,對技術人才也是一個吸引的點吧,踏踏實實把事情做好,不要花里胡哨。然后融合很多技術要素,它山之石。
融匯自動駕駛、大模型、前沿AI,然后把它們吸收到你工程化的寶貴經(jīng)驗里。
如果你相信具身AGI的路徑已經(jīng)打開,那這絕對是一個起碼20年內(nèi)為之奮斗的事情,而這個過程中如果有一群比較靠譜的人在做,加入對你的個人認知、技術能力成長還有其他各種方面都有幫助,為什么不加入我們呢?
量子位:我在準備的時候,有一個問題是具身智能這個領域的GPT時刻,但剛才你說AWE第一個版本就是3.0了……所以如果具身有這么個時刻,我們可以怎么檢驗?
丁文超:該怎么定義具身智能的GPT時刻是一個好問題。我想或許標志性事件就是具身智能機器人用一個比較AI的方法完成了現(xiàn)實世界里哪怕一到兩個任務,我覺得這就是具身智能的GPT時刻。
回過頭來,ChatGPT核心就是用一個很AI的方法,基于學習預測下一個token,很簡潔很干凈,能回答問題了,它就干好了這一件事情。
量子位:所以可以理解為如果你們機器人能在工廠里把任務解決得很好,就可以說它是GPT時刻?
丁文超:對,是的,足夠具體具象了。
(另外,丁文超博士透露,他們的戰(zhàn)艦正在緊鑼密鼓招募技術人才,如果你希望擁抱最具挑戰(zhàn)和前景的AI創(chuàng)業(yè),歡迎用簡歷投票:hr@tars-ai.com)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.