出品 | 網(wǎng)易科技《態(tài)度AGI》欄目
作者 | 崔玉賢
編輯 | 丁廣勝
“下周智元機器人有好東西發(fā)布。”華為離職天才少年、智元聯(lián)合創(chuàng)始人“稚暉君”(彭志輝)在社交媒體預告道。
周一(3月10日)上午,“好東西”如約而至,智元機器人官方賬號宣布正式發(fā)布首個通用具身基座模型——智元啟元大模型GO-1(Genie Operator-1),這也是國內(nèi)首個通用具身基座大模型。
消息一出,喜提兩個熱搜。
根據(jù)官方介紹,智元的GO-1大模型開創(chuàng)的提出了Vision-Language-Latent-Action (ViLLA) 架構,該架構由VLM(多模態(tài)大模型) + MoE(混合專家)組成,擁有人類視頻學習,小樣本快速泛化、一腦多形、持續(xù)進化等優(yōu)勢??梢哉f是讓機器在拓展了運動能力之外,具備了AI的能力,讓機器具備了真正的價值。
智元官方在五種不同復雜度任務上測試了GO-1,相比已有的最優(yōu)模型,GO-1成功率大幅領先,平均成功率提高了32%(46%->78%)。
其中 “Pour Water”(倒水)、“Table Bussing”(清理桌面) 和 “Restock Beverage”(補充飲料) 任務表現(xiàn)尤為突出。
Latent Planner是MoE中的一組專家,基于VLM的中間層輸出預測Latent Action Tokens作為CoP(Chain of Planning,規(guī)劃鏈),進行通用的動作理解和規(guī)劃。智元單獨驗證了Latent Planner在ViLLA 架構中的作用,可以看到增加Latent Planner可以提升12%的成功率(66%->78%)。
智元認為,GO-1的推出讓具身智能從單一任務走向了多種任務,從封閉環(huán)境走向了開放世界;從預設程序走向了指令泛化,將具身智能推上了一個新臺階。
智元還將在2025年Q2推出首個基于強化學習的Foundation Model。
在GO-1大模型發(fā)布之后,智元合伙人,具身業(yè)務部總裁,研究院執(zhí)行院長姚卯青以及智元具身研究中心常務主任任廣輝接受了網(wǎng)易科技采訪。
對于發(fā)布具身基座大模型的初衷,姚卯青非??隙ǖ乇硎荆珹I能力將來會是區(qū)分機器人產(chǎn)品競爭力的核心環(huán)節(jié),機器人發(fā)展到最后,比拼的就是AI能力。而機器人公司不做大模型是沒有未來的。
對于智元來說,AI的投入可以說是戰(zhàn)略級別的,而且是堅定的。
不僅如此,智元在發(fā)布基座大模型的同時,還將相應的論文進行了公開發(fā)表,這已經(jīng)算是一種變相的開源。據(jù)姚卯青透露,智元將在Q1末面向核心用戶開源整個大模型。
在采訪中,姚卯青還提到了行業(yè)中熱議的“9.9萬人形機器人”的話題,他認為,硬件的基礎也決定了機器人能力的上限。在這個階段,智元還是堅定地認為需要以價值為導向,讓機器人的硬件軟件協(xié)同配合產(chǎn)生一個好的效果,而不是說買一個大號的電動玩具。
姚卯青認為,人形機器人的應用會是漸進式的,未來1-2年將會在局部場景應用落地,大家期待的機器人進入家庭場景的情況,還需要5年左右的時間。
智元機器人成立于2023年,創(chuàng)始人之一彭志輝曾是華為天才少年,人稱“稚暉君”“野生鋼鐵俠”。公司成立不久就發(fā)布了首款人形機器人,截至目前已經(jīng)下線1000臺機器人產(chǎn)品,智元機器人已經(jīng)完成多輪融資,募資總額超過16億元。
值得一提的是,稚暉君還是“B站百大UP主”,他于2017年11月26日開始在B站上傳視頻。2020年憑借在B站發(fā)布自制硬核小電視內(nèi)容走紅。2024年陳睿在公開演講中盛贊其“從野生鋼鐵俠到70億估值企業(yè)CTO”的成長路徑。
以下為對話智元合伙人,具身業(yè)務部總裁,研究院執(zhí)行院長姚卯青以及智元具身研究中心常務主任任廣輝的部分內(nèi)容:
提問:智元具身基座大模型的研發(fā)初衷是什么?
姚卯青:這和我們公司的使命是緊密相連的。我們公司的使命是希望利用通用機器人來創(chuàng)造無限生產(chǎn)力。我們認為機器人只有硬件本體,肯定是不夠的,這也是最近一些機構,或者說國外的公司對機器人行業(yè)的評論,覺得中國人形機器人公司硬件做得比較好,但AI能力沒有看到顯著的進展。
我們認為AI能力將來一定是區(qū)分機器人產(chǎn)品競爭力的核心環(huán)節(jié),就像今天的新能源車、手機一樣,硬件大家會逐漸收斂,供應鏈也會高度地整合,最后大家比拼的一定是AI的能力。
AI對于機器人來講,一定是更為重要的。因為機器人如果沒有自主作業(yè)的能力,那它價值是非常有限的。基于這樣的初衷,我們將具身智能的AI研發(fā),作為了公司戰(zhàn)略級的投入,我們也是第一個在行業(yè)內(nèi)走完了機器人大規(guī)模的量產(chǎn),然后用量產(chǎn)的機器人編隊去采集百萬級高質(zhì)量的數(shù)據(jù)。同時又能把這批數(shù)據(jù)用來自研大模型,還把大模型能夠部署回自己的硬件本體上。
我們是第一個做到這樣閉環(huán)的研發(fā)迭代。
提問:大模型將應用于什么場景,如何應用?
姚卯青:我們覺得大模型在機器人行業(yè)的應用會經(jīng)歷漸進式的變化,會從一些較為容易、結構化場景較為明確的地方,先去進行落地探索,然后逐漸演化到半結構化和半開放的任務和場景,最終通過在各個行業(yè),各個場景落地過程中收集到的海量的數(shù)據(jù)和交互的數(shù)據(jù),真正地實現(xiàn)通用人工智能,實現(xiàn)AGI在物理世界的應用,可能到那個時候,是真正走入千家萬戶,在家庭中執(zhí)行各類開放式的指令任務。
從這個角度來講,我們在近兩年的時間內(nèi)會集中在工業(yè)、服務業(yè)和商業(yè)領域的應用,同時也會堅定地為最終走向AGI, 走進家庭這樣開放式場景,不斷做技術的摸高。
提問:智元的具身基座大模型GO1可以降低成本,大概能夠降低多少幅度?
任廣輝:我們可以講一下之前做的實驗,我們在一些場景上,可能一個任務大概需要萬條規(guī)模才能達到比較好的成功率,而現(xiàn)在只需要千條或者大幾百條就能做到最好,可以說是降低了一個數(shù)量級的數(shù)據(jù)采集量。
提問:智元的具身基座大模型開源的前景如何?
姚卯青:其實我們今天在發(fā)布的同時,不僅僅發(fā)布了視頻,還把技術博客以及對應的論文都已經(jīng)公開出來了。一定程度上我覺得也算是一種開源了。同時我們會對智元的核心用戶,在Q1對他們進行模型的整個開源。他們可以使用我們的模型部署到智元的機器人上。
提問:機器人在基座模型上是否已經(jīng)進入到技術收斂階段?
姚卯青:機器人的技術我們認為還比較早期,還沒有到收斂的程度,因為本身這個行業(yè)受制于數(shù)據(jù)的問題,還沒法去進行Scaling Low的完整驗證。這也是為什么我們之前要去主動開源AgiBot World。
提問:對應到機器人智能等級標準里,從G1到G5,智元的GO1算是哪個等級的呢?
姚卯青:我們目前發(fā)布的這個技術應該是處于G3到G4的過渡過程。
提問:未來數(shù)據(jù)集采會不會單獨剝離出來形成一個產(chǎn)業(yè)?
姚卯青:這個是有可能的。我們看到AI的發(fā)展也是有明確的產(chǎn)業(yè)分工,像數(shù)據(jù)的采集、標注,審核,甚至是數(shù)據(jù)的交易,都是有一些平臺型的機構出現(xiàn)的。在機器人領域,我認為這也是有機會的。
提問:未來機器人的必爭之地是AI,路線和發(fā)展趨勢是怎樣的?
姚卯青:我覺得算法目前不能說已經(jīng)完全走向收斂,還是在百花齊放的狀態(tài)。但是在這個發(fā)展過程中,我們也看到了一些挑戰(zhàn),比如說偏科的公司比較多,有一些特別擅長算法的,包括像國外的一些公司,沒有很好的機器人硬件,也沒有大規(guī)模的機器人本體,這其實是會嚴重限制他們對算法的整個研發(fā)驗證。反過來也有大量的機械本體公司在AI上的投入是比較受限的。
所以我們希望能夠看到更多的像智元這樣的,能夠完整地從硬件、數(shù)據(jù)、算法端到端,具備研發(fā)能力的公司、玩家來涌現(xiàn)。
提問:您認為大概什么時候可以進入家庭場景?
姚卯青:我們判斷的話需要比較長一點的時間,五年左右能夠走入家庭,去實際創(chuàng)造一些價值。
提問:之前宇樹的9.9萬以下的機器人其實在行業(yè)還是引起了比較大的爭議,您也曾經(jīng)說過卷9.9萬的價格是沒有意義的,這次大模型發(fā)布之后,對機器人在終端售價上是否會有影響?
姚卯青:定價9.9萬元的機器人,確實在市場上受到了很大的關注。但是行業(yè)的從業(yè)人員也知道,現(xiàn)在質(zhì)量好的零部件是怎樣的一個成本,如果特別低的價格,那是可以想象用的是什么料的。同時,硬件的基礎也決定了機器人能力的上限。在這個階段的話,我們還是堅定地認為需要以價值為導向,真正能夠讓機器人的硬件軟件協(xié)同做協(xié)同配合產(chǎn)生一個好的效果,才是給用戶的價值,而不是說買一個大號的電動玩具,長期來講是不具備很好的商業(yè)價值的。
提問:智元今年的商業(yè)計劃是怎樣的?
姚卯青:今年我們的商業(yè)化目標是在營收層面,比去年的營收會有一個數(shù)倍的增長。在出貨量上面,應該會達到數(shù)千臺的規(guī)模。
提問:智元成立了兩三年,如何與成立八九年甚至十年左右的公司競爭?優(yōu)勢是什么?
姚卯青:我個人覺得成立時間較短的公司有比較大的優(yōu)勢。因為整個人形機器人產(chǎn)業(yè)從技術上來講是一個比較新的行業(yè)。我們也看到,今天大模型成功的公司,他們的整個組織人才方向是非常年輕化的。
在經(jīng)營方向或者技術規(guī)劃方面,我們要去所謂的unlearned去學習,如果有太多的歷史包袱,就很難很暴力地做一些戰(zhàn)略上的調(diào)整,同時發(fā)展到一定程度的公司從資本的層面、經(jīng)營層面都會去變得相對的更加保守,更加務實一些。
智元作為一家只有剛剛滿兩年的公司,我們平均的研發(fā)現(xiàn)在是30歲以下的,無論是出貨量還是營收,也是一個非??焖俚倪^程。
相信今年我們有比較大的機會,可以在經(jīng)營上做到國內(nèi)的頭部,就是真正的龍頭企業(yè)。我們用兩年時間走完了別人可能八年九年沒有走完的路,而且是在一個快速上升的趨勢中。