網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

稚暉君再放大招！智元機(jī)器人發(fā)布首個(gè)通用具身基座模型：實(shí)現(xiàn)不同形態(tài)機(jī)器人絲滑遷移，具身智能門(mén)檻狂降

2025-03-10 15:26:42　來(lái)源: AI寒武紀(jì)

江蘇舉報(bào)

分享至

前華為天才少年稚暉君的公司智元?jiǎng)倓偘l(fā)布了首個(gè)通用具身基座模型，名叫啟元大模型Genie Operator-1，簡(jiǎn)稱GO-1

GO-1 背后，是智元提出的全新Vision-Language-Latent-Action (ViLLA)架構(gòu)。簡(jiǎn)單來(lái)說(shuō)，就是把之前的 VLA 架構(gòu)給進(jìn)化了，多了一個(gè) “L” – Latent（隱式），可以利用人類視頻學(xué)習(xí)，完成小樣本快速泛化

而且稚暉君還透露明天還有驚喜

下面給大家劃個(gè)重點(diǎn)

ViLLA架構(gòu)

我們都知道，具身智能的關(guān)鍵在于讓機(jī)器人像人一樣感知環(huán)境、理解指令、并做出行動(dòng)。之前的 VLA 架構(gòu)雖然能讓機(jī)器人 “看到” 和 “聽(tīng)懂”，但在真正執(zhí)行復(fù)雜動(dòng)作時(shí)，中間總感覺(jué)隔著一層。而 ViLLA 的創(chuàng)新之處，就在于它引入了“隱式動(dòng)作標(biāo)記 (Latent Action Tokens)”這個(gè)概念，巧妙地彌合了 “感知-理解” 到 “執(zhí)行” 之間的鴻溝

ViLLA 架構(gòu)的核心構(gòu)成是 VLM (多模態(tài)大模型) + MoE (混合專家模型)。這倆組合拳打出來(lái)，效果杠杠的：

?VLM (多模態(tài)大模型):就像機(jī)器人的 “通用大腦”，用海量互聯(lián)網(wǎng)圖文數(shù)據(jù)訓(xùn)練，負(fù)責(zé)場(chǎng)景感知和語(yǔ)言理解。智元這次直接用了 InternVL-2B，實(shí)力可見(jiàn)一斑。
?MoE (混合專家模型):MoE 內(nèi)部又分為兩組專家：
- ?Latent Planner (隱式規(guī)劃器):它利用大量的跨本體和人類操作視頻數(shù)據(jù)，學(xué)習(xí)通用的動(dòng)作理解和規(guī)劃能力。可以理解為機(jī)器人的 “策略中樞”，知道在不同情況下應(yīng)該怎么做。
- ?Action Expert (動(dòng)作專家):專注于精細(xì)的動(dòng)作執(zhí)行，背后是百萬(wàn)真機(jī)數(shù)據(jù)的喂養(yǎng)。相當(dāng)于機(jī)器人的 “精細(xì)操作手”，確保動(dòng)作的精準(zhǔn)和流暢。

三者協(xié)同工作，環(huán)環(huán)相扣：VLM 負(fù)責(zé) “看懂”，Latent Planner 負(fù)責(zé) “想明白怎么做”，Action Expert 負(fù)責(zé) “精準(zhǔn)執(zhí)行”。這套組合拳打下來(lái)，機(jī)器人就能像模像樣地完成各種復(fù)雜任務(wù)了。

隱式規(guī)劃器 (Latent Planner) 是 ViLLA 的精髓

為什么說(shuō) ViLLA 架構(gòu)中的 Latent Planner 是點(diǎn)睛之筆？因?yàn)楦哔|(zhì)量的機(jī)器人真機(jī)數(shù)據(jù)雖然重要，但數(shù)量始終有限，遠(yuǎn)不如互聯(lián)網(wǎng)數(shù)據(jù)那樣海量。智元很聰明地采用了“隱式動(dòng)作 (Latent Actions)”的方法，讓模型能夠從海量的異構(gòu)數(shù)據(jù)源 (包括人類操作視頻) 中學(xué)習(xí)真實(shí)世界的動(dòng)作知識(shí)，并遷移到機(jī)器人操作任務(wù)中。

為了實(shí)現(xiàn)這一點(diǎn)，智元還專門(mén)設(shè)計(jì)了Latent Action Model (LAM，隱式動(dòng)作模型)。 LAM 通過(guò)編碼器-解碼器結(jié)構(gòu)，學(xué)習(xí)當(dāng)前幀和歷史幀之間的隱式變化，并用Latent Planner預(yù)測(cè)這些隱式動(dòng)作。這種方法巧妙地解決了數(shù)據(jù)量不足的問(wèn)題，讓模型能夠 “站在巨人的肩膀上” 學(xué)習(xí)。

Action Expert 保證動(dòng)作的靈巧性

除了 Latent Planner，ViLLA 架構(gòu)的另一個(gè)亮點(diǎn)是Action Expert (動(dòng)作專家)。為了讓機(jī)器人能夠高頻率、高靈巧度地操控，智元引入了 Action Expert，并采用Diffusion Model (擴(kuò)散模型)作為目標(biāo)函數(shù)，來(lái)建模低層級(jí)動(dòng)作的連續(xù)分布。 Action Expert 與 Latent Planner 結(jié)構(gòu)類似，也與 VLM 主干網(wǎng)絡(luò)共享 Transformer 結(jié)構(gòu)，但使用獨(dú)立的 FFN 和 Q/K/V/O 投影矩陣。它通過(guò)Denoising Process (去噪過(guò)程)逐步回歸動(dòng)作序列，保證動(dòng)作的精細(xì)和流暢。

實(shí)驗(yàn)效果驚艷：成功率大幅提升

ViLLA 架構(gòu)的效果如何？實(shí)驗(yàn)數(shù)據(jù)說(shuō)話！智元在五種不同復(fù)雜度的任務(wù)上測(cè)試 GO-1，結(jié)果顯示，相比已有的最優(yōu)模型，GO-1 的平均成功率提高了 32% (46% -> 78%)！尤其在 “倒水”、“清理桌面” 和 “補(bǔ)充飲料” 等任務(wù)上，表現(xiàn)尤為突出。更值得一提的是，單獨(dú)驗(yàn)證 Latent Planner 的作用時(shí)，發(fā)現(xiàn)增加 Latent Planner 可以提升 12% 的成功率 (66% -> 78%)。這充分證明了 ViLLA 架構(gòu)和 Latent Planner 的有效性

GO-1 的發(fā)布，不僅僅是一個(gè)模型，更是具身智能發(fā)展的一個(gè)新里程碑。它展現(xiàn)了四大關(guān)鍵特點(diǎn)：

1.人類視頻學(xué)習(xí):GO-1 可以學(xué)習(xí)互聯(lián)網(wǎng)視頻和人類示范，更好地理解人類行為，從而更好地為人類服務(wù)
2.小樣本快速泛化:強(qiáng)大的泛化能力讓 GO-1 能夠在極少數(shù)據(jù)甚至零樣本下泛化到新場(chǎng)景、新任務(wù)，大大降低了具身智能的使用門(mén)檻
3.一腦多形:GO-1 是通用機(jī)器人策略模型，可以在不同機(jī)器人形態(tài)之間遷移，快速適配不同本體，實(shí)現(xiàn)群體升智
4.持續(xù)進(jìn)化:搭配智元的數(shù)據(jù)回流系統(tǒng)，GO-1 可以在實(shí)際使用中不斷學(xué)習(xí)進(jìn)化，越用越聰明

參考：

paper:

https://agibot-world.com/blog/agibot_go1.pdf

https://www.bilibili.com/opus/1042547317663596551?spm_id_from=333.1387.0.0

?星標(biāo)AI寒武紀(jì)，好內(nèi)容不錯(cuò)過(guò)?

用你的贊和在看告訴我～

求贊

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.