前華為天才少年稚暉君的公司智元?jiǎng)倓偘l(fā)布了首個(gè)通用具身基座模型,名叫 啟元大模型Genie Operator-1,簡(jiǎn)稱GO-1
GO-1 背后,是智元提出的全新Vision-Language-Latent-Action (ViLLA)架構(gòu)。 簡(jiǎn)單來(lái)說(shuō),就是把之前的 VLA 架構(gòu)給進(jìn)化了,多了一個(gè) “L” – Latent(隱式),可以利用人類視頻學(xué)習(xí),完成小樣本快速泛化
而且稚暉君還透露明天還有驚喜
下面給大家劃個(gè)重點(diǎn)
ViLLA架構(gòu)
我們都知道,具身智能的關(guān)鍵在于讓機(jī)器人像人一樣感知環(huán)境、理解指令、并做出行動(dòng)。 之前的 VLA 架構(gòu)雖然能讓機(jī)器人 “看到” 和 “聽(tīng)懂”,但在真正執(zhí)行復(fù)雜動(dòng)作時(shí),中間總感覺(jué)隔著一層。 而 ViLLA 的創(chuàng)新之處,就在于它引入了“隱式動(dòng)作標(biāo)記 (Latent Action Tokens)”這個(gè)概念,巧妙地彌合了 “感知-理解” 到 “執(zhí)行” 之間的鴻溝
ViLLA 架構(gòu)的核心構(gòu)成是 VLM (多模態(tài)大模型) + MoE (混合專家模型)。 這倆組合拳打出來(lái),效果杠杠的:
?VLM (多模態(tài)大模型):就像機(jī)器人的 “通用大腦”,用海量互聯(lián)網(wǎng)圖文數(shù)據(jù)訓(xùn)練,負(fù)責(zé)場(chǎng)景感知和語(yǔ)言理解。 智元這次直接用了 InternVL-2B,實(shí)力可見(jiàn)一斑。
?MoE (混合專家模型):MoE 內(nèi)部又分為兩組專家:
?Latent Planner (隱式規(guī)劃器):它利用大量的跨本體和人類操作視頻數(shù)據(jù),學(xué)習(xí)通用的動(dòng)作理解和規(guī)劃能力。 可以理解為機(jī)器人的 “策略中樞”,知道在不同情況下應(yīng)該怎么做。
?Action Expert (動(dòng)作專家):專注于精細(xì)的動(dòng)作執(zhí)行,背后是百萬(wàn)真機(jī)數(shù)據(jù)的喂養(yǎng)。 相當(dāng)于機(jī)器人的 “精細(xì)操作手”,確保動(dòng)作的精準(zhǔn)和流暢。
三者協(xié)同工作,環(huán)環(huán)相扣:VLM 負(fù)責(zé) “看懂”,Latent Planner 負(fù)責(zé) “想明白怎么做”,Action Expert 負(fù)責(zé) “精準(zhǔn)執(zhí)行”。 這套組合拳打下來(lái),機(jī)器人就能像模像樣地完成各種復(fù)雜任務(wù)了。
隱式規(guī)劃器 (Latent Planner) 是 ViLLA 的精髓
為什么說(shuō) ViLLA 架構(gòu)中的 Latent Planner 是點(diǎn)睛之筆? 因?yàn)楦哔|(zhì)量的機(jī)器人真機(jī)數(shù)據(jù)雖然重要,但數(shù)量始終有限,遠(yuǎn)不如互聯(lián)網(wǎng)數(shù)據(jù)那樣海量。 智元很聰明地采用了“隱式動(dòng)作 (Latent Actions)”的方法,讓模型能夠從海量的異構(gòu)數(shù)據(jù)源 (包括人類操作視頻) 中學(xué)習(xí)真實(shí)世界的動(dòng)作知識(shí),并遷移到機(jī)器人操作任務(wù)中。
為了實(shí)現(xiàn)這一點(diǎn),智元還專門(mén)設(shè)計(jì)了Latent Action Model (LAM,隱式動(dòng)作模型)。 LAM 通過(guò)編碼器-解碼器結(jié)構(gòu),學(xué)習(xí)當(dāng)前幀和歷史幀之間的隱式變化,并用Latent Planner預(yù)測(cè)這些隱式動(dòng)作。 這種方法巧妙地解決了數(shù)據(jù)量不足的問(wèn)題,讓模型能夠 “站在巨人的肩膀上” 學(xué)習(xí)。
Action Expert 保證動(dòng)作的靈巧性
除了 Latent Planner,ViLLA 架構(gòu)的另一個(gè)亮點(diǎn)是Action Expert (動(dòng)作專家)。 為了讓機(jī)器人能夠高頻率、高靈巧度地操控,智元引入了 Action Expert,并采用Diffusion Model (擴(kuò)散模型)作為目標(biāo)函數(shù),來(lái)建模低層級(jí)動(dòng)作的連續(xù)分布。 Action Expert 與 Latent Planner 結(jié)構(gòu)類似,也與 VLM 主干網(wǎng)絡(luò)共享 Transformer 結(jié)構(gòu),但使用獨(dú)立的 FFN 和 Q/K/V/O 投影矩陣。 它通過(guò)Denoising Process (去噪過(guò)程)逐步回歸動(dòng)作序列,保證動(dòng)作的精細(xì)和流暢。
實(shí)驗(yàn)效果驚艷:成功率大幅提升
ViLLA 架構(gòu)的效果如何? 實(shí)驗(yàn)數(shù)據(jù)說(shuō)話! 智元在五種不同復(fù)雜度的任務(wù)上測(cè)試 GO-1,結(jié)果顯示,相比已有的最優(yōu)模型,GO-1 的平均成功率提高了 32% (46% -> 78%)! 尤其在 “倒水”、“清理桌面” 和 “補(bǔ)充飲料” 等任務(wù)上,表現(xiàn)尤為突出。 更值得一提的是,單獨(dú)驗(yàn)證 Latent Planner 的作用時(shí),發(fā)現(xiàn)增加 Latent Planner 可以提升 12% 的成功率 (66% -> 78%)。 這充分證明了 ViLLA 架構(gòu)和 Latent Planner 的有效性
GO-1 的發(fā)布,不僅僅是一個(gè)模型,更是具身智能發(fā)展的一個(gè)新里程碑。 它展現(xiàn)了四大關(guān)鍵特點(diǎn):
1.人類視頻學(xué)習(xí):GO-1 可以學(xué)習(xí)互聯(lián)網(wǎng)視頻和人類示范,更好地理解人類行為,從而更好地為人類服務(wù)
2.小樣本快速泛化:強(qiáng)大的泛化能力讓 GO-1 能夠在極少數(shù)據(jù)甚至零樣本下泛化到新場(chǎng)景、新任務(wù),大大降低了具身智能的使用門(mén)檻
3.一腦多形:GO-1 是通用機(jī)器人策略模型,可以在不同機(jī)器人形態(tài)之間遷移,快速適配不同本體,實(shí)現(xiàn)群體升智
4.持續(xù)進(jìn)化:搭配智元的數(shù)據(jù)回流系統(tǒng),GO-1 可以在實(shí)際使用中不斷學(xué)習(xí)進(jìn)化,越用越聰明
參考:
paper:
https://agibot-world.com/blog/agibot_go1.pdf
https://www.bilibili.com/opus/1042547317663596551?spm_id_from=333.1387.0.0
?星標(biāo)AI寒武紀(jì),好內(nèi)容不錯(cuò)過(guò)?
用你的贊和在看告訴我~
求贊
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.