來源: Paper Agent
微軟在AI Agent上又有了新動(dòng)作了,開源了Magma:多模態(tài)AI Agent的基礎(chǔ)模型
數(shù)字世界和物理世界: Magma 是第一個(gè)多模式 AI Agent的基礎(chǔ)模型,旨在處理虛擬和現(xiàn)實(shí)環(huán)境中的復(fù)雜交互!
多功能功能: Magma作為單一模型不僅具有通用的圖像和視頻理解能力,而且還能生成目標(biāo)驅(qū)動(dòng)的視覺計(jì)劃和動(dòng)作,使其能夠靈活地完成不同的代理任務(wù)!
最先進(jìn)的性能: Magma 在各種多模式任務(wù)上實(shí)現(xiàn)了最先進(jìn)的性能,包括 UI 導(dǎo)航、機(jī)器人操作以及通用圖像和視頻理解,特別是空間理解和推理!
可擴(kuò)展的預(yù)訓(xùn)練策略: Magma 除了現(xiàn)有的代理數(shù)據(jù)之外,還被設(shè)計(jì)為從野外未標(biāo)記的視頻中進(jìn)行可擴(kuò)展地學(xué)習(xí),從而具有很強(qiáng)的泛化能力,適合現(xiàn)實(shí)世界的應(yīng)用!
Magma 是多模態(tài) AI Agent的基礎(chǔ)模型。作為多模態(tài)Agent模型的基石,它應(yīng)該具備強(qiáng)大的能力來感知多模態(tài)基礎(chǔ)世界并精確地采取目標(biāo)驅(qū)動(dòng)的行動(dòng)。
語(yǔ)言和時(shí)空智能: Magma應(yīng)該具有強(qiáng)大的語(yǔ)言和時(shí)空智能,以理解圖像和視頻,根據(jù)觀察采取行動(dòng),并進(jìn)一步將外部目標(biāo)轉(zhuǎn)化為行動(dòng)計(jì)劃和執(zhí)行。
數(shù)字和物理世界: Magma 不應(yīng)局限于數(shù)字世界(例如,網(wǎng)絡(luò)導(dǎo)航)或物理世界(例如,機(jī)器人操縱),而是能夠跨兩個(gè)世界工作,就像人類一樣。
考慮到這一點(diǎn),微軟開發(fā)了一種新的預(yù)訓(xùn)練數(shù)據(jù),其主要由野外未標(biāo)記的視頻加上現(xiàn)有的帶注釋的Agent數(shù)據(jù)組成,以及一個(gè)新的預(yù)訓(xùn)練框架,它將所有三種模態(tài)(文本、圖像和動(dòng)作)的訓(xùn)練統(tǒng)一起來,以訓(xùn)練一個(gè)名為 Magma 的多模態(tài) AI Agent的新基礎(chǔ)模型。
大規(guī)模異構(gòu)訓(xùn)練數(shù)據(jù):在野外整理了大量數(shù)據(jù),包括現(xiàn)有的多模態(tài)理解數(shù)據(jù)、UI 導(dǎo)航數(shù)據(jù)、機(jī)器人操作數(shù)據(jù)以及野外未標(biāo)記的視頻。還提出了一種新的數(shù)據(jù)收集管道來收集野外未標(biāo)記的視頻,這種管道可擴(kuò)展且經(jīng)濟(jì)高效。為了從原始視頻和機(jī)器人軌跡中獲得有用的動(dòng)作監(jiān)督,精心去除了視頻中的攝像機(jī)運(yùn)動(dòng),然后將運(yùn)動(dòng)轉(zhuǎn)換為“動(dòng)作”監(jiān)督以供我們的模型訓(xùn)練。這些為模型提供了獨(dú)特的信號(hào),以學(xué)習(xí)跨模態(tài)連接和長(zhǎng)期動(dòng)作預(yù)測(cè)和規(guī)劃。
通用預(yù)訓(xùn)練目標(biāo):文本和動(dòng)作本質(zhì)上是不同的,因此會(huì)造成巨大的差距,而視覺標(biāo)記是連續(xù)的。提出了一個(gè)通用的預(yù)訓(xùn)練框架,將這三種模態(tài)的訓(xùn)練統(tǒng)一起來,并表明這對(duì)于模型學(xué)習(xí)跨模態(tài)連接至關(guān)重要。更具體地說,提出了 Set-of-Mark 和 Trace-of-Mark 作為模型預(yù)訓(xùn)練的輔助任務(wù),作為不同輸出模態(tài)之間的橋梁。通過這種方式,在文本和動(dòng)作模態(tài)之間以及圖像和動(dòng)作模態(tài)之間建立了良好的一致性。
https://github.com/microsoft/Magma
https://huggingface.co/microsoft/Magma-8B
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.