FAST:專為動作設(shè)計的 tokenizerπ0-FAST:第一個自回歸通用策略
具身智能,是人工智能(AI)行業(yè)的下一個浪潮。如何有效訓(xùn)練 Transformers 模型來控制具身機器人,是當前亟需要解決的難題,尤其是對于更復(fù)雜、需要精確和高頻控制的精巧技能,現(xiàn)有的視覺-語言-動作(VLA)模型幾乎失效。盡管擴散或流匹配通常表現(xiàn)得更好,但擴散需要更長的訓(xùn)練時間。
那么,如何在保持靈巧性和精確性的同時,快速訓(xùn)練 Transformers 進行機器人控制呢?使用一個好的 tokenizer 對有效的大規(guī)模訓(xùn)練至關(guān)重要。
今天,具身智能初創(chuàng)公司 Physical Intelligence 推出了一種專門為動作設(shè)計的新 tokenizer——FAST。
據(jù)介紹,F(xiàn)AST 的靈感來自于 JPEG 圖像的連續(xù)壓縮方法,它能夠處理標準分箱離散化無法應(yīng)對的高頻精巧任務(wù),并達到與流匹配或擴散相似的靈巧程度,同時訓(xùn)練速度提高5 倍。通過像處理語言一樣用離散 token 表示動作,F(xiàn)AST 提高了從互聯(lián)網(wǎng)規(guī)模預(yù)訓(xùn)練的遷移能力,并改善了語言指令跟隨。通過自然語言命令的提示,他們首次在 DROID 數(shù)據(jù)集上訓(xùn)練出能夠在全新環(huán)境中執(zhí)行一系列操作任務(wù)的策略。
為了促進更強大機器人基礎(chǔ)模型的研究,他們發(fā)布了一個在 100 萬個真實機器人動作序列上訓(xùn)練過的 FAST tokenizer 的通用變體。
通過 FAST,他們開發(fā)了一種高效的機器人動作 tokenization 方法,從而能夠無縫連接機器人技術(shù)與自回歸 Transformer 訓(xùn)練管道。
圖|FAST 是一個動作 tokenizer,能夠通過簡單的下一個 token 預(yù)測,在高度精巧的任務(wù)上訓(xùn)練通用策略。
實驗表明,這種自回歸策略使人們能夠使用簡單的方法解決一些迄今為止最具挑戰(zhàn)性的機器人任務(wù),同時訓(xùn)練速度遠快于現(xiàn)有模型。與此同時,F(xiàn)AST 展示了對當前通用策略訓(xùn)練管道進行小幅改動如何對訓(xùn)練效率和性能產(chǎn)生重大影響,這表明可能還有許多其他改動可以改善策略訓(xùn)練。
Physical Intelligence 團隊表示,他們將發(fā)布在 100 萬個真實機器人動作序列上訓(xùn)練過的 FAST tokenizer 版本。這樣,任何人都可以使用 FAST 訓(xùn)練策略,只需三行代碼,就可以把動作 token 化:
有關(guān) tokenizer 的更多信息以及如何在自己的數(shù)據(jù)上訓(xùn)練 FAST tokenizer,詳見 https://huggingface.co/KarlP/fast。
FAST 通過在訓(xùn)練前對原始動作塊進行壓縮,改進了簡單的分箱方法。它可以顯著提高在精巧機器人數(shù)據(jù)上進行策略訓(xùn)練和推理的效率。具體來說,該 tokenization 方法依賴于離散余弦變換(DCT),后者是一種常用于信號壓縮的技術(shù),比如 JPEG 或 MP3 編解碼器。Physical Intelligence 團隊將 DCT 與字節(jié)對編碼(BPE)相結(jié)合,后者是一種常用于訓(xùn)練大語言模型(LLM)的壓縮算法。兩者結(jié)合后,原始動作塊被壓縮成少量密度的動作 token,通常每個塊包含 30 到 60 個 token,比之前的動作 tokenization 方法壓縮了 10 倍。
圖|FAST tokenizer 使用離散余弦變換(DCT)對動作序列進行壓縮,生成了一個密集的壓縮動作 token 序列。
此外,Physical Intelligence 團隊還將 FAST 與 π0 模型結(jié)合,進行了測試。
測試結(jié)果顯示,與之前局限于簡單操作任務(wù)的離散化 VLA 模型不同,F(xiàn)AST 支持在高精巧任務(wù)上訓(xùn)練自回歸 Transformer 策略,例如折疊衣物、清理桌子和打包購物袋。與此同時,F(xiàn)AST 訓(xùn)練的速度比之前的模型快多達 5 倍。下方視頻展示了通過 FAST 策略可以解決的一些任務(wù)。
此外,他們利用 FAST 在最近發(fā)布的 DROID 數(shù)據(jù)集上訓(xùn)練出了第一個通用策略,其能夠在新環(huán)境中將其泛化到各種指令。DROID 是一個包含各種機器人操縱任務(wù)的開源數(shù)據(jù)集,由來自世界各地的機器人研究人員歷時兩年收集而成。該數(shù)據(jù)集包含從大學(xué)建筑到真實家庭的各種場景和任務(wù),但迄今為止,還沒有一種方法能夠在完整數(shù)據(jù)集上訓(xùn)練出通用策略,使其能夠在新環(huán)境中零樣本執(zhí)行語言指令。
與加州大學(xué)伯克利分校、斯坦福大學(xué)和華盛頓大學(xué)合作進行的測試結(jié)果顯示,該策略能夠在所有測試的環(huán)境中直接執(zhí)行簡單的操作任務(wù)。如下方視頻所示:
即使策略在某項任務(wù)上失敗了,它通常也會做出直觀的嘗試來解決問題(見下方視頻)。這為展現(xiàn)了一個未來的可能性——在未來,可以像使用語言模型一樣,直接下載并使用通用機器人策略。
他們還使用 FAST tokenizer 訓(xùn)練了π0-FAST,這是他們的第一個自回歸通用策略。
π0-FAST 建立在 π0 模型基礎(chǔ)上,并使用相同的模型骨干和訓(xùn)練數(shù)據(jù)集。π0-FAST 能夠解決與標準基于擴散的 π0 模型相同的復(fù)雜和精巧任務(wù),但由于使用了簡單的自回歸離散化方法,它的訓(xùn)練速度快了 5 倍。在對比實驗中,標準離散化方法無法解決實驗中的任何精巧任務(wù)。
圖|使用 FAST 進行訓(xùn)練非常高效。通用策略 π0-FAST 的訓(xùn)練速度比原始的 π0 模型快 5 倍,并取得了相似的性能。
當然,他們的模型也并非完美。他們表示,當前模型的一個顯著缺點是推理速度較慢:π0-FAST 的自回歸解碼明顯慢于 π0 中使用的流匹配解碼方法。雖然加速自回歸 VLA 的推理仍是一個有待解決的問題,但在其他領(lǐng)域(如語言建模)中,關(guān)于自回歸 Transformer 模型快速推理的研究已有豐富的成果,這些研究可以為 VLA 的解決方案提供啟示。
https://www.pi.website/research/fast#scaling-up
編譯:陳小宇 審核:學(xué)術(shù)君
如需轉(zhuǎn)載或投稿,請直接在公眾號內(nèi)留言
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.