- NAR團(tuán)隊 投稿
量子位 | 公眾號 QbitAI
在圖像/視頻生成任務(wù)中,傳統(tǒng)的“下一個token預(yù)測”方法正面臨嚴(yán)重的效率瓶頸。
怎么辦?
來自浙大、上海AI Lab等機(jī)構(gòu)的研究人員提出了一種全新的視覺生成范式——鄰近自回歸建模(Neighboring Autoregressive Modeling, NAR)。與傳統(tǒng)的“下一個token預(yù)測”不同,NAR模型采用了“下一個鄰域預(yù)測”的機(jī)制,將視覺生成過程視為一種逐步擴(kuò)展的“外繪”過程。
具體來說,NAR模型從初始token開始,按照與初始token的曼哈頓距離從小到大依次生成token。這種生成順序不僅保留了視覺內(nèi)容的空間和時間局部性,還允許模型在生成過程中并行預(yù)測多個相鄰的token。
為了實(shí)現(xiàn)這一點(diǎn),研究人員引入了維度導(dǎo)向的解碼頭,每個頭負(fù)責(zé)在空間或時間的一個正交維度上預(yù)測下一個token。
通過這種方式,NAR模型能夠在每一步中并行生成多個token,從而大幅減少了生成所需的模型前向計算步驟。
下面具體來看。
從“下一個token”到“下一個鄰域”
在當(dāng)今的AI領(lǐng)域,視覺生成任務(wù)(如圖像和視頻生成)正變得越來越重要。無論是生成逼真的圖像,還是創(chuàng)造連貫的視頻,AI模型的表現(xiàn)都在不斷提升。
然而,現(xiàn)有的視覺生成模型,尤其是基于自回歸(Autoregressive, AR)的模型,面臨著嚴(yán)重的效率瓶頸
傳統(tǒng)的自回歸模型通常采用“下一個token預(yù)測”的范式,即按照光柵順序逐個生成圖像或視頻的token。這種方法雖然簡單直觀,但在生成高分辨率圖像或長視頻時,模型需要進(jìn)行數(shù)千次甚至數(shù)萬次的前向計算,導(dǎo)致生成速度極其緩慢。
更糟糕的是,現(xiàn)有的加速方法往往以犧牲生成質(zhì)量為代價。
例如,一些方法嘗試通過并行生成多個token來提高效率,但由于鄰近圖像token之間的強(qiáng)相關(guān)性以及上下文信息的缺失,這種方法容易導(dǎo)致生成質(zhì)量下降。
因此,如何在保持高質(zhì)量生成的同時,大幅提升生成效率,成為了視覺生成領(lǐng)域的一個關(guān)鍵挑戰(zhàn)
為了解決上述問題,研究人員提出了鄰近自回歸建模(NAR)。
正如一開頭提到的,通過引入維度導(dǎo)向的解碼頭,使每個頭負(fù)責(zé)在空間或時間的一個正交維度上預(yù)測下一個token,最終讓NAR模型能夠在每一步中并行生成多個token,從而大幅減少了生成所需的模型前向計算步驟。
值得一提的是,維度導(dǎo)向的解碼頭設(shè)計非常靈活,能夠輕松擴(kuò)展到更高維的視覺內(nèi)容生成
例如,在視頻生成任務(wù)中,視頻可以被視為三維數(shù)據(jù)(時間、行、列),NAR模型只需增加一個時間維度的解碼頭,即可在時間、行、列三個正交維度上并行生成token。
對于由 t×n×n 個token表示的視頻,NAR模型僅需 2n+t?2 步即可完成生成過程,遠(yuǎn)遠(yuǎn)少于傳統(tǒng)“下一個token預(yù)測”模型所需的 tn2步。
這一顯著的效率提升使得NAR模型在處理高分辨率視頻生成任務(wù)時具有極大的優(yōu)勢。
13.8倍吞吐提升
研究人員在多個視覺生成任務(wù)上對NAR模型進(jìn)行了全面評估,實(shí)驗(yàn)結(jié)果令人振奮:
1、類別圖像生成
在ImageNet 256×256數(shù)據(jù)集上,擁有372M參數(shù)的NAR-L取得了比擁有1.4B參數(shù)的LlamaGen-XXL更低的FID(3.06 vs. 3.09),同時將生成步數(shù)減少了87.8%并帶來了13.8倍的吞吐提升(195.4 images/s vs. 14.1 images/s)。
與VAR-d16模型相比,NAR-M取得了更低的FID的同時(3.27 vs. 3.30),能帶來92%的吞吐提升(248.5 images/s vs. 129.3 images/s)。
這說明與現(xiàn)有的自回歸生成方法相比,NAR模型在生成效率和質(zhì)量上均取得了顯著提升。
2、類別視頻生成
在UCF-101數(shù)據(jù)集上,NAR模型相比基于“下一個詞預(yù)測”(next-token prediction)的自回歸模型在生成步驟上減少了97.3%。
相比并行解碼方法PAR,NAR在FVD更低的同時將吞吐提升了8.6倍。
這得益于NAR模型在時間維度上的并行生成能力,確保了視頻幀之間的連貫性和高質(zhì)量生成。
3、文本到圖像生成
在GenEval基準(zhǔn)測試中,NAR模型僅使用了0.4%的訓(xùn)練數(shù)據(jù)(6M)便獲得了和Stable Diffusion v1.5相持平的綜合得分。
與參數(shù)量更大且擁有1.4B訓(xùn)練數(shù)據(jù)的Chameleon-7B模型相比,NAR的綜合得分更高(0.43 vs. 0.39)且將吞吐率提高了166倍。
這些實(shí)驗(yàn)結(jié)果不僅證明了NAR模型在生成效率上的巨大優(yōu)勢,還展示了其在生成質(zhì)量上的卓越表現(xiàn)。
概括而言,NAR模型為視覺生成任務(wù)提供了一種高效且高質(zhì)量的解決方案,有望在未來的AI應(yīng)用中發(fā)揮重要作用。
更多細(xì)節(jié)歡迎查閱原論文。
論文地址:
https://www.arxiv.org/abs/2503.10696
項目主頁:
https://yuanyu0.github.io/nar/
代碼地址:
https://github.com/ThisisBillhe/NAR
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.