99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

13.8倍吞吐提升!浙大上海AI Lab等提出視覺生成新范式

0
分享至

  • NAR團(tuán)隊 投稿
    量子位 | 公眾號 QbitAI

在圖像/視頻生成任務(wù)中,傳統(tǒng)的“下一個token預(yù)測”方法正面臨嚴(yán)重的效率瓶頸。

怎么辦?

來自浙大、上海AI Lab等機(jī)構(gòu)的研究人員提出了一種全新的視覺生成范式——鄰近自回歸建模(Neighboring Autoregressive Modeling, NAR)。與傳統(tǒng)的“下一個token預(yù)測”不同,NAR模型采用了“下一個鄰域預(yù)測”的機(jī)制,將視覺生成過程視為一種逐步擴(kuò)展的“外繪”過程。



具體來說,NAR模型從初始token開始,按照與初始token的曼哈頓距離從小到大依次生成token。這種生成順序不僅保留了視覺內(nèi)容的空間和時間局部性,還允許模型在生成過程中并行預(yù)測多個相鄰的token。

為了實(shí)現(xiàn)這一點(diǎn),研究人員引入了維度導(dǎo)向的解碼頭,每個頭負(fù)責(zé)在空間或時間的一個正交維度上預(yù)測下一個token。

通過這種方式,NAR模型能夠在每一步中并行生成多個token,從而大幅減少了生成所需的模型前向計算步驟。



下面具體來看。

從“下一個token”到“下一個鄰域”

在當(dāng)今的AI領(lǐng)域,視覺生成任務(wù)(如圖像和視頻生成)正變得越來越重要。無論是生成逼真的圖像,還是創(chuàng)造連貫的視頻,AI模型的表現(xiàn)都在不斷提升。



然而,現(xiàn)有的視覺生成模型,尤其是基于自回歸(Autoregressive, AR)的模型,面臨著嚴(yán)重的效率瓶頸

傳統(tǒng)的自回歸模型通常采用“下一個token預(yù)測”的范式,即按照光柵順序逐個生成圖像或視頻的token。這種方法雖然簡單直觀,但在生成高分辨率圖像或長視頻時,模型需要進(jìn)行數(shù)千次甚至數(shù)萬次的前向計算,導(dǎo)致生成速度極其緩慢。

更糟糕的是,現(xiàn)有的加速方法往往以犧牲生成質(zhì)量為代價。

例如,一些方法嘗試通過并行生成多個token來提高效率,但由于鄰近圖像token之間的強(qiáng)相關(guān)性以及上下文信息的缺失,這種方法容易導(dǎo)致生成質(zhì)量下降。

因此,如何在保持高質(zhì)量生成的同時,大幅提升生成效率,成為了視覺生成領(lǐng)域的一個關(guān)鍵挑戰(zhàn)



為了解決上述問題,研究人員提出了鄰近自回歸建模(NAR)。

正如一開頭提到的,通過引入維度導(dǎo)向的解碼頭,使每個頭負(fù)責(zé)在空間或時間的一個正交維度上預(yù)測下一個token,最終讓NAR模型能夠在每一步中并行生成多個token,從而大幅減少了生成所需的模型前向計算步驟。

值得一提的是,維度導(dǎo)向的解碼頭設(shè)計非常靈活,能夠輕松擴(kuò)展到更高維的視覺內(nèi)容生成

例如,在視頻生成任務(wù)中,視頻可以被視為三維數(shù)據(jù)(時間、行、列),NAR模型只需增加一個時間維度的解碼頭,即可在時間、行、列三個正交維度上并行生成token。

對于由 t×n×n 個token表示的視頻,NAR模型僅需 2n+t?2 步即可完成生成過程,遠(yuǎn)遠(yuǎn)少于傳統(tǒng)“下一個token預(yù)測”模型所需的 tn2步。

這一顯著的效率提升使得NAR模型在處理高分辨率視頻生成任務(wù)時具有極大的優(yōu)勢。



13.8倍吞吐提升

研究人員在多個視覺生成任務(wù)上對NAR模型進(jìn)行了全面評估,實(shí)驗(yàn)結(jié)果令人振奮:

1、類別圖像生成

在ImageNet 256×256數(shù)據(jù)集上,擁有372M參數(shù)的NAR-L取得了比擁有1.4B參數(shù)的LlamaGen-XXL更低的FID(3.06 vs. 3.09),同時將生成步數(shù)減少了87.8%并帶來了13.8倍的吞吐提升(195.4 images/s vs. 14.1 images/s)。

與VAR-d16模型相比,NAR-M取得了更低的FID的同時(3.27 vs. 3.30),能帶來92%的吞吐提升(248.5 images/s vs. 129.3 images/s)。

這說明與現(xiàn)有的自回歸生成方法相比,NAR模型在生成效率和質(zhì)量上均取得了顯著提升。

2、類別視頻生成

在UCF-101數(shù)據(jù)集上,NAR模型相比基于“下一個詞預(yù)測”(next-token prediction)的自回歸模型在生成步驟上減少了97.3%。

相比并行解碼方法PAR,NAR在FVD更低的同時將吞吐提升了8.6倍。

這得益于NAR模型在時間維度上的并行生成能力,確保了視頻幀之間的連貫性和高質(zhì)量生成。

3、文本到圖像生成

在GenEval基準(zhǔn)測試中,NAR模型僅使用了0.4%的訓(xùn)練數(shù)據(jù)(6M)便獲得了和Stable Diffusion v1.5相持平的綜合得分。

與參數(shù)量更大且擁有1.4B訓(xùn)練數(shù)據(jù)的Chameleon-7B模型相比,NAR的綜合得分更高(0.43 vs. 0.39)且將吞吐率提高了166倍。







這些實(shí)驗(yàn)結(jié)果不僅證明了NAR模型在生成效率上的巨大優(yōu)勢,還展示了其在生成質(zhì)量上的卓越表現(xiàn)。

概括而言,NAR模型為視覺生成任務(wù)提供了一種高效且高質(zhì)量的解決方案,有望在未來的AI應(yīng)用中發(fā)揮重要作用。

更多細(xì)節(jié)歡迎查閱原論文。

論文地址:
https://www.arxiv.org/abs/2503.10696
項目主頁:
https://yuanyu0.github.io/nar/
代碼地址:
https://github.com/ThisisBillhe/NAR

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
甲亢哥中國行八城直播效果外網(wǎng)評測權(quán)威排行榜出爐!

甲亢哥中國行八城直播效果外網(wǎng)評測權(quán)威排行榜出爐!

二月侃事
2025-04-12 08:39:47
網(wǎng)友:偷拍到導(dǎo)師電腦,人都要崩潰!可愛的小老頭還知道賄賂師母

網(wǎng)友:偷拍到導(dǎo)師電腦,人都要崩潰!可愛的小老頭還知道賄賂師母

火山詩話
2025-04-12 07:00:19
新史記:金融街第一射手姚維杰傳

新史記:金融街第一射手姚維杰傳

成都姑娘帶你看世界
2025-04-10 06:32:12
中方說完“提至125%,不予理會”后,川普已讀不回!關(guān)稅戰(zhàn)結(jié)束?

中方說完“提至125%,不予理會”后,川普已讀不回!關(guān)稅戰(zhàn)結(jié)束?

時尚界公主
2025-04-12 03:19:02
向佐化妝現(xiàn)身澳門倫敦人吃自助早餐,穿西裝臉白,女網(wǎng)友不敢合影

向佐化妝現(xiàn)身澳門倫敦人吃自助早餐,穿西裝臉白,女網(wǎng)友不敢合影

鄭丁嘉話
2025-04-12 09:09:38
賈玲最新近照曝光!網(wǎng)友震驚:這才是健康的身材,瘦身期太不真實(shí)

賈玲最新近照曝光!網(wǎng)友震驚:這才是健康的身材,瘦身期太不真實(shí)

近史博覽
2025-04-10 17:07:09
吃中國飯,砸中國鍋!央視出手全程打碼,這位700萬網(wǎng)紅徹底崩塌

吃中國飯,砸中國鍋!央視出手全程打碼,這位700萬網(wǎng)紅徹底崩塌

肆?xí)r說
2025-04-09 20:17:29
誰干的?雷迪克:賽后在更衣室慶祝時 全隊朝我倒了8桶冰水

誰干的?雷迪克:賽后在更衣室慶祝時 全隊朝我倒了8桶冰水

直播吧
2025-04-12 13:11:14
痛心!北京中醫(yī)院抗癌名醫(yī)關(guān)天瑜離世,死因曝光,發(fā)病僅一周

痛心!北京中醫(yī)院抗癌名醫(yī)關(guān)天瑜離世,死因曝光,發(fā)病僅一周

界史
2025-04-12 11:44:02
“狼見了都發(fā)抖”,東北虎女飼養(yǎng)員帶火動物園:打賞都給動物改善伙食

“狼見了都發(fā)抖”,東北虎女飼養(yǎng)員帶火動物園:打賞都給動物改善伙食

封面新聞
2025-04-11 22:45:12
最新!上海市委市政府決定:婁永琪履新

最新!上海市委市政府決定:婁永琪履新

上觀新聞
2025-04-11 22:38:17
美教育部長將“AI”稱為“A1” 美網(wǎng)友:這就是教育

美教育部長將“AI”稱為“A1” 美網(wǎng)友:這就是教育

看看新聞Knews
2025-04-11 16:11:09
勇士第82場贏球打湖人,輸球附加賽!庫里不如放水哈登,躲開詹皇

勇士第82場贏球打湖人,輸球附加賽!庫里不如放水哈登,躲開詹皇

嘴炮體壇
2025-04-12 13:48:18
美對華關(guān)稅升至145%!40船大豆將運(yùn)抵中國,特朗普吃癟,贏家出現(xiàn)

美對華關(guān)稅升至145%!40船大豆將運(yùn)抵中國,特朗普吃癟,贏家出現(xiàn)

梁訊
2025-04-11 11:04:22
庫里:下場對快船是關(guān)乎一切的比賽 就像季后賽搶七大戰(zhàn)

庫里:下場對快船是關(guān)乎一切的比賽 就像季后賽搶七大戰(zhàn)

直播吧
2025-04-12 13:32:09
網(wǎng)傳鄭州某輔導(dǎo)班通知正常上課!網(wǎng)友:想錢想瘋了,刮這么大風(fēng)?

網(wǎng)傳鄭州某輔導(dǎo)班通知正常上課!網(wǎng)友:想錢想瘋了,刮這么大風(fēng)?

火山詩話
2025-04-12 12:10:16
又投中7個三分!他這樣打下去,庫里的三分王懸了

又投中7個三分!他這樣打下去,庫里的三分王懸了

籃球大視野
2025-04-11 19:58:55
哈登23+11+10&失誤嚇人 小卡28+6 德羅贊失絕殺 快船取7連勝

哈登23+11+10&失誤嚇人 小卡28+6 德羅贊失絕殺 快船取7連勝

直播吧
2025-04-12 12:39:19
上海"金牌射手"事件反轉(zhuǎn)?曝男女主角"為刺激"約好的,官方發(fā)聲!

上海"金牌射手"事件反轉(zhuǎn)?曝男女主角"為刺激"約好的,官方發(fā)聲!

派大星紀(jì)錄片
2025-04-11 12:38:41
中方強(qiáng)硬到底!特朗普態(tài)度180度轉(zhuǎn)變:將與北京找到雙贏方案

中方強(qiáng)硬到底!特朗普態(tài)度180度轉(zhuǎn)變:將與北京找到雙贏方案

蘭妮搞笑分享
2025-04-12 09:11:13
2025-04-12 14:15:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
10303文章數(shù) 176094關(guān)注度
往期回顧 全部

科技要聞

單臺年入20萬!首批人形機(jī)器人致富者來了

頭條要聞

特朗普“出手”:把白宮奧巴馬肖像換成了自己的

頭條要聞

特朗普“出手”:把白宮奧巴馬肖像換成了自己的

體育要聞

當(dāng)意甲冠軍跌入意乙降級區(qū) 老男孩們坐不住了

娛樂要聞

25歲女歌手突然離世,和大S死因相似

財經(jīng)要聞

造假累計數(shù)百億 揭秘東旭集團(tuán)造假手法

汽車要聞

審美和深層次豪華 阿維塔06都辦到了

態(tài)度原創(chuàng)

房產(chǎn)
家居
旅游
數(shù)碼
手機(jī)

房產(chǎn)要聞

信號!社保、個稅都不用了!海南又有安居房政策大放開!

家居要聞

浪漫與優(yōu)雅 不被定義的現(xiàn)代法式

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

數(shù)碼要聞

外媒:更智能的Siri或?qū)⒂诮衲炅料?與iOS 19同期發(fā)布

手機(jī)要聞

近兩代OPPO Find X系列銷量對比,小“8”是真強(qiáng)

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 永善县| 九龙坡区| 仁寿县| 永春县| 龙山县| 伊宁市| 重庆市| 拉萨市| 台北市| 濮阳市| 绥宁县| 云梦县| 双峰县| 马山县| 岐山县| 潞西市| 仁怀市| 平南县| 长葛市| 达拉特旗| 扬州市| 华安县| 扎鲁特旗| 眉山市| 罗源县| 林西县| 正镶白旗| 武清区| 元谋县| 宣恩县| 大宁县| 西贡区| 桂阳县| 郎溪县| 铜山县| 科技| 砚山县| 即墨市| 东城区| 浠水县| 石河子市|