網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

質(zhì)量無損，算力砍半！達(dá)摩院視覺生成新架構(gòu)出道即SOTA｜ICLR2025

2025-04-25 11:50:51　來源: 量子位

美國,猶他州舉報(bào)

分享至

DyDiT團(tuán)隊(duì) 投稿
量子位 | 公眾號(hào) QbitAI

算力砍半，視覺生成任務(wù)依然SOTA！

達(dá)摩院在ICLR 2025上拋出的DyDiT架構(gòu)：通過時(shí)間步長與空間區(qū)域的智能資源分配，將DiT模型的推理算力削減51%，生成速度提升1.73倍，而FID指標(biāo)幾乎無損！

更驚人的是，這一突破僅需3%的微調(diào)成本。

該方法通過引入動(dòng)態(tài)化調(diào)整機(jī)制，可精準(zhǔn)削減視覺生成任務(wù)中50%的推理算力，有效緩解傳統(tǒng)擴(kuò)散模型的計(jì)算冗余問題，相關(guān)工作已開源。

算力砍半效果依然SOTA

DiT架構(gòu)作為當(dāng)前主流的生成模型框架，有效實(shí)現(xiàn)了圖像與視頻的可控生成，推動(dòng)生成式AI走向應(yīng)用爆發(fā)。

然而，DiT架構(gòu)的多步生成策略存在推理效率低、算力冗余等問題，在執(zhí)行視覺生成任務(wù)容易造成極高的算力消耗，限制其往更廣泛的場(chǎng)景落地。

業(yè)內(nèi)提出高效采樣、特征緩存、模型壓縮剪枝等方法嘗試解決這一問題，但這些方法均針對(duì)靜態(tài)不變模型，又衍生出潛在的冗余浪費(fèi)問題。

達(dá)摩院（湖畔實(shí)驗(yàn)室）、新加坡國立大學(xué)、清華大學(xué)等聯(lián)合研究團(tuán)隊(duì)在論文《Dynamic Diffusion Transformer》提出了動(dòng)態(tài)架構(gòu)DyDiT，能夠根據(jù)時(shí)間步長和空間區(qū)域自適應(yīng)調(diào)整計(jì)算分配，有效緩解視覺生成任務(wù)中的算力消耗問題。

具體而言，DyDiT能在簡(jiǎn)單的時(shí)間步長使用較窄的模型寬度，減少計(jì)算資源；在空間維度上優(yōu)先處理含有詳細(xì)信息的主要對(duì)象，減少對(duì)背景區(qū)域的計(jì)算資源分配，提升推理效率與減少計(jì)算冗余的同時(shí)，保持生成質(zhì)量。

使用者更可根據(jù)自身的資源限制或者部署要求，靈活調(diào)整目標(biāo)的計(jì)算量，DyDiT將自動(dòng)適配模型參數(shù)，實(shí)現(xiàn)效果與效率的最佳平衡。

實(shí)驗(yàn)結(jié)果表明，DyDiT在多個(gè)數(shù)據(jù)集和生成模型下均表現(xiàn)出高穩(wěn)定性。

僅用不到3%的微調(diào)成本，將DiT-XL的浮點(diǎn)運(yùn)算次數(shù)（FLOPs）減少了51%生成速度提高了1.73倍，在ImageNet測(cè)得的FID得分與原模型幾乎相當(dāng)（2.27vs2.07）。

據(jù)透露，DyDiT相關(guān)訓(xùn)練與推理代碼已開源，并計(jì)劃適配到更多的文生圖、文生視頻模型上，目前基于知名文生圖模型FLUX調(diào)試的Dy-FLUX也在開源項(xiàng)目上架。

據(jù)悉，達(dá)摩院今年共有13篇論文被ICLR 2025錄用，涵蓋了視頻生成、自然語言處理、醫(yī)療AI、基因智能等領(lǐng)域，其中3篇被選為Spotlight。

論文鏈接：
https://arxiv.org/abs/2410.03456
技術(shù)解讀：
https://mp.weixin.qq.com/s/yqYg272vIztflZ6NfX5zJw
開源鏈接：
https://github.com/alibaba-damo-academy/DyDiT

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.