4月23日消息,AI頂會ICLR 2025大會上,阿里巴巴達摩院被收錄的13篇論文中,聚焦于視覺生成模型底層框架DiT改進優化的一篇受到了關注。
DyDiT基于主流架構DiT進行優化,引入動態計算機制,可根據時間步和空間特征動態調整模型寬度和資源分配,顯著提升推理效率并減少冗余計算。
實驗數據顯示,DyDiT在僅微調3%參數的情況下,將DiT-XL的FLOPs減少一半,生成速度提升1.73倍,ImageNet FID得分為2.27,與原始模型2.07接近。
該架構由達摩院湖畔實驗室、新加坡國立大學與清華大學聯合提出,支持用戶按需求調節算力分配,兼顧推理效率與生成質量,具備靈活部署潛力。
據悉,DyDiT已適配開源文生圖模型FLUX,升級版Dy-FLUX已在開源平臺上線,未來計劃推廣至更多圖像、視頻生成任務。
ICLR是AI領域頂級會議之一,達摩院今年共有13篇論文入選,其中3篇獲Spotlight,覆蓋生成模型、NLP、醫療與生物智能等方向。(袁寧)
本文來自網易科技報道,更多資訊和深度內容,關注我們。