99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

一秒十圖!英偉達MIT聯(lián)手刷新SOTA,一步擴散解鎖實時高質(zhì)量可控圖像生成

0
分享至


新智元報道

編輯:LRS 好困

【新智元導(dǎo)讀】SANA-Sprint是一個高效的蒸餾擴散模型,專為超快速文本到圖像生成而設(shè)計。通過結(jié)合連續(xù)時間一致性蒸餾(sCM)和潛空間對抗蒸餾(LADD)的混合蒸餾策略,SANA-Sprint在一步內(nèi)實現(xiàn)了7.59 FID和0.74 GenEval的最先進性能。SANA-Sprint僅需0.1秒即可在H100上生成高質(zhì)量的1024x1024圖像,在速度和質(zhì)量的權(quán)衡方面樹立了新的標桿。

擴散生成模型通常需要50-100次迭代去噪步驟,效率很低,時間步蒸餾技術(shù)可以極大提高推理效率,「基于分布的蒸餾」方法,如生成對抗網(wǎng)絡(luò)GAN及其變分分數(shù)蒸餾VSD變體,以及「基于軌跡的蒸餾方法」(如直接蒸餾、漸進蒸餾、一致性模型)可以實現(xiàn)10-100倍的圖像生成加速效果。

但仍然存在一些關(guān)鍵難點,比如基于GAN的方法由于對抗動態(tài)的振蕩特性和模式坍塌問題,訓(xùn)練過程不穩(wěn)定;基于VSD的方法需要聯(lián)合訓(xùn)練一個額外的擴散模型,增加了計算開銷;一致性模型雖然穩(wěn)定,但在極少數(shù)步驟(例如少于4步)的情況下,生成質(zhì)量會下降。

如何開發(fā)一個能夠兼顧效率、靈活性和質(zhì)量的蒸餾框架成了模型部署的關(guān)鍵。


論文地址: https://arxiv.org/pdf/2503.09641

項目主頁:https://nvlabs.github.io/Sana/Sprint/

基于OpenAI提出的連續(xù)時間一致性模型(sCM)的方法,研究人員提出SANA-Sprint,進一步結(jié)合了LADD的對抗蒸餾技術(shù),幫助模型在蒸餾過程中更好地保留細節(jié)信息,從而實現(xiàn)超快速且高質(zhì)量的文本到圖像生成,同時避免了離散化帶來的誤差,保留了傳統(tǒng)一致性模型的優(yōu)勢。

SANA-Sprint的核心在于其創(chuàng)新的混合蒸餾框架和對ControlNet的集成,主要貢獻包括:

  1. 混合蒸餾框架:設(shè)計了一種新穎的混合蒸餾框架,將預(yù)訓(xùn)練的流匹配模型無縫轉(zhuǎn)換為TrigFlow模型,集成了連續(xù)時間一致性模型(sCM)和潛在對抗擴散蒸餾(LADD)。

    sCM確保了模型與教師模型的一致性和多樣性保留,而LADD則增強了單步生成的保真度,從而實現(xiàn)了統(tǒng)一的步長自適應(yīng)采樣。


  1. 卓越的速度/質(zhì)量權(quán)衡:SANA-Sprint僅需1-4步即可實現(xiàn)卓越的性能。在H100上,SANA-Sprint僅需0.10-0.18秒即可生成1024x1024的圖像,在MJHQ-30K數(shù)據(jù)集上實現(xiàn)了7.59的FID和0.74的GenEval分數(shù),超越了FLUX-schnell(7.94FID/0.71GenEval),速度提升了10倍。


  1. 實時交互式生成:通過將ControlNet與SANA-Sprint集成,實現(xiàn)了在H100上僅需0.25秒的實時交互式圖像生成。這為需要即時視覺反饋的應(yīng)用(如ControlNet引導(dǎo)的圖像生成/編輯)提供了可能,實現(xiàn)了更好的人機交互。


SANA-Sprint不僅在速度和性能上表現(xiàn)出色,生成的圖像質(zhì)量也非常高。


SANA-Sprint

SANA-Sprint方法主要包括以下四個關(guān)鍵步驟:


1. 無訓(xùn)練轉(zhuǎn)換到TrigFlow

研究人員提出了一種簡單的方法,通過直接的數(shù)學輸入和輸出轉(zhuǎn)換,將預(yù)訓(xùn)練的流匹配模型轉(zhuǎn)換為TrigFlow模型。這使得可以直接使用已有的預(yù)訓(xùn)練模型,無需額外的TrigFlow模型的訓(xùn)練。

動機是,雖然sCM使用TrigFlow公式簡化了連續(xù)時間一致性模型的訓(xùn)練,但大多數(shù)基于分數(shù)的生成模型(如擴散模型和流匹配模型)并不直接支持TrigFlow。

為了克服這一挑戰(zhàn),SANA-Sprint提出了一種無需重新訓(xùn)練的轉(zhuǎn)換方法,通過數(shù)學變換將流匹配模型轉(zhuǎn)換TrigFlow模型,從而避免了復(fù)雜的額外算法設(shè)計和額外的計算成本。



2. 混合蒸餾策略

混合蒸餾策略結(jié)合了sCM和LADD兩種蒸餾方法。sCM利用TrigFlow的公式簡化了連續(xù)時間一致性模型的訓(xùn)練,而LADD則通過對抗訓(xùn)練在潛在空間中直接進行判別,進一步提升了生成質(zhì)量。


3. 穩(wěn)定訓(xùn)練的關(guān)鍵技術(shù)

  1. 密集時間嵌入(Dense Time-Embedding):為了穩(wěn)定連續(xù)時間一致性模型的訓(xùn)練,SANA-Sprint采用了密集時間嵌入設(shè)計。通過將噪聲系數(shù) 調(diào)整為

    Query-Key歸一化(QK-Normalization):在Transformer模型的自注意力和交叉注意力機制中引入了RMS歸一化,進一步穩(wěn)定了訓(xùn)練過程,尤其是在大模型和高分辨率場景下。


    1. 4. 集成ControlNet

將SANA-Sprint的訓(xùn)練流程應(yīng)用于ControlNet任務(wù),利用圖像和文本提示作為條件,實現(xiàn)了SANA-ControlNet模型,并通過蒸餾得到SANA-Sprint-ControlNet,支持實時的圖像編輯和生成。

實驗結(jié)果

研究人員采用了兩階段的訓(xùn)練策略,詳細的設(shè)置和評估協(xié)議在論文附錄中進行了概述。

教師模型通過剪枝和微調(diào)SANA-1.5 4.8B模型得到,然后使用文中提出的訓(xùn)練范式進行蒸餾,使用包括FID、MJHQ-30K上的CLIP Score和GenEval在內(nèi)的指標評估性能。

實驗結(jié)果表明,SANA-Sprint在速度和質(zhì)量方面均達到了最先進的水平。

  1. 效率與性能對比:在4步推理下,SANA-Sprint 0.6B實現(xiàn)了5.34個樣本/秒的吞吐量和0.32秒的延遲,F(xiàn)ID為6.48,GenEval為0.76;SANA-Sprint 1.6B 的吞吐量略低(5.20個樣本/秒),但GenEval提升至0.77,優(yōu)于更大的模型如FLUX-schnell 12B,其吞吐量僅為0.5個樣本/秒,延遲為2.10秒。

  2. 單步生成性能:SANA-Sprint在單步生成方面也表現(xiàn)出色,實現(xiàn)了7.59的FID和0.74的GenEval分數(shù),超越了其他單步生成方法。

  3. 實時交互式生成:集成ControlNet的SANA-Sprint模型在H100上實現(xiàn)了約200毫秒的推理速度,支持近乎實時的交互。

結(jié)論與展望

SANA-Sprint是一款高效的擴散模型,用于超快速的單步文本到圖像生成,同時保留了多步采樣的靈活性。通過采用結(jié)合了連續(xù)時間一致性蒸餾(sCM)和潛在對抗蒸餾(LADD)的混合蒸餾策略,SANA-Sprint在一步內(nèi)實現(xiàn)了7.59的FID和0.74的GenEval分數(shù),無需針對特定步驟進行訓(xùn)練。

該統(tǒng)一的步長自適應(yīng)模型僅需0.1秒即可在H100上生成高質(zhì)量的1024x1024圖像,在速度和質(zhì)量的權(quán)衡方面樹立了新的標桿。

展望未來,SANA-Sprint的即時反饋特性將為實時交互應(yīng)用(如響應(yīng)迅速的創(chuàng)意工具和AIPC)開啟新的可能性。

參考資料:

https://nvlabs.github.io/Sana/Sprint/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
桑切斯哭了!給貝佐斯當了五年備胎,首富哥轉(zhuǎn)頭愛上了她閨蜜

桑切斯哭了!給貝佐斯當了五年備胎,首富哥轉(zhuǎn)頭愛上了她閨蜜

小魚愛魚樂
2025-03-12 19:55:47
傳三星斷供7nm! 大廠緊急回應(yīng)!

傳三星斷供7nm! 大廠緊急回應(yīng)!

中國半導(dǎo)體論壇
2025-04-08 20:46:02
遼寧信息學奧賽16歲選手于行健墜樓離世,讀高二,3月份落選省隊

遼寧信息學奧賽16歲選手于行健墜樓離世,讀高二,3月份落選省隊

凡知
2025-04-08 15:14:50
國家隊開始托市!4月9號,深夜爆出的三大重要消息沖擊市場!

國家隊開始托市!4月9號,深夜爆出的三大重要消息沖擊市場!

風口招財豬
2025-04-09 01:10:41
絕殺廣東,盧偉:球員們最后時刻卸下了包袱,大家表現(xiàn)得很棒

絕殺廣東,盧偉:球員們最后時刻卸下了包袱,大家表現(xiàn)得很棒

懂球帝
2025-04-08 22:34:21
普京勃然大怒,俄羅斯80年來從沒受到過如此侮辱,中國汲取經(jīng)驗

普京勃然大怒,俄羅斯80年來從沒受到過如此侮辱,中國汲取經(jīng)驗

阿紿聊社會
2025-03-26 15:04:14
真不怕??!青島隊23分慘敗,賽后代理教練這樣說,劉維偉要復(fù)出?

真不怕啊!青島隊23分慘敗,賽后代理教練這樣說,劉維偉要復(fù)出?

籃球?qū)^(qū)
2025-04-08 07:55:56
女星賈靜雯回應(yīng)股票受損情況

女星賈靜雯回應(yīng)股票受損情況

大象新聞
2025-04-09 00:18:04
擊潰美國的時機已經(jīng)成熟了

擊潰美國的時機已經(jīng)成熟了

荊棘阿甘
2025-02-08 22:09:00
情人見面就發(fā)生關(guān)系,所有的聊天和接觸只是鋪墊

情人見面就發(fā)生關(guān)系,所有的聊天和接觸只是鋪墊

加油丁小文
2025-02-23 08:00:10
李溪芮,胸不大,但人家腿好看啊……

李溪芮,胸不大,但人家腿好看啊……

印象逍遙子
2025-04-08 10:29:20
世界上唯一的JJ博物館,每個雄性都想被收藏

世界上唯一的JJ博物館,每個雄性都想被收藏

beebee
2025-02-26 15:05:35
濟南一廢棄廠房"聚眾蹦迪",派出所稱需報備,網(wǎng)友:廣場舞報備沒

濟南一廢棄廠房"聚眾蹦迪",派出所稱需報備,網(wǎng)友:廣場舞報備沒

派大星紀錄片
2025-04-08 18:41:26
王力宏突傳消息!官方宣布:取消!

王力宏突傳消息!官方宣布:取消!

臺州交通廣播
2025-04-07 22:37:17
突發(fā)!Shams:掘金主帥邁克-馬龍已被解雇

突發(fā)!Shams:掘金主帥邁克-馬龍已被解雇

雷速體育
2025-04-09 01:33:14
10人排隊9人托!央媒為民除害,怒揭大鍋鹵菜騙局,結(jié)局大快人心

10人排隊9人托!央媒為民除害,怒揭大鍋鹵菜騙局,結(jié)局大快人心

寒士之言本尊
2025-04-07 23:22:59
A股:都做好準備吧,不出所料,股市將會迎來更大的上漲?

A股:都做好準備吧,不出所料,股市將會迎來更大的上漲?

財經(jīng)大拿
2025-04-09 02:10:02
小米股價暴跌!11個交易日跌幅超過33%

小米股價暴跌!11個交易日跌幅超過33%

大象新聞
2025-04-07 17:10:15
乒乓太原賽:4月9日賽程公布!國乒首戰(zhàn)日本,對決14歲“小伊藤”

乒乓太原賽:4月9日賽程公布!國乒首戰(zhàn)日本,對決14歲“小伊藤”

安???/span>
2025-04-09 00:03:24
劉維偉妻子再曬聊天記錄截圖,怒斥辛莎莎!劉媽哭著勸兒媳別離婚

劉維偉妻子再曬聊天記錄截圖,怒斥辛莎莎!劉媽哭著勸兒媳別離婚

籃球掃地僧
2025-04-08 18:29:01
2025-04-09 04:35:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
12492文章數(shù) 66006關(guān)注度
往期回顧 全部

科技要聞

馬斯克財富跌破3000億美元 怨特朗普?

頭條要聞

媒體:對美國"投降"的國家 在談判桌上只能被"收割"

頭條要聞

媒體:對美國"投降"的國家 在談判桌上只能被"收割"

體育要聞

100%當選狀元,但弗拉格不想進NBA?

娛樂要聞

金子涵正式宣布退圈,想回歸自己的生活

財經(jīng)要聞

央地國資聯(lián)手護盤 國家隊領(lǐng)銜千億增持潮

汽車要聞

插混純電雙修 寶駿享境預(yù)售13.28萬起

態(tài)度原創(chuàng)

親子
健康
時尚
本地
數(shù)碼

親子要聞

還在受傷不想去上學,歪理一大堆,這娃娃嘴可太會說了

在中國,到底哪些人在吃“偉哥”?

可持續(xù)時裝的多維棱鏡

本地新聞

云游中國|更好濰坊,更好的家

數(shù)碼要聞

中國特供 RTX 5090D游戲性能普遍強于5090,影馳HOF顯卡新品曝光

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 丰都县| 刚察县| 平度市| 英吉沙县| 孟津县| 阳朔县| 常熟市| 福贡县| 多伦县| 灵宝市| 仁寿县| 塔城市| 射洪县| 延长县| 天津市| 赣榆县| 彭泽县| 恩施市| 丹江口市| 横峰县| 慈利县| 随州市| 扶绥县| 馆陶县| 朔州市| 临漳县| 余庆县| 黎平县| 芜湖市| 竹溪县| 宁国市| 灵石县| 涪陵区| 渑池县| 吉木乃县| 山东省| 玛多县| 纳雍县| 四子王旗| 黔西| 巴南区|