速覽熱門論文
1. 南大、字節(jié)提出解耦擴散 transformers
2. 復旦、階躍星辰提出多模態(tài) SVG 生成模型 OmniSVG
3. 快手:形式化推理的后訓練擴展
4. 通才機器人新突破:統(tǒng)一世界模型 UWM
5. 上海 AI Lab:免訓練、高分辨率文生圖框架 HiFlow
6. 南加大:自適應課程強化微調(diào) AdaRFT
1. 南大、字節(jié)提出解耦擴散 transformers
擴散 transformers 雖然需要較長的訓練迭代時間和眾多推理步驟,但已顯示出卓越的生成質(zhì)量。在每個去噪步驟中,擴散 transformers 對噪聲輸入進行編碼,提取低頻語義成分,然后用相同的模塊對高頻進行解碼。這種方案造成了固有的優(yōu)化困境:對低頻語義進行編碼就必須減少高頻成分,這就造成了語義編碼和高頻解碼之間的矛盾。
為了解決這一難題,來自南京大學和字節(jié)跳動的研究團隊提出了一種“解耦擴散 transformers”(Decoupled Diffusion Transformer,DDT),它采用解耦設計,將用于語義提取的專用條件編碼器與專用速度解碼器結(jié)合在一起。
實驗表明,隨著模型大小的增加,更多的編碼器可以提高性能。對于 ImageNet 256 × 256,他們的 DDT-XL/2 實現(xiàn)了 1.31 FID 的性能(與以前的擴散 transformers 相比,訓練收斂速度提高了近 4 倍)。對于 ImageNet 512 × 512,DDTXL/2 實現(xiàn)了 1.28 的 SOTA FID。此外,這一解耦架構(gòu)通過在相鄰去噪步驟之間共享自約束,提高了推理速度。為了盡量減少性能下降,他們提出了一種新的統(tǒng)計動態(tài)編程方法來確定優(yōu)化共享策略。
論文鏈接:https://arxiv.org/abs/2504.05741
2. 復旦、階躍星辰提出多模態(tài) SVG 生成模型 OmniSVG
可縮放矢量圖形(SVG)是一種重要的圖像格式,在圖形設計中被廣泛采用。生成高質(zhì)量 SVG 的研究一直受到 AIGC 界設計人員和研究人員的關注。然而,現(xiàn)有的方法要么產(chǎn)生非結(jié)構(gòu)化的輸出,計算成本高昂,要么僅限于生成結(jié)構(gòu)過于簡化的單色圖標。
為了生成高質(zhì)量和復雜的 SVG,來自復旦大學和階躍星辰的研究團隊提出了 OmniSVG,這是一個利用預訓練視覺語言模型(VLM)生成端到端多模態(tài) SVG 的統(tǒng)一框架。通過將 SVG 命令和坐標參數(shù)化為離散 token,OmniSVG 將結(jié)構(gòu)邏輯與底層幾何解耦,從而在保持復雜 SVG 結(jié)構(gòu)的表現(xiàn)力的同時實現(xiàn)高效訓練。
為了進一步推動 SVG 合成的發(fā)展,他們提出了一個多模態(tài)數(shù)據(jù)集 MMSVG-2M,其包含 200 萬個標注豐富的 SVG 資產(chǎn),以及用于條件 SVG 生成任務的標準化評估協(xié)議。
實驗表明,OmniSVG 的性能優(yōu)于現(xiàn)有方法,并證明了其融入專業(yè) SVG 設計工作流程的潛力。
論文鏈接:https://arxiv.org/abs/2504.06263
3. 快手:形式化推理的后訓練擴展
通過大語言模型(LLM)實現(xiàn)的自動化定理證明(ATP),凸顯了使用 Lean 4 代碼進行形式化推理的潛力。然而,ATP 還沒有因為 OpenAI o1/o3 和 Deepseek R1 展示的后訓練擴展而發(fā)生顯著變化。
在這項工作中,快手團隊研究了 ATP 的整個后訓練,旨在使其與自然語言推理模型的突破保持對齊。首先,他們用一個混合數(shù)據(jù)集繼續(xù)訓練當前的 ATP 模型,該數(shù)據(jù)集由大量 statement-proof 對和其他數(shù)據(jù)組成,旨在納入模仿人類推理和假設完善的認知行為。接下來,他們利用 Lean 4 編譯器返回的結(jié)果獎勵探索強化學習。
通過持續(xù)訓練和強化學習過程,他們成功改進了現(xiàn)有的形式化證明器,包括 DeepSeek-Prover-v1.5 和 Goedel-Prover,在 whole-proof 生成領域取得了 SOTA。例如,他們在 MiniF2F 上實現(xiàn)了 59.8% 的通過率(pass@32)。
論文鏈接:https://arxiv.org/abs/2504.06122
4. 通才機器人新突破:統(tǒng)一世界模型 UWM
模仿學習是制造通才機器人的一種有前途的方法。然而,由于依賴于高質(zhì)量的專家示范,針對大型機器人基礎模型的擴展模仿學習仍然具有挑戰(zhàn)性。與此同時,描述各種環(huán)境和各種行為的大量視頻數(shù)據(jù)容易獲得,它們提供了有關真實世界動態(tài)和 agent 與環(huán)境交互的豐富信息。然而,由于缺乏大多數(shù)現(xiàn)代方法所需的動作注釋,將這些數(shù)據(jù)直接用于模仿學習并不容易。
在這項工作中,來自華盛頓大學和豐田研究所的研究團隊提出了“統(tǒng)一世界模型”(UWM),這是一個可以利用視頻和動作數(shù)據(jù)進行策略學習的框架。具體來說,UWM 將動作擴散過程和視頻擴散過程整合到一個統(tǒng)一的 transformer 架構(gòu)中,其中每種模態(tài)都有獨立的擴散時間步。
研究表明,只需控制每個擴散時間步,UWM 就能靈活地表示策略、正向動力學、逆向動力學和視頻生成器。通過模擬和實際實驗,他們證明了:(1)UWM 可以在大規(guī)模多任務機器人數(shù)據(jù)集上進行有效的動態(tài)和動作預測預訓練,從而產(chǎn)生比模仿學習更普適和魯棒的策略;(2)UWM 通過獨立控制特定模態(tài),自然地促進了無動作視頻數(shù)據(jù)的學習。
論文鏈接:https://arxiv.org/abs/2504.02792
5. 上海 AI Lab:免訓練、高分辨率文生圖框架 HiFlow
文生圖擴散(diffusion)/流(flow)模型因提供靈活視覺創(chuàng)作的能力,引起了廣泛關注。然而,由于高分辨率內(nèi)容的稀缺性和復雜性,高分辨率圖像合成仍然面臨挑戰(zhàn)。
為此,上海 AI Lab 團隊提出了一個免訓練(training-free)、模型無關(model-agnostic)的框架——HiFlow,其可釋放預訓練流模型的分辨率潛力。具體來說,HiFlow 在高分辨率空間內(nèi)建立了一個虛擬參考流,它能有效捕捉低分辨率流信息的特征,通過低頻一致性的初始化對齊、結(jié)構(gòu)保持的方向?qū)R和細節(jié)保真度的加速對齊 3 方面為高分辨率生成提供指導。
通過利用這種流對齊指導,HiFlow 提高了 T2I 模型高分辨率圖像合成的質(zhì)量,并展示了其個性化變體的多功能性。實驗驗證,HiFlow 在實現(xiàn)高分辨率圖像質(zhì)量方面優(yōu)于目前 SOTA 方法。
論文鏈接:https://arxiv.org/abs/2504.06232
6. 南加大:自適應課程強化微調(diào) AdaRFT
強化微調(diào)(RFT)在增強大語言模型(LLM)的數(shù)學推理能力方面顯示出潛力,但通常在采樣和計算方面效率低,需要大量訓練。
在這項工作中,南加州大學團隊提出了 AdaRFT(自適應課程強化微調(diào)),這是一種通過自適應課程學習提高 RFT 效率和最終準確性的方法,可根據(jù)獎勵信號動態(tài)調(diào)整訓練問題的難度,確保模型始終在具有挑戰(zhàn)性但可解決的任務上進行訓練。這種自適應采樣策略能保持最佳難度范圍,避免在太容易或太難的問題上浪費計算,從而加快學習速度。AdaRFT 只需要對標準 RFT 算法(如 PPO)進行輕量級擴展,而無需修改獎勵函數(shù)或模型架構(gòu)。
在競賽級數(shù)學數(shù)據(jù)集(包括 AMC、AIME 和 IMO 類型的問題)上進行的實驗證明,AdaRFT 提高了訓練效率和推理性能。他們評估了 AdaRFT 的多種數(shù)據(jù)分布和模型大小,結(jié)果表明它減少了 2 倍的訓練步驟,并提高了準確性,提供了一個更具可擴展性和更有效的 RFT 框架。
論文鏈接:https://arxiv.org/abs/2504.05520
整理:學術君
如需轉(zhuǎn)載或投稿,請直接在公眾號內(nèi)留言
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.