速覽熱門論文
1.Meta:利用自回歸模型生成高分辨率圖像
2.DeepMind:LLM 是貪婪的 agent
3.MIT 打造機器學習版「元素周期表」
4.字節推出高保真「人臉變換模型」DreamID
1.Meta:利用自回歸模型生成高分辨率圖像
自回歸(AR)模型在語言生成領域長期占據主導地位,近年來也逐步擴展至圖像合成任務。但相較于擴散模型,AR 模型通常被認為在生成質量和效率方面存在劣勢,主要原因在于其需處理大量圖像 token,導致訓練和推理成本高,且限制了生成分辨率。
為了解決這個問題,Meta 團隊提出了一種新穎、簡單的方法Token-Shuffle,旨在減少 Transformer 中的圖像 token 數量。該方法的核心基于對多模態大語言模型(MLLM)中視覺詞匯維度冗余的觀察:即視覺編碼器生成的低維視覺特征可直接映射到高維語言詞匯空間。利用這一點,他們考慮了兩個關鍵操作:
token-shuffle:在輸入階段沿通道維度合并空間局部 token,從而顯著降低輸入 token 數量;
token-unshuffle:在 Transformer 模塊后對預測 token 進行還原,恢復其空間結構以生成最終圖像。
該方法支持與文本提示聯合訓練,無需額外預訓練文本編碼器,就可以在保持高效訓練與推理的同時,實現統一的“下一個 token 預測”式高分辨率圖像生成。
他們首次將自回歸文本到圖像生成的分辨率提高到了2048x2048,并取得了令人滿意的生成性能。在 GenAI 基準測試中,2.7B 模型在高難度文本提示上獲得了 0.77 的總分,比自回歸模型 LlamaGen 高 0.18,比擴散模型 LDM 高 0.15。大規模人工評估結果亦表明,其在文本對齊、圖像質量與視覺表現方面具有顯著優勢。
研究團隊表示,Token-Shuffle 有望成為 MLLM 架構中高效、高分辨率圖像生成的一項通用設計。
論文鏈接:https://arxiv.org/abs/2504.17789
2.DeepMind:LLM 是貪婪的 agent
大語言模型(LLM)利用常識和思維鏈(CoT)推理,可以有效地探索和高效地解決復雜領域的問題。然而,人們發現 LLM agent 存在次優探索和“知行差距”,無法根據模型中的知識有效地采取行動。
在這項工作中,Google DeepMind 團隊系統地研究了 LLM 在決策場景中表現次優的原因。特別是,他們仔細研究了3 種普遍存在的失敗模式:貪婪、頻率偏差和知行差距。他們建議通過對自生成的 CoT 推理依據進行強化學習微調來緩解這些缺陷。
他們在多臂老虎機、情境式老虎機和井字棋中進行的實驗表明,強化學習微調通過增加探索和縮小知行差距,提高了 LLM 的決策能力。
最后,他們研究了傳統的探索機制(如 ?-greedy)和 LLM 特有的方法(如自我校正和自一致性),以便在決策中對 LLM 進行更有效的微調。
論文鏈接:https://arxiv.org/abs/2504.16078
3.MIT 打造機器學習版「元素周期表」
隨著表征學習領域的發展,出現了大量不同的損失函數來解決不同類別的問題。
在這項工作中,來自 MIT、谷歌和微軟的研究團隊提出了一個單一的信息論方程,它概括了機器學習中大量的現代損失函數。特別是,他們提出的框架表明,幾大類機器學習方法都在精確地最小化兩個條件分布(監督表征和學習表征)之間的綜合 KL 發散。這一觀點揭示了聚類、譜方法、降維、對比學習和監督學習背后隱藏的信息幾何。
通過結合以往其他技術,這一框架開發出了新的損失函數。他們不僅提出了一系列證明,將超過 23 種不同的方法聯系在一起,而且還利用這些理論成果創建了 SOTA 無監督圖像分類器,在 ImageNet-1K 上的無監督分類方面比之前的 SOTA 方法提高了 8%。
他們還證明,I-Con 可以用于推導有原則的去偏(debiasing)方法,從而改進對比表示學習方法。
論文鏈接:https://arxiv.org/abs/2504.16929
4.字節推出高保真「人臉變換模型」DreamID
在這項工作中,字節團隊提出了基于擴散的人臉變換模型 DreamID,它能夠實現高水平的 ID 相似性、屬性保留、圖像保真和快速推理。
典型的人臉變換訓練過程通常依賴于隱式監督,很難取得令人滿意的結果,與之不同,DreamID 通過構建三重身份組數據,為人臉交換建立了顯式監督,大大提高了身份相似性和屬性保持性。
擴散模型的迭代特性為利用高效的圖像空間損失函數帶來了挑戰,因為在訓練過程中執行耗時的多步采樣以獲取生成的圖像是不切實際的。為此,他們利用加速擴散模型 SD Turbo,將推理步驟減少到單次迭代,實現了高效的像素級端到端訓練,并具有明確的三重 ID 組監督。
此外,他們還提出了一種改進的基于擴散的模型架構,包括 SwapNet、FaceNet 和 ID Adapter。這種魯棒的架構充分釋放了三重 ID 組顯式監督的能力。
最后,為了進一步擴展這一方法,他們在訓練過程中修改了三重 ID 組數據,以微調和保留特定屬性,如眼鏡和臉型。
廣泛的實驗證明,DreamID 在身份相似性、姿勢和表情保持以及圖像保真度方面實現了 SOTA。
論文鏈接:https://arxiv.org/abs/2504.14509
整理:學術君
如需轉載或投稿,請直接在公眾號內留言
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.