速覽熱門論文
1. 實(shí)錘! 大模型不會(huì)真正的數(shù)學(xué)推理
2. 微軟開源實(shí)時(shí)交互式世界模型 MineWorld
3. 字節(jié):7B 高性能視頻生成模型訓(xùn)練策略
4. CMU 團(tuán)隊(duì)提出「協(xié)作式 RAG」框架 CoRAG
5. 港大提出圖像生成模型 PixelFlow:無需 VAE,可端到端訓(xùn)練
1. 實(shí)錘!大模型不會(huì)真正的數(shù)學(xué)推理
盡管 benchmark 分?jǐn)?shù)很高,但大語言模型(LLM)經(jīng)常在簡單的問題上失敗,這就提出了一個(gè)關(guān)鍵問題:LLM 是在學(xué)習(xí)數(shù)學(xué)原理,還是僅僅在記憶模式?
在這項(xiàng)工作中,來自浙江大學(xué)和西湖大學(xué)的研究團(tuán)隊(duì)沒有設(shè)計(jì)更為復(fù)雜的 benchmark,而是使用基本的二進(jìn)制加法(0 到 2^64)來研究這個(gè)問題,探究了兩個(gè)核心特性:交換律(A+B=B+A)和組合泛化(通過同構(gòu)符號映射,例如,7 映射為 y)。SOTA LLM 在數(shù)字加法上的準(zhǔn)確率為 73.8%-99.8%,而在符號映射下的準(zhǔn)確率則下降到 7.5% 及以下,這表明所學(xué)規(guī)則的泛化失敗。數(shù)字?jǐn)?shù)量增加時(shí)的非單調(diào)性能變化,以及頻繁的交換律違反(超過 1700 例“A+B 不等于 B+A”),進(jìn)一步證明了這一點(diǎn)。明確提供加法規(guī)則會(huì)使性能平均下降 81.2%,而自我解釋則能保持基線準(zhǔn)確率,這表明 LLM 的算術(shù)處理與人類定義的原則不一致。
研究結(jié)果表明,當(dāng)前的 LLM 依賴于記憶模式,而不是真正的規(guī)則學(xué)習(xí),這凸顯了架構(gòu)上的局限性,以及需要新方法來實(shí)現(xiàn)真正的數(shù)學(xué)推理。
論文鏈接:https://arxiv.org/abs/2504.05262
2. 微軟開源實(shí)時(shí)交互式世界模型 MineWorld
世界建模是智能 agent 與人類有效互動(dòng)并在動(dòng)態(tài)環(huán)境中運(yùn)行的關(guān)鍵任務(wù)。
在這項(xiàng)工作中,微軟研究院團(tuán)隊(duì)提出了一個(gè)基于 Minecraft 的實(shí)時(shí)交互式世界模型——MineWorld,其由視覺-動(dòng)作自回歸 Transformer 驅(qū)動(dòng),將配對的游戲場景和相應(yīng)的動(dòng)作作為輸入,并根據(jù)動(dòng)作生成相應(yīng)的新場景。
具體來說,他們通過圖像 tokenizer 和動(dòng)作 tokenizer 將視覺游戲場景和動(dòng)作轉(zhuǎn)化為離散的 token ID,然后將這兩種 ID 交錯(cuò)連接組成模型輸入,再通過下一個(gè) token 預(yù)測對模型進(jìn)行訓(xùn)練,從而同時(shí)學(xué)習(xí)游戲狀態(tài)的豐富表征以及狀態(tài)和動(dòng)作之間的條件。
在推理方面,他們開發(fā)了一種新穎的并行解碼算法,可同時(shí)預(yù)測每幀中的空間冗余 token,讓不同規(guī)模的模型每秒生成 4 至 7 幀,實(shí)現(xiàn)與游戲玩家的實(shí)時(shí)互動(dòng)。在評估中,他們提出了新的指標(biāo),不僅可以評估視覺質(zhì)量,還可以評估生成新場景時(shí)的動(dòng)作跟隨能力,這對世界模型至關(guān)重要。
綜合評估結(jié)果表明,MineWorld 的效果優(yōu)于基于擴(kuò)散的 SoTA 開源世界模型。
論文鏈接:https://arxiv.org/abs/2504.08388
3. 字節(jié):7B 高性能視頻生成模型訓(xùn)練策略
在這項(xiàng)工作中,字節(jié)跳動(dòng) Seed 團(tuán)隊(duì)介紹了一種具有成本效益的視頻生成基礎(chǔ)模型訓(xùn)練策略。他們介紹了一個(gè)擁有約 70 億(7B)參數(shù)的中型研究模型,稱為 Seaweed-7B,該模型使用 665000 H100 GPU 小時(shí)從頭開始訓(xùn)練。盡管只使用了中等計(jì)算資源進(jìn)行訓(xùn)練,但與規(guī)模更大的視頻生成模型(如 Wan 2.1、HunyuanVideo)相比,Seaweed-7B 表現(xiàn)出了具有競爭力的性能。
在資源有限的情況下,設(shè)計(jì)選擇尤為重要。該技術(shù)報(bào)告重點(diǎn)介紹了提高中型擴(kuò)散模型性能的關(guān)鍵設(shè)計(jì)決策。他們得出了兩點(diǎn)結(jié)論:(1)Seaweed-7B 的性能可媲美甚至超越使用更多 GPU 資源訓(xùn)練的更大型模型;(2) Seaweed-7B 具有很強(qiáng)的泛化能力,可以通過輕量級微調(diào)或繼續(xù)訓(xùn)練,有效適用于各種下游應(yīng)用領(lǐng)域。
論文鏈接:https://arxiv.org/abs/2504.08685
4. CMU 團(tuán)隊(duì)提出「協(xié)作式 RAG」框架 CoRAG
檢索增強(qiáng)生成(RAG)模型在知識密集型任務(wù)中表現(xiàn)出色,尤其是在少樣本學(xué)習(xí)限制條件下。
在這項(xiàng)工作中,卡內(nèi)基梅隆大學(xué)團(tuán)隊(duì)提出了一個(gè)將 RAG 擴(kuò)展到協(xié)作環(huán)境的框架——CoRAG,其中多個(gè) client 使用協(xié)作文本片段存儲共同訓(xùn)練一個(gè)共享模型。
為了評估 CoRAG,他們還提出了一個(gè)用于協(xié)作同構(gòu)開放域問答的基準(zhǔn)——CRAB。實(shí)驗(yàn)證明,在資源匱乏的情況下,CoRAG 始終優(yōu)于參數(shù)協(xié)作學(xué)習(xí)方法和本地訓(xùn)練的 RAG 模型。進(jìn)一步的分析揭示了共享存儲中相關(guān)文本片段的重要性、納入無關(guān)文本片段的驚人優(yōu)勢以及硬否定對性能產(chǎn)生負(fù)面影響的可能性。這就為協(xié)作式 RAG 引入了一個(gè)新的考慮因素:利用集體豐富的知識庫與納入其他 client 的有害文本片段的潛在風(fēng)險(xiǎn)之間的權(quán)衡。研究結(jié)果強(qiáng)調(diào)了 CoRAG 的可行性,同時(shí)也突出了關(guān)鍵的設(shè)計(jì)挑戰(zhàn)和未來研究的前景。
論文鏈接:https://arxiv.org/abs/2504.01883
5. 港大提出圖像生成模型 PixelFlow:無需 VAE,可端到端訓(xùn)練
在這項(xiàng)工作中,香港大學(xué)團(tuán)隊(duì)提出了一系列直接在原始像素空間運(yùn)行的圖像生成模型 PixelFlow,其與主流的潛空間模型截然不同。
這種方法無需預(yù)訓(xùn)練變分自編碼器(VAE),簡化了圖像生成過程,并使整個(gè)模型可以端到端訓(xùn)練。通過高效的級聯(lián)流建模,PixelFlow 在像素空間內(nèi)實(shí)現(xiàn)了可負(fù)擔(dān)的計(jì)算成本。它在 256*256 ImageNet 類別條件圖像生成基準(zhǔn)上的 FID 達(dá)到了 1.98。文本到圖像的定性結(jié)果表明,PixelFlow 在圖像質(zhì)量、藝術(shù)性和語義控制方面表現(xiàn)出色。
論文鏈接:https://arxiv.org/abs/2504.07963
整理:錦鯉
如需轉(zhuǎn)載或投稿,請直接在公眾號內(nèi)留言
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.