網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

實(shí)錘！大模型不會(huì)真正的數(shù)學(xué)推理；微軟開源實(shí)時(shí)交互式世界模型MineWorld｜今日熱門論文

2025-04-14 20:01:02　來源: 學(xué)術(shù)頭條

北京舉報(bào)

分享至

速覽熱門論文

1. 實(shí)錘！大模型不會(huì)真正的數(shù)學(xué)推理

2. 微軟開源實(shí)時(shí)交互式世界模型 MineWorld

3. 字節(jié)：7B 高性能視頻生成模型訓(xùn)練策略

4. CMU 團(tuán)隊(duì)提出「協(xié)作式 RAG」框架 CoRAG

5. 港大提出圖像生成模型 PixelFlow：無需 VAE，可端到端訓(xùn)練

1. 實(shí)錘！大模型不會(huì)真正的數(shù)學(xué)推理

盡管 benchmark 分?jǐn)?shù)很高，但大語言模型（LLM）經(jīng)常在簡單的問題上失敗，這就提出了一個(gè)關(guān)鍵問題：LLM 是在學(xué)習(xí)數(shù)學(xué)原理，還是僅僅在記憶模式？

在這項(xiàng)工作中，來自浙江大學(xué)和西湖大學(xué)的研究團(tuán)隊(duì)沒有設(shè)計(jì)更為復(fù)雜的 benchmark，而是使用基本的二進(jìn)制加法（0 到 2^64）來研究這個(gè)問題，探究了兩個(gè)核心特性：交換律（A+B=B+A）和組合泛化（通過同構(gòu)符號映射，例如，7 映射為 y）。SOTA LLM 在數(shù)字加法上的準(zhǔn)確率為 73.8%-99.8%，而在符號映射下的準(zhǔn)確率則下降到 7.5% 及以下，這表明所學(xué)規(guī)則的泛化失敗。數(shù)字?jǐn)?shù)量增加時(shí)的非單調(diào)性能變化，以及頻繁的交換律違反（超過 1700 例“A+B 不等于 B+A”），進(jìn)一步證明了這一點(diǎn)。明確提供加法規(guī)則會(huì)使性能平均下降 81.2%，而自我解釋則能保持基線準(zhǔn)確率，這表明 LLM 的算術(shù)處理與人類定義的原則不一致。

研究結(jié)果表明，當(dāng)前的 LLM 依賴于記憶模式，而不是真正的規(guī)則學(xué)習(xí)，這凸顯了架構(gòu)上的局限性，以及需要新方法來實(shí)現(xiàn)真正的數(shù)學(xué)推理。

論文鏈接：https://arxiv.org/abs/2504.05262

2. 微軟開源實(shí)時(shí)交互式世界模型 MineWorld

世界建模是智能 agent 與人類有效互動(dòng)并在動(dòng)態(tài)環(huán)境中運(yùn)行的關(guān)鍵任務(wù)。

在這項(xiàng)工作中，微軟研究院團(tuán)隊(duì)提出了一個(gè)基于 Minecraft 的實(shí)時(shí)交互式世界模型——MineWorld，其由視覺-動(dòng)作自回歸 Transformer 驅(qū)動(dòng)，將配對的游戲場景和相應(yīng)的動(dòng)作作為輸入，并根據(jù)動(dòng)作生成相應(yīng)的新場景。

具體來說，他們通過圖像 tokenizer 和動(dòng)作 tokenizer 將視覺游戲場景和動(dòng)作轉(zhuǎn)化為離散的 token ID，然后將這兩種 ID 交錯(cuò)連接組成模型輸入，再通過下一個(gè) token 預(yù)測對模型進(jìn)行訓(xùn)練，從而同時(shí)學(xué)習(xí)游戲狀態(tài)的豐富表征以及狀態(tài)和動(dòng)作之間的條件。

在推理方面，他們開發(fā)了一種新穎的并行解碼算法，可同時(shí)預(yù)測每幀中的空間冗余 token，讓不同規(guī)模的模型每秒生成 4 至 7 幀，實(shí)現(xiàn)與游戲玩家的實(shí)時(shí)互動(dòng)。在評估中，他們提出了新的指標(biāo)，不僅可以評估視覺質(zhì)量，還可以評估生成新場景時(shí)的動(dòng)作跟隨能力，這對世界模型至關(guān)重要。

綜合評估結(jié)果表明，MineWorld 的效果優(yōu)于基于擴(kuò)散的 SoTA 開源世界模型。

論文鏈接：https://arxiv.org/abs/2504.08388

3. 字節(jié)：7B 高性能視頻生成模型訓(xùn)練策略

在這項(xiàng)工作中，字節(jié)跳動(dòng) Seed 團(tuán)隊(duì)介紹了一種具有成本效益的視頻生成基礎(chǔ)模型訓(xùn)練策略。他們介紹了一個(gè)擁有約 70 億（7B）參數(shù)的中型研究模型，稱為 Seaweed-7B，該模型使用 665000 H100 GPU 小時(shí)從頭開始訓(xùn)練。盡管只使用了中等計(jì)算資源進(jìn)行訓(xùn)練，但與規(guī)模更大的視頻生成模型（如 Wan 2.1、HunyuanVideo）相比，Seaweed-7B 表現(xiàn)出了具有競爭力的性能。

在資源有限的情況下，設(shè)計(jì)選擇尤為重要。該技術(shù)報(bào)告重點(diǎn)介紹了提高中型擴(kuò)散模型性能的關(guān)鍵設(shè)計(jì)決策。他們得出了兩點(diǎn)結(jié)論：（1）Seaweed-7B 的性能可媲美甚至超越使用更多 GPU 資源訓(xùn)練的更大型模型；(2) Seaweed-7B 具有很強(qiáng)的泛化能力，可以通過輕量級微調(diào)或繼續(xù)訓(xùn)練，有效適用于各種下游應(yīng)用領(lǐng)域。

論文鏈接：https://arxiv.org/abs/2504.08685

4. CMU 團(tuán)隊(duì)提出「協(xié)作式 RAG」框架 CoRAG

檢索增強(qiáng)生成（RAG）模型在知識密集型任務(wù)中表現(xiàn)出色，尤其是在少樣本學(xué)習(xí)限制條件下。

在這項(xiàng)工作中，卡內(nèi)基梅隆大學(xué)團(tuán)隊(duì)提出了一個(gè)將 RAG 擴(kuò)展到協(xié)作環(huán)境的框架——CoRAG，其中多個(gè) client 使用協(xié)作文本片段存儲共同訓(xùn)練一個(gè)共享模型。

為了評估 CoRAG，他們還提出了一個(gè)用于協(xié)作同構(gòu)開放域問答的基準(zhǔn)——CRAB。實(shí)驗(yàn)證明，在資源匱乏的情況下，CoRAG 始終優(yōu)于參數(shù)協(xié)作學(xué)習(xí)方法和本地訓(xùn)練的 RAG 模型。進(jìn)一步的分析揭示了共享存儲中相關(guān)文本片段的重要性、納入無關(guān)文本片段的驚人優(yōu)勢以及硬否定對性能產(chǎn)生負(fù)面影響的可能性。這就為協(xié)作式 RAG 引入了一個(gè)新的考慮因素：利用集體豐富的知識庫與納入其他 client 的有害文本片段的潛在風(fēng)險(xiǎn)之間的權(quán)衡。研究結(jié)果強(qiáng)調(diào)了 CoRAG 的可行性，同時(shí)也突出了關(guān)鍵的設(shè)計(jì)挑戰(zhàn)和未來研究的前景。

論文鏈接：https://arxiv.org/abs/2504.01883

5. 港大提出圖像生成模型 PixelFlow：無需 VAE，可端到端訓(xùn)練

在這項(xiàng)工作中，香港大學(xué)團(tuán)隊(duì)提出了一系列直接在原始像素空間運(yùn)行的圖像生成模型 PixelFlow，其與主流的潛空間模型截然不同。

這種方法無需預(yù)訓(xùn)練變分自編碼器（VAE），簡化了圖像生成過程，并使整個(gè)模型可以端到端訓(xùn)練。通過高效的級聯(lián)流建模，PixelFlow 在像素空間內(nèi)實(shí)現(xiàn)了可負(fù)擔(dān)的計(jì)算成本。它在 256*256 ImageNet 類別條件圖像生成基準(zhǔn)上的 FID 達(dá)到了 1.98。文本到圖像的定性結(jié)果表明，PixelFlow 在圖像質(zhì)量、藝術(shù)性和語義控制方面表現(xiàn)出色。

論文鏈接：https://arxiv.org/abs/2504.07963

整理：錦鯉

如需轉(zhuǎn)載或投稿，請直接在公眾號內(nèi)留言

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.