速覽熱門論文
1. 微軟發(fā)布首個(gè)開源、原生 1-bit 大語(yǔ)言模型
2. 再試一次,即可提高 LLM 搜索能力
3. Cobra:利用 200 張參考圖像實(shí)現(xiàn)高效線條著色
4. ActPRM:通過(guò)主動(dòng)學(xué)習(xí)高效訓(xùn)練 PRM
5. 綜述:高效推理模型
1. 微軟發(fā)布首個(gè)開源、原生 1-bit 大語(yǔ)言模型
在這項(xiàng)工作中,微軟研究院團(tuán)隊(duì)提出了 BitNet b1.58 2B4T——首個(gè)開源、原生 1-bit 大語(yǔ)言模型(LLM),參數(shù)規(guī)模為 20 億。該模型在包含 4 萬(wàn)億 token 的語(yǔ)料庫(kù)中進(jìn)行了訓(xùn)練,并在語(yǔ)言理解、數(shù)學(xué)推理、編碼能力和會(huì)話能力等方面進(jìn)行了基準(zhǔn)評(píng)估。
結(jié)果表明,BitNet b1.58 2B4T 的性能與同等規(guī)模的領(lǐng)先開放權(quán)重、全精度 LLM 不相上下,同時(shí)在計(jì)算效率方面具有顯著優(yōu)勢(shì),包括大幅減少內(nèi)存占用、能耗和解碼延遲。
為了促進(jìn)進(jìn)一步的研究和應(yīng)用,他們發(fā)布了模型權(quán)重以及 GPU 和 CPU 架構(gòu)的開源推理實(shí)現(xiàn)。
論文鏈接:https://arxiv.org/abs/2504.12285
2. 再試一次,即可提高 LLM 搜索能力
檢索增強(qiáng)生成(RAG)提高了大語(yǔ)言模型(LLM)在知識(shí)密集型任務(wù)中的性能,但這在很大程度上取決于初始搜索查詢的質(zhì)量。當(dāng)前方法通常使用強(qiáng)化學(xué)習(xí),側(cè)重于查詢表述或結(jié)果推理,而不會(huì)明確鼓勵(lì)在搜索失敗后繼續(xù)搜索。
在這項(xiàng)工作中,Menlo Research 團(tuán)隊(duì)提出了一個(gè)新的強(qiáng)化學(xué)習(xí)框架——ReZero(Retry-Zero),其直接獎(jiǎng)勵(lì)初次嘗試失敗后重試搜索查詢的行為。這激勵(lì) LLM 探索其他查詢,而不是過(guò)早地停止。
與 25% 的基線相比,ReZero 取得了 46.88% 的準(zhǔn)確率,增強(qiáng)了 LLM 在復(fù)雜信息搜索場(chǎng)景中的魯棒性,在這種場(chǎng)景中,最初的查詢可能被證明是不夠的。
論文鏈接:https://arxiv.org/abs/2504.11001
3. Cobra:利用 200 張參考圖像實(shí)現(xiàn)高效線條著色
漫畫制作行業(yè)需要基于參考資料的線稿著色,要求精確度高、效率高、上下文一致、控制靈活。漫畫頁(yè)面通常涉及不同的人物、物體和背景,這使得著色過(guò)程變得復(fù)雜。用于圖像生成的擴(kuò)散模型在線描著色中的應(yīng)用依然有限,面臨著處理大量參考圖像、推理耗時(shí)和靈活控制等挑戰(zhàn)。
在這項(xiàng)工作中,來(lái)自清華大學(xué)、香港中文大學(xué)和騰訊的聯(lián)合團(tuán)隊(duì)研究了大量上下文圖像引導(dǎo)對(duì)線稿著色質(zhì)量的必要性。為了應(yīng)對(duì)這些挑戰(zhàn),他提出了一種高效、多用途的方法 Cobra,其支持色彩提示,可利用 200 多張參考圖像,同時(shí)保持較低的延遲。
Cobra 的核心是因果稀疏 DiT 架構(gòu),該架構(gòu)利用專門設(shè)計(jì)的位置編碼、因果稀疏注意力和鍵值緩存來(lái)有效管理長(zhǎng)上下文參考,并確保色彩身份的一致性。結(jié)果表明,Cobra 通過(guò)廣泛的上下文參考實(shí)現(xiàn)了準(zhǔn)確的線條美著色,提高了推理速度和交互性,從而滿足了關(guān)鍵的工業(yè)需求。
論文地址:https://arxiv.org/abs/2504.12240
4. ActPRM:通過(guò)主動(dòng)學(xué)習(xí)高效訓(xùn)練 PRM
過(guò)程獎(jiǎng)勵(lì)模型(PRM)為大語(yǔ)言模型(LLMs)提供了階段級(jí)監(jiān)督,但對(duì)于人類和 LLM 來(lái)說(shuō),擴(kuò)大訓(xùn)練數(shù)據(jù)標(biāo)注仍然是一項(xiàng)挑戰(zhàn)。
為了解決這一局限性,來(lái)自新加坡國(guó)立大學(xué)和 Sea AI Lab 的研究團(tuán)隊(duì)提出了一種主動(dòng)學(xué)習(xí)方法 ActPRM,它可以主動(dòng)選擇最不確定的樣本進(jìn)行訓(xùn)練,從而大大降低標(biāo)注成本。在訓(xùn)練過(guò)程中,他們使用 PRM 估算前向傳播后的不確定性,只保留高度不確定的數(shù)據(jù)。隨后,功能更強(qiáng)的推理模型會(huì)對(duì)這些數(shù)據(jù)進(jìn)行標(biāo)注。然后,他們計(jì)算與標(biāo)注相關(guān)的損失,并更新 PRM 的權(quán)重。
他們?cè)诨诔氐闹鲃?dòng)學(xué)習(xí)設(shè)置中比較了 ActPRM 和 vanilla 微調(diào),結(jié)果表明 ActPRM 減少了 50% 的標(biāo)注,但卻實(shí)現(xiàn)了相當(dāng)甚至更好的性能。除了標(biāo)注效率之外,他們還利用 ActPRM 過(guò)濾了 100 多萬(wàn)條數(shù)學(xué)推理軌跡,保留了 60% 的數(shù)據(jù),從而進(jìn)一步提高了主動(dòng)訓(xùn)練 PRM 的性能。與同等規(guī)模的模型相比,在這一選定數(shù)據(jù)集上進(jìn)行的后續(xù)訓(xùn)練在 ProcessBench(75.0%)和 PRMBench(65.5%)上產(chǎn)生了 SOTA PRM。
論文鏈接:https://arxiv.org/abs/2504.10559
5. 綜述:高效推理模型
推理模型通過(guò)在得出最終答案之前生成擴(kuò)展的“思維鏈”(CoT),在解決復(fù)雜的邏輯密集型任務(wù)方面取得了很大的進(jìn)展。然而,這種“慢思考”模式的出現(xiàn),以及依次生成的大量 token,不可避免地帶來(lái)了大量計(jì)算開銷。這凸顯了對(duì)有效加速的迫切需求。
在這項(xiàng)工作中,新加坡國(guó)立大學(xué)團(tuán)隊(duì)旨在全面概述高效推理的新進(jìn)展,將現(xiàn)有工作分為三個(gè)主要方向:(1)更短--將冗長(zhǎng)的 CoT 壓縮成簡(jiǎn)潔而有效的推理鏈;(2)更小--通過(guò)知識(shí)蒸餾、其他模型壓縮和強(qiáng)化學(xué)習(xí)等技術(shù),開發(fā)具有強(qiáng)推理能力的緊湊語(yǔ)言模型;(3)更快--設(shè)計(jì)高效的解碼策略以加速推理。
論文鏈接:https://arxiv.org/abs/2504.10903
整理:學(xué)術(shù)君
如需轉(zhuǎn)載或投稿,請(qǐng)直接在公眾號(hào)內(nèi)留言
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.