網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

微軟發(fā)布首個(gè)開源、原生1-bit LLM；再試一次，即可提高LLM搜索能力｜今日熱門論文

2025-04-17 20:38:08　來(lái)源: 學(xué)術(shù)頭條

北京舉報(bào)

分享至

速覽熱門論文

1. 微軟發(fā)布首個(gè)開源、原生 1-bit 大語(yǔ)言模型

2. 再試一次，即可提高 LLM 搜索能力

3. Cobra：利用 200 張參考圖像實(shí)現(xiàn)高效線條著色

4. ActPRM：通過(guò)主動(dòng)學(xué)習(xí)高效訓(xùn)練 PRM

5. 綜述：高效推理模型

1. 微軟發(fā)布首個(gè)開源、原生 1-bit 大語(yǔ)言模型

在這項(xiàng)工作中，微軟研究院團(tuán)隊(duì)提出了 BitNet b1.58 2B4T——首個(gè)開源、原生 1-bit 大語(yǔ)言模型（LLM），參數(shù)規(guī)模為 20 億。該模型在包含 4 萬(wàn)億 token 的語(yǔ)料庫(kù)中進(jìn)行了訓(xùn)練，并在語(yǔ)言理解、數(shù)學(xué)推理、編碼能力和會(huì)話能力等方面進(jìn)行了基準(zhǔn)評(píng)估。

結(jié)果表明，BitNet b1.58 2B4T 的性能與同等規(guī)模的領(lǐng)先開放權(quán)重、全精度 LLM 不相上下，同時(shí)在計(jì)算效率方面具有顯著優(yōu)勢(shì)，包括大幅減少內(nèi)存占用、能耗和解碼延遲。

為了促進(jìn)進(jìn)一步的研究和應(yīng)用，他們發(fā)布了模型權(quán)重以及 GPU 和 CPU 架構(gòu)的開源推理實(shí)現(xiàn)。

論文鏈接：https://arxiv.org/abs/2504.12285

2. 再試一次，即可提高 LLM 搜索能力

檢索增強(qiáng)生成（RAG）提高了大語(yǔ)言模型（LLM）在知識(shí)密集型任務(wù)中的性能，但這在很大程度上取決于初始搜索查詢的質(zhì)量。當(dāng)前方法通常使用強(qiáng)化學(xué)習(xí)，側(cè)重于查詢表述或結(jié)果推理，而不會(huì)明確鼓勵(lì)在搜索失敗后繼續(xù)搜索。

在這項(xiàng)工作中，Menlo Research 團(tuán)隊(duì)提出了一個(gè)新的強(qiáng)化學(xué)習(xí)框架——ReZero（Retry-Zero），其直接獎(jiǎng)勵(lì)初次嘗試失敗后重試搜索查詢的行為。這激勵(lì) LLM 探索其他查詢，而不是過(guò)早地停止。

與 25% 的基線相比，ReZero 取得了 46.88% 的準(zhǔn)確率，增強(qiáng)了 LLM 在復(fù)雜信息搜索場(chǎng)景中的魯棒性，在這種場(chǎng)景中，最初的查詢可能被證明是不夠的。

論文鏈接：https://arxiv.org/abs/2504.11001

3. Cobra：利用 200 張參考圖像實(shí)現(xiàn)高效線條著色

漫畫制作行業(yè)需要基于參考資料的線稿著色，要求精確度高、效率高、上下文一致、控制靈活。漫畫頁(yè)面通常涉及不同的人物、物體和背景，這使得著色過(guò)程變得復(fù)雜。用于圖像生成的擴(kuò)散模型在線描著色中的應(yīng)用依然有限，面臨著處理大量參考圖像、推理耗時(shí)和靈活控制等挑戰(zhàn)。

在這項(xiàng)工作中，來(lái)自清華大學(xué)、香港中文大學(xué)和騰訊的聯(lián)合團(tuán)隊(duì)研究了大量上下文圖像引導(dǎo)對(duì)線稿著色質(zhì)量的必要性。為了應(yīng)對(duì)這些挑戰(zhàn)，他提出了一種高效、多用途的方法 Cobra，其支持色彩提示，可利用 200 多張參考圖像，同時(shí)保持較低的延遲。

Cobra 的核心是因果稀疏 DiT 架構(gòu)，該架構(gòu)利用專門設(shè)計(jì)的位置編碼、因果稀疏注意力和鍵值緩存來(lái)有效管理長(zhǎng)上下文參考，并確保色彩身份的一致性。結(jié)果表明，Cobra 通過(guò)廣泛的上下文參考實(shí)現(xiàn)了準(zhǔn)確的線條美著色，提高了推理速度和交互性，從而滿足了關(guān)鍵的工業(yè)需求。

論文地址：https://arxiv.org/abs/2504.12240

4. ActPRM：通過(guò)主動(dòng)學(xué)習(xí)高效訓(xùn)練 PRM

過(guò)程獎(jiǎng)勵(lì)模型（PRM）為大語(yǔ)言模型（LLMs）提供了階段級(jí)監(jiān)督，但對(duì)于人類和 LLM 來(lái)說(shuō)，擴(kuò)大訓(xùn)練數(shù)據(jù)標(biāo)注仍然是一項(xiàng)挑戰(zhàn)。

為了解決這一局限性，來(lái)自新加坡國(guó)立大學(xué)和 Sea AI Lab 的研究團(tuán)隊(duì)提出了一種主動(dòng)學(xué)習(xí)方法 ActPRM，它可以主動(dòng)選擇最不確定的樣本進(jìn)行訓(xùn)練，從而大大降低標(biāo)注成本。在訓(xùn)練過(guò)程中，他們使用 PRM 估算前向傳播后的不確定性，只保留高度不確定的數(shù)據(jù)。隨后，功能更強(qiáng)的推理模型會(huì)對(duì)這些數(shù)據(jù)進(jìn)行標(biāo)注。然后，他們計(jì)算與標(biāo)注相關(guān)的損失，并更新 PRM 的權(quán)重。

他們?cè)诨诔氐闹鲃?dòng)學(xué)習(xí)設(shè)置中比較了 ActPRM 和 vanilla 微調(diào)，結(jié)果表明 ActPRM 減少了 50% 的標(biāo)注，但卻實(shí)現(xiàn)了相當(dāng)甚至更好的性能。除了標(biāo)注效率之外，他們還利用 ActPRM 過(guò)濾了 100 多萬(wàn)條數(shù)學(xué)推理軌跡，保留了 60% 的數(shù)據(jù)，從而進(jìn)一步提高了主動(dòng)訓(xùn)練 PRM 的性能。與同等規(guī)模的模型相比，在這一選定數(shù)據(jù)集上進(jìn)行的后續(xù)訓(xùn)練在 ProcessBench（75.0%）和 PRMBench（65.5%）上產(chǎn)生了 SOTA PRM。

論文鏈接：https://arxiv.org/abs/2504.10559

5. 綜述：高效推理模型

推理模型通過(guò)在得出最終答案之前生成擴(kuò)展的“思維鏈”（CoT），在解決復(fù)雜的邏輯密集型任務(wù)方面取得了很大的進(jìn)展。然而，這種“慢思考”模式的出現(xiàn)，以及依次生成的大量 token，不可避免地帶來(lái)了大量計(jì)算開銷。這凸顯了對(duì)有效加速的迫切需求。

在這項(xiàng)工作中，新加坡國(guó)立大學(xué)團(tuán)隊(duì)旨在全面概述高效推理的新進(jìn)展，將現(xiàn)有工作分為三個(gè)主要方向：（1）更短--將冗長(zhǎng)的 CoT 壓縮成簡(jiǎn)潔而有效的推理鏈；（2）更小--通過(guò)知識(shí)蒸餾、其他模型壓縮和強(qiáng)化學(xué)習(xí)等技術(shù)，開發(fā)具有強(qiáng)推理能力的緊湊語(yǔ)言模型；（3）更快--設(shè)計(jì)高效的解碼策略以加速推理。

論文鏈接：https://arxiv.org/abs/2504.10903

整理：學(xué)術(shù)君

如需轉(zhuǎn)載或投稿，請(qǐng)直接在公眾號(hào)內(nèi)留言

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.