網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

首次！AI生成論文通過同行評(píng)審；研究發(fā)現(xiàn)：推理模型根本無需思考｜今日熱門論文

2025-04-16 20:36:51　來源: 學(xué)術(shù)頭條

北京舉報(bào)

分享至

速覽熱門論文

1.首次！AI 生成論文通過同行評(píng)審

2.專家發(fā)文質(zhì)疑：LLM 過度預(yù)訓(xùn)練是災(zāi)難性的

3.研究發(fā)現(xiàn)：推理模型根本「無需思考」

4.Liquid：語言模型是可擴(kuò)展的、統(tǒng)一多模態(tài)生成器

1.首次！AI 生成論文通過同行評(píng)審

在這項(xiàng)工作中，Sakana AI 團(tuán)隊(duì)推出了 The AI Scientist-v2，這是一個(gè)端到端的 agent 系統(tǒng)，能夠生成首篇完全由 AI 生成并通過同行評(píng)審的研討會(huì)論文。

該系統(tǒng)可以迭代地提出科學(xué)假設(shè)、設(shè)計(jì)和執(zhí)行實(shí)驗(yàn)、分析和可視化數(shù)據(jù)，并自主撰寫科學(xué)手稿。與上一代相比，The AI Scientist-v2 消除了對(duì)人類編寫的代碼模板的依賴，在不同的機(jī)器學(xué)習(xí)領(lǐng)域有效地進(jìn)行了泛化，并利用了由專門的實(shí)驗(yàn)管理器 agent 管理的漸進(jìn) agentic 樹搜索方法。此外，他們還集成了視覺語言模型（VLM）反饋回路，用于迭代完善圖表的內(nèi)容和美感，從而增強(qiáng)了人工智能審閱器組件。

他們通過向同行評(píng)審的 ICLR 研討會(huì)提交三份完全自主的稿件，對(duì) AI Scientist-v2 進(jìn)行了評(píng)估。值得注意的是，其中一篇稿件獲得了足夠高的分?jǐn)?shù)，超過了人類接受稿件的平均門檻，這代表完全由人工智能生成的論文首次成功通過同行評(píng)審。

論文鏈接：https://arxiv.org/abs/2504.08066

2.專家發(fā)文質(zhì)疑：LLM 過度預(yù)訓(xùn)練是災(zāi)難性的

大語言模型（LLM）是根據(jù)不斷增長(zhǎng)的 token 預(yù)算進(jìn)行預(yù)訓(xùn)練的，其假設(shè)是更好的預(yù)訓(xùn)練性能可以轉(zhuǎn)化為更好的下游模型。

在這項(xiàng)工作中，來自卡內(nèi)基梅隆大學(xué)的研究團(tuán)隊(duì)及其合作者對(duì)這一假設(shè)提出了質(zhì)疑，并證明擴(kuò)展預(yù)訓(xùn)練會(huì)使模型更難微調(diào)，從而導(dǎo)致最終性能下降。他們將這種現(xiàn)象稱為災(zāi)難性過度訓(xùn)練（catastrophic overtraining）。例如，根據(jù) 3T token 預(yù)訓(xùn)練的指令微調(diào) OLMo-1B 模型在多個(gè)標(biāo)準(zhǔn) LLM 基準(zhǔn)上的性能比其 2.3T token 對(duì)應(yīng)模型差 2% 以上。

通過對(duì)照實(shí)驗(yàn)和理論分析，他們發(fā)現(xiàn)，災(zāi)難性過度訓(xùn)練源于預(yù)訓(xùn)練參數(shù)對(duì)修改（包括但不限于微調(diào)）的廣泛敏感性的系統(tǒng)性增加。這一研究結(jié)果要求對(duì)預(yù)訓(xùn)練設(shè)計(jì)進(jìn)行嚴(yán)格的重新評(píng)估，以考慮模型的下游適應(yīng)性。

論文鏈接：https://arxiv.org/abs/2503.19206

3.研究發(fā)現(xiàn)：推理模型根本「無需思考」

通過在生成過程中加入明確、冗長(zhǎng)的“思考”過程，大語言模型（LLM）可以提高自身的推理能力。

在這項(xiàng)工作中，加州大學(xué)伯克利分校團(tuán)隊(duì)質(zhì)疑了這種明確的思考是否有必要。通過使用 DeepSeek-R1-Distill-Qwen 算法，他們發(fā)現(xiàn)通過簡(jiǎn)單的提示（即 NoThinking）繞過思考過程，可以達(dá)到令人驚訝的效果。如果控制 token 數(shù)量，NoThinking 在 7 個(gè)具有挑戰(zhàn)性的推理數(shù)據(jù)集（包括數(shù)學(xué)問題求解、形式化定理證明和編碼）中的表現(xiàn)均優(yōu)于 Thinking，尤其是在低預(yù)算環(huán)境下，例如，在 700 個(gè) token 的 ACM 23 中，NoThinking 的表現(xiàn)為 51.3 vs. 28.9。值得注意的是，隨著 k 的增加，NoThinking 的性能在 pass@k 上更具競(jìng)爭(zhēng)力。

基于這一觀察結(jié)果，他們證明了使用 NoThinking 獨(dú)立生成 N 個(gè)輸出并將其聚合的并行擴(kuò)展方法非常有效。在聚合時(shí)，他們會(huì)使用特定任務(wù)驗(yàn)證器，或者采用簡(jiǎn)單的 best-of-N 策略，如基于置信度的選擇。他們的方法優(yōu)于一系列使用 Thinking 的基線方法，可與具有更長(zhǎng)延遲（高達(dá) 9 倍）的 Thinking 相媲美。

論文鏈接：https://arxiv.org/abs/2504.09858

4.Liquid：語言模型是可擴(kuò)展的、統(tǒng)一多模態(tài)生成器

在這項(xiàng)工作中，來自華中科技大學(xué)、字節(jié)跳動(dòng)和香港大學(xué)的研究團(tuán)隊(duì)提出了一種自回歸生成方法——Liquid，其通過將圖像標(biāo) token 為離散代碼，并在視覺和語言的共享特征空間內(nèi)學(xué)習(xí)這些代碼嵌入以及文本 token，從而將視覺理解和生成無縫整合在一起。與以往的多模態(tài)大語言模型（MLLM）不同，Liquid 利用單個(gè)大語言模型（LLM）實(shí)現(xiàn)了這一整合，從而消除了對(duì)外部預(yù)訓(xùn)練視覺嵌入（如 CLIP）的需求。

Liquid 首次發(fā)現(xiàn)了一個(gè) scaling law，即隨著模型規(guī)模的增大，視覺和語言任務(wù)的統(tǒng)一訓(xùn)練不可避免地會(huì)帶來性能下降。此外，統(tǒng)一的 token 空間還能使視覺生成和理解任務(wù)相互促進(jìn)，有效消除早期模型中的干擾。

研究表明，現(xiàn)有的 LLM 可以作為 Liquid 的基座，在多模態(tài)能力上好于 Chameleon 的同時(shí)，還能節(jié)省 100 倍的訓(xùn)練成本，并保持與主流 LLM（如 LLAMA2）相當(dāng)?shù)恼Z言性能。Liquid 在視覺語言和純文本任務(wù)中的表現(xiàn)也優(yōu)于 SD v2.1 和 SD-XL（在 MJHQ-30K 上的 FID 為 5.47）。

論文鏈接：https://arxiv.org/abs/2412.04332

整理：學(xué)術(shù)君

如需轉(zhuǎn)載或投稿，請(qǐng)直接在公眾號(hào)內(nèi)留言

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.