速覽熱門論文
1.首次!AI 生成論文通過同行評(píng)審
2.專家發(fā)文質(zhì)疑:LLM 過度預(yù)訓(xùn)練是災(zāi)難性的
3.研究發(fā)現(xiàn):推理模型根本「無需思考」
4.Liquid:語言模型是可擴(kuò)展的、統(tǒng)一多模態(tài)生成器
1.首次!AI 生成論文通過同行評(píng)審
在這項(xiàng)工作中,Sakana AI 團(tuán)隊(duì)推出了 The AI Scientist-v2,這是一個(gè)端到端的 agent 系統(tǒng),能夠生成首篇完全由 AI 生成并通過同行評(píng)審的研討會(huì)論文。
該系統(tǒng)可以迭代地提出科學(xué)假設(shè)、設(shè)計(jì)和執(zhí)行實(shí)驗(yàn)、分析和可視化數(shù)據(jù),并自主撰寫科學(xué)手稿。與上一代相比,The AI Scientist-v2 消除了對(duì)人類編寫的代碼模板的依賴,在不同的機(jī)器學(xué)習(xí)領(lǐng)域有效地進(jìn)行了泛化,并利用了由專門的實(shí)驗(yàn)管理器 agent 管理的漸進(jìn) agentic 樹搜索方法。此外,他們還集成了視覺語言模型(VLM)反饋回路,用于迭代完善圖表的內(nèi)容和美感,從而增強(qiáng)了人工智能審閱器組件。
他們通過向同行評(píng)審的 ICLR 研討會(huì)提交三份完全自主的稿件,對(duì) AI Scientist-v2 進(jìn)行了評(píng)估。值得注意的是,其中一篇稿件獲得了足夠高的分?jǐn)?shù),超過了人類接受稿件的平均門檻,這代表完全由人工智能生成的論文首次成功通過同行評(píng)審。
論文鏈接:https://arxiv.org/abs/2504.08066
2.專家發(fā)文質(zhì)疑:LLM 過度預(yù)訓(xùn)練是災(zāi)難性的
大語言模型(LLM)是根據(jù)不斷增長(zhǎng)的 token 預(yù)算進(jìn)行預(yù)訓(xùn)練的,其假設(shè)是更好的預(yù)訓(xùn)練性能可以轉(zhuǎn)化為更好的下游模型。
在這項(xiàng)工作中,來自卡內(nèi)基梅隆大學(xué)的研究團(tuán)隊(duì)及其合作者對(duì)這一假設(shè)提出了質(zhì)疑,并證明擴(kuò)展預(yù)訓(xùn)練會(huì)使模型更難微調(diào),從而導(dǎo)致最終性能下降。他們將這種現(xiàn)象稱為災(zāi)難性過度訓(xùn)練(catastrophic overtraining)。例如,根據(jù) 3T token 預(yù)訓(xùn)練的指令微調(diào) OLMo-1B 模型在多個(gè)標(biāo)準(zhǔn) LLM 基準(zhǔn)上的性能比其 2.3T token 對(duì)應(yīng)模型差 2% 以上。
通過對(duì)照實(shí)驗(yàn)和理論分析,他們發(fā)現(xiàn),災(zāi)難性過度訓(xùn)練源于預(yù)訓(xùn)練參數(shù)對(duì)修改(包括但不限于微調(diào))的廣泛敏感性的系統(tǒng)性增加。這一研究結(jié)果要求對(duì)預(yù)訓(xùn)練設(shè)計(jì)進(jìn)行嚴(yán)格的重新評(píng)估,以考慮模型的下游適應(yīng)性。
論文鏈接:https://arxiv.org/abs/2503.19206
3.研究發(fā)現(xiàn):推理模型根本「無需思考」
通過在生成過程中加入明確、冗長(zhǎng)的“思考”過程,大語言模型(LLM)可以提高自身的推理能力。
在這項(xiàng)工作中,加州大學(xué)伯克利分校團(tuán)隊(duì)質(zhì)疑了這種明確的思考是否有必要。通過使用 DeepSeek-R1-Distill-Qwen 算法,他們發(fā)現(xiàn)通過簡(jiǎn)單的提示(即 NoThinking)繞過思考過程,可以達(dá)到令人驚訝的效果。如果控制 token 數(shù)量,NoThinking 在 7 個(gè)具有挑戰(zhàn)性的推理數(shù)據(jù)集(包括數(shù)學(xué)問題求解、形式化定理證明和編碼)中的表現(xiàn)均優(yōu)于 Thinking,尤其是在低預(yù)算環(huán)境下,例如,在 700 個(gè) token 的 ACM 23 中,NoThinking 的表現(xiàn)為 51.3 vs. 28.9。值得注意的是,隨著 k 的增加,NoThinking 的性能在 pass@k 上更具競(jìng)爭(zhēng)力。
基于這一觀察結(jié)果,他們證明了使用 NoThinking 獨(dú)立生成 N 個(gè)輸出并將其聚合的并行擴(kuò)展方法非常有效。在聚合時(shí),他們會(huì)使用特定任務(wù)驗(yàn)證器,或者采用簡(jiǎn)單的 best-of-N 策略,如基于置信度的選擇。他們的方法優(yōu)于一系列使用 Thinking 的基線方法,可與具有更長(zhǎng)延遲(高達(dá) 9 倍)的 Thinking 相媲美。
論文鏈接:https://arxiv.org/abs/2504.09858
4.Liquid:語言模型是可擴(kuò)展的、統(tǒng)一多模態(tài)生成器
在這項(xiàng)工作中,來自華中科技大學(xué)、字節(jié)跳動(dòng)和香港大學(xué)的研究團(tuán)隊(duì)提出了一種自回歸生成方法——Liquid,其通過將圖像標(biāo) token 為離散代碼,并在視覺和語言的共享特征空間內(nèi)學(xué)習(xí)這些代碼嵌入以及文本 token,從而將視覺理解和生成無縫整合在一起。與以往的多模態(tài)大語言模型(MLLM)不同,Liquid 利用單個(gè)大語言模型(LLM)實(shí)現(xiàn)了這一整合,從而消除了對(duì)外部預(yù)訓(xùn)練視覺嵌入(如 CLIP)的需求。
Liquid 首次發(fā)現(xiàn)了一個(gè) scaling law,即隨著模型規(guī)模的增大,視覺和語言任務(wù)的統(tǒng)一訓(xùn)練不可避免地會(huì)帶來性能下降。此外,統(tǒng)一的 token 空間還能使視覺生成和理解任務(wù)相互促進(jìn),有效消除早期模型中的干擾。
研究表明,現(xiàn)有的 LLM 可以作為 Liquid 的基座,在多模態(tài)能力上好于 Chameleon 的同時(shí),還能節(jié)省 100 倍的訓(xùn)練成本,并保持與主流 LLM(如 LLAMA2)相當(dāng)?shù)恼Z言性能。Liquid 在視覺語言和純文本任務(wù)中的表現(xiàn)也優(yōu)于 SD v2.1 和 SD-XL(在 MJHQ-30K 上的 FID 為 5.47)。
論文鏈接:https://arxiv.org/abs/2412.04332
整理:學(xué)術(shù)君
如需轉(zhuǎn)載或投稿,請(qǐng)直接在公眾號(hào)內(nèi)留言
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.