99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

首次!AI生成論文通過同行評(píng)審;研究發(fā)現(xiàn):推理模型根本無需思考|今日熱門論文

0
分享至


速覽熱門論文

1.首次!AI 生成論文通過同行評(píng)審

2.專家發(fā)文質(zhì)疑:LLM 過度預(yù)訓(xùn)練是災(zāi)難性的

3.研究發(fā)現(xiàn):推理模型根本「無需思考」

4.Liquid:語言模型是可擴(kuò)展的、統(tǒng)一多模態(tài)生成器

1.首次!AI 生成論文通過同行評(píng)審

在這項(xiàng)工作中,Sakana AI 團(tuán)隊(duì)推出了 The AI Scientist-v2,這是一個(gè)端到端的 agent 系統(tǒng),能夠生成首篇完全由 AI 生成并通過同行評(píng)審的研討會(huì)論文。

該系統(tǒng)可以迭代地提出科學(xué)假設(shè)、設(shè)計(jì)和執(zhí)行實(shí)驗(yàn)、分析和可視化數(shù)據(jù),并自主撰寫科學(xué)手稿。與上一代相比,The AI Scientist-v2 消除了對(duì)人類編寫的代碼模板的依賴,在不同的機(jī)器學(xué)習(xí)領(lǐng)域有效地進(jìn)行了泛化,并利用了由專門的實(shí)驗(yàn)管理器 agent 管理的漸進(jìn) agentic 樹搜索方法。此外,他們還集成了視覺語言模型(VLM)反饋回路,用于迭代完善圖表的內(nèi)容和美感,從而增強(qiáng)了人工智能審閱器組件。


他們通過向同行評(píng)審的 ICLR 研討會(huì)提交三份完全自主的稿件,對(duì) AI Scientist-v2 進(jìn)行了評(píng)估。值得注意的是,其中一篇稿件獲得了足夠高的分?jǐn)?shù),超過了人類接受稿件的平均門檻,這代表完全由人工智能生成的論文首次成功通過同行評(píng)審。

論文鏈接:https://arxiv.org/abs/2504.08066

2.專家發(fā)文質(zhì)疑:LLM 過度預(yù)訓(xùn)練是災(zāi)難性的

大語言模型(LLM)是根據(jù)不斷增長(zhǎng)的 token 預(yù)算進(jìn)行預(yù)訓(xùn)練的,其假設(shè)是更好的預(yù)訓(xùn)練性能可以轉(zhuǎn)化為更好的下游模型。

在這項(xiàng)工作中,來自卡內(nèi)基梅隆大學(xué)的研究團(tuán)隊(duì)及其合作者對(duì)這一假設(shè)提出了質(zhì)疑,并證明擴(kuò)展預(yù)訓(xùn)練會(huì)使模型更難微調(diào),從而導(dǎo)致最終性能下降。他們將這種現(xiàn)象稱為災(zāi)難性過度訓(xùn)練(catastrophic overtraining)。例如,根據(jù) 3T token 預(yù)訓(xùn)練的指令微調(diào) OLMo-1B 模型在多個(gè)標(biāo)準(zhǔn) LLM 基準(zhǔn)上的性能比其 2.3T token 對(duì)應(yīng)模型差 2% 以上。


通過對(duì)照實(shí)驗(yàn)和理論分析,他們發(fā)現(xiàn),災(zāi)難性過度訓(xùn)練源于預(yù)訓(xùn)練參數(shù)對(duì)修改(包括但不限于微調(diào))的廣泛敏感性的系統(tǒng)性增加。這一研究結(jié)果要求對(duì)預(yù)訓(xùn)練設(shè)計(jì)進(jìn)行嚴(yán)格的重新評(píng)估,以考慮模型的下游適應(yīng)性。

論文鏈接:https://arxiv.org/abs/2503.19206

3.研究發(fā)現(xiàn):推理模型根本「無需思考」

通過在生成過程中加入明確、冗長(zhǎng)的“思考”過程,大語言模型(LLM)可以提高自身的推理能力。

在這項(xiàng)工作中,加州大學(xué)伯克利分校團(tuán)隊(duì)質(zhì)疑了這種明確的思考是否有必要。通過使用 DeepSeek-R1-Distill-Qwen 算法,他們發(fā)現(xiàn)通過簡(jiǎn)單的提示(即 NoThinking)繞過思考過程,可以達(dá)到令人驚訝的效果。如果控制 token 數(shù)量,NoThinking 在 7 個(gè)具有挑戰(zhàn)性的推理數(shù)據(jù)集(包括數(shù)學(xué)問題求解、形式化定理證明和編碼)中的表現(xiàn)均優(yōu)于 Thinking,尤其是在低預(yù)算環(huán)境下,例如,在 700 個(gè) token 的 ACM 23 中,NoThinking 的表現(xiàn)為 51.3 vs. 28.9。值得注意的是,隨著 k 的增加,NoThinking 的性能在 pass@k 上更具競(jìng)爭(zhēng)力。


基于這一觀察結(jié)果,他們證明了使用 NoThinking 獨(dú)立生成 N 個(gè)輸出并將其聚合的并行擴(kuò)展方法非常有效。在聚合時(shí),他們會(huì)使用特定任務(wù)驗(yàn)證器,或者采用簡(jiǎn)單的 best-of-N 策略,如基于置信度的選擇。他們的方法優(yōu)于一系列使用 Thinking 的基線方法,可與具有更長(zhǎng)延遲(高達(dá) 9 倍)的 Thinking 相媲美。

論文鏈接:https://arxiv.org/abs/2504.09858

4.Liquid:語言模型是可擴(kuò)展的、統(tǒng)一多模態(tài)生成器

在這項(xiàng)工作中,來自華中科技大學(xué)、字節(jié)跳動(dòng)和香港大學(xué)的研究團(tuán)隊(duì)提出了一種自回歸生成方法——Liquid,其通過將圖像標(biāo) token 為離散代碼,并在視覺和語言的共享特征空間內(nèi)學(xué)習(xí)這些代碼嵌入以及文本 token,從而將視覺理解和生成無縫整合在一起。與以往的多模態(tài)大語言模型(MLLM)不同,Liquid 利用單個(gè)大語言模型(LLM)實(shí)現(xiàn)了這一整合,從而消除了對(duì)外部預(yù)訓(xùn)練視覺嵌入(如 CLIP)的需求。


Liquid 首次發(fā)現(xiàn)了一個(gè) scaling law,即隨著模型規(guī)模的增大,視覺和語言任務(wù)的統(tǒng)一訓(xùn)練不可避免地會(huì)帶來性能下降。此外,統(tǒng)一的 token 空間還能使視覺生成和理解任務(wù)相互促進(jìn),有效消除早期模型中的干擾。

研究表明,現(xiàn)有的 LLM 可以作為 Liquid 的基座,在多模態(tài)能力上好于 Chameleon 的同時(shí),還能節(jié)省 100 倍的訓(xùn)練成本,并保持與主流 LLM(如 LLAMA2)相當(dāng)?shù)恼Z言性能。Liquid 在視覺語言和純文本任務(wù)中的表現(xiàn)也優(yōu)于 SD v2.1 和 SD-XL(在 MJHQ-30K 上的 FID 為 5.47)。

論文鏈接:https://arxiv.org/abs/2412.04332

整理:學(xué)術(shù)君

如需轉(zhuǎn)載或投稿,請(qǐng)直接在公眾號(hào)內(nèi)留言

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
假吃就別演了!看《蠻好的人生》孫儷吃點(diǎn)心,讓多少演員臉紅

假吃就別演了!看《蠻好的人生》孫儷吃點(diǎn)心,讓多少演員臉紅

草莓解說體育
2025-04-27 00:45:00
又來了!重傷杰倫布朗!NBA全員惡人球隊(duì)……

又來了!重傷杰倫布朗!NBA全員惡人球隊(duì)……

籃球?qū)崙?zhàn)寶典
2025-04-26 20:47:12
希爾德笑談巴特勒建議:糟糕的建議,我完全沒聽他的話

希爾德笑談巴特勒建議:糟糕的建議,我完全沒聽他的話

懂球帝
2025-04-27 14:54:15
網(wǎng)紅燕兒爺自曝出軌公公,多次開房染HPV,公公:誰睡不是睡

網(wǎng)紅燕兒爺自曝出軌公公,多次開房染HPV,公公:誰睡不是睡

社會(huì)醬
2025-04-09 17:18:03
劉亦菲最新自拍照:沒有P掉白發(fā)和皺紋,37歲的她徹底放飛,治愈萬千網(wǎng)友

劉亦菲最新自拍照:沒有P掉白發(fā)和皺紋,37歲的她徹底放飛,治愈萬千網(wǎng)友

感覺會(huì)火
2025-04-26 12:07:05
上海警方在廢棄房,發(fā)現(xiàn)一流浪漢,細(xì)查他的身份后,眾人大吃一驚

上海警方在廢棄房,發(fā)現(xiàn)一流浪漢,細(xì)查他的身份后,眾人大吃一驚

人間頌
2025-04-27 12:46:40
太苦命了,重慶高樓拋?zhàn)影负⒆拥纳戈惷懒赜只剂税┌Y。

太苦命了,重慶高樓拋?zhàn)影负⒆拥纳戈惷懒赜只剂税┌Y。

明月聊史
2025-04-24 23:50:54
顏值太重要!日本大叔照抄模特穿搭,網(wǎng)友看后笑出了豬聲……

顏值太重要!日本大叔照抄模特穿搭,網(wǎng)友看后笑出了豬聲……

日本窗
2025-04-22 20:37:16
山東泰山0-1上海申花,賽后評(píng)分:不是高天意第一,泰山9號(hào)第一

山東泰山0-1上海申花,賽后評(píng)分:不是高天意第一,泰山9號(hào)第一

側(cè)身凌空斬
2025-04-26 21:32:52
網(wǎng)友:教師轉(zhuǎn)崗真的開始了!目前帶主科+班主任,內(nèi)耗嚴(yán)重…

網(wǎng)友:教師轉(zhuǎn)崗真的開始了!目前帶主科+班主任,內(nèi)耗嚴(yán)重…

火山詩話
2025-04-24 17:11:41
1季度結(jié)婚181萬對(duì),繼續(xù)下降

1季度結(jié)婚181萬對(duì),繼續(xù)下降

Yuichi的宏觀金融筆記
2025-04-26 17:01:49
太揪心!浙江高速突發(fā),高速交警嘶吼喊話司機(jī):“別睡,家人在等你!”

太揪心!浙江高速突發(fā),高速交警嘶吼喊話司機(jī):“別睡,家人在等你!”

環(huán)球網(wǎng)資訊
2025-04-27 08:01:14
俄羅斯絕密文件曝光:若與北約開戰(zhàn),先打中國(guó)周邊兩國(guó)“鄰居”

俄羅斯絕密文件曝光:若與北約開戰(zhàn),先打中國(guó)周邊兩國(guó)“鄰居”

楊哥歷史
2025-04-27 14:19:25
宜家上海徐匯商場(chǎng)明天恢復(fù)營(yíng)業(yè),改造后有啥新變化?

宜家上海徐匯商場(chǎng)明天恢復(fù)營(yíng)業(yè),改造后有啥新變化?

澎湃新聞
2025-04-27 10:42:31
希爾德:我一輩子都在看庫里打球 他能欣然接受身體對(duì)抗強(qiáng)的對(duì)手

希爾德:我一輩子都在看庫里打球 他能欣然接受身體對(duì)抗強(qiáng)的對(duì)手

直播吧
2025-04-27 13:00:12
2025年調(diào)整養(yǎng)老金,何時(shí)補(bǔ)發(fā)到位?退休人員看看,關(guān)乎你切身利益

2025年調(diào)整養(yǎng)老金,何時(shí)補(bǔ)發(fā)到位?退休人員看看,關(guān)乎你切身利益

社保小達(dá)人
2025-04-27 11:00:10
為什么現(xiàn)在電視上國(guó)內(nèi)新聞沒有人看了,為啥大家都在關(guān)注自媒體?

為什么現(xiàn)在電視上國(guó)內(nèi)新聞沒有人看了,為啥大家都在關(guān)注自媒體?

逍遙論經(jīng)
2025-03-06 10:12:30
“一絲不掛”新舞蹈?惹爭(zhēng)議,被摸下體更不害臊,金星質(zhì)疑是對(duì)的

“一絲不掛”新舞蹈?惹爭(zhēng)議,被摸下體更不害臊,金星質(zhì)疑是對(duì)的

吃魚思故淵
2024-05-16 21:48:21
太瘋狂!門店大排長(zhǎng)龍,開售被搶空!原價(jià)599元被炒至1.4萬...有人花高價(jià)買到假貨

太瘋狂!門店大排長(zhǎng)龍,開售被搶空!原價(jià)599元被炒至1.4萬...有人花高價(jià)買到假貨

21世紀(jì)經(jīng)濟(jì)報(bào)道
2025-04-26 22:36:10
洋媳婦奇娜下葬后,丈夫宣布帶岳父岳母在中國(guó)旅游,稱是妻子遺愿

洋媳婦奇娜下葬后,丈夫宣布帶岳父岳母在中國(guó)旅游,稱是妻子遺愿

文雅筆墨
2025-04-27 00:39:39
2025-04-27 15:55:00
學(xué)術(shù)頭條
學(xué)術(shù)頭條
致力于學(xué)術(shù)傳播和科學(xué)普及,重點(diǎn)關(guān)注人工智能、生命科學(xué)等前沿科學(xué)進(jìn)展。
1247文章數(shù) 5069關(guān)注度
往期回顧 全部

科技要聞

賈躍亭:FF市值到百億美元能基本還完債務(wù)

頭條要聞

特朗普:普京利用我 他"不應(yīng)該"轟炸烏克蘭的平民區(qū)域

頭條要聞

特朗普:普京利用我 他"不應(yīng)該"轟炸烏克蘭的平民區(qū)域

體育要聞

裝死一個(gè)賽季,卡皇掀翻了棺材板

娛樂要聞

24歲女星夏依丹離世!死因讓人心碎

財(cái)經(jīng)要聞

商務(wù)部等6部門:下調(diào)離境退稅起退點(diǎn)

汽車要聞

蔚來李斌的"十年磨一劍" 從看得見 到看不見

態(tài)度原創(chuàng)

家居
房產(chǎn)
教育
數(shù)碼
手機(jī)

家居要聞

明亮溫馨 質(zhì)感且奢華

房產(chǎn)要聞

商辦納入學(xué)區(qū)、民水民電民氣!海南又一區(qū)域爆出樓市新政!

教育要聞

招生 | 南京市二十九中學(xué)2025年武術(shù)、足球特長(zhǎng)生招生簡(jiǎn)章

數(shù)碼要聞

小米R(shí)EDMI A系列電視節(jié)能版首發(fā)1499元起:頂配4K屏、支持直下式背光

手機(jī)要聞

vivo高管稱,備貨幾十萬的vivo X200 Ultra已缺貨

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 亚东县| 乌审旗| 繁峙县| 河北省| 海原县| 井冈山市| 措美县| 甘谷县| 噶尔县| 兴宁市| 绵阳市| 建水县| 河间市| 石柱| 泸定县| 炎陵县| 芜湖县| 双辽市| 体育| 太仓市| 瑞昌市| 临猗县| 辽宁省| 大厂| 高邑县| 噶尔县| 天长市| 太康县| 济阳县| 克拉玛依市| 定南县| 襄城县| 从江县| 佛教| 车致| 遂宁市| 罗定市| 饶河县| 崇州市| 镇沅| 莱阳市|