99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

推理AI「腦補(bǔ)」成癮,廢話拉滿!馬里蘭華人學(xué)霸揭開(kāi)內(nèi)幕

0
分享至


新智元報(bào)道

編輯:犀牛 定慧

【新智元導(dǎo)讀】研究發(fā)現(xiàn),推理模型(如DeepSeek-R1、o1)遇到「缺失前提」(MiP)的問(wèn)題時(shí),這些模型往往表現(xiàn)失常:回答長(zhǎng)度激增、計(jì)算資源浪費(fèi)。本文基于馬里蘭大學(xué)和利哈伊大學(xué)的最新研究,深入剖析推理模型在MiP問(wèn)題上的「過(guò)度思考」現(xiàn)象,揭示其背后的行為模式,帶你一窺當(dāng)前AI推理能力的真實(shí)邊界。

推理模型越來(lái)越成為主流了。

像GPT-4.5這樣沒(méi)有推理功能的大語(yǔ)言模型則越來(lái)越少見(jiàn),就連OpenAI自身也將重心放到了推理模型o系列上面。

原因在于推理模型通過(guò)在回答之前先「思考」,從而能夠獲得更加優(yōu)秀的效果。

然而,現(xiàn)在的推理模型還不是很成熟,尤其是面對(duì)缺乏前提條件的病態(tài)問(wèn)題 (MiP)時(shí),回答長(zhǎng)度會(huì)顯著增加,變得冗長(zhǎng)且低效。

比如,哪怕是「1加2等于幾」這樣的問(wèn)題,現(xiàn)在的推理模型也可能生成數(shù)百個(gè)token的回答。

這種現(xiàn)象嚴(yán)重違背了「test-time scaling law」(測(cè)試時(shí)擴(kuò)展)。

而像GPT-4.5這樣并非專門(mén)為推理訓(xùn)練的模型在MiP場(chǎng)景下表現(xiàn)反而更好,它們生成的回答更短,能迅速識(shí)別出問(wèn)題的不合理性。

這就揭示了當(dāng)前推理型語(yǔ)言模型的一個(gè)關(guān)鍵缺陷:它們沒(méi)有高效思考,導(dǎo)致思考模式被濫用。

這種針對(duì)病態(tài)問(wèn)題的推理失敗通常稱為「缺失前提下的過(guò)度思考」(MiP-Overthinking)。

為了深入探究這些失敗背后的原因,馬里蘭大學(xué)和利哈伊大學(xué)的研究人員對(duì)不同類型語(yǔ)言模型的推理長(zhǎng)度、過(guò)度思考模式以及批判性思維的位置進(jìn)行了細(xì)致的分析。


論文地址:https://arxiv.org/abs/2504.06514

舉個(gè)簡(jiǎn)單的例子,像圖1左邊展示的問(wèn)題:「a的值是多少?」。

在沒(méi)有任何關(guān)于a的信息的情況下,這個(gè)問(wèn)題顯然無(wú)解。然而,DeepSeek-R1卻為這個(gè)問(wèn)題生成了數(shù)千個(gè)token的回答,耗費(fèi)幾分鐘的思考計(jì)算。


這暴露出了一種風(fēng)險(xiǎn):那些被訓(xùn)練用來(lái)深度思考的模型,可能會(huì)濫用思考模式,缺乏質(zhì)疑問(wèn)題有效性的批判性思維。

理想情況下,一個(gè)具備批判性思維的模型應(yīng)該能識(shí)別出缺失的前提,迅速要求澄清或優(yōu)雅地表示無(wú)法繼續(xù)解答。

例如,圖1右邊展示了一個(gè)來(lái)自GSM8K的定義明確的問(wèn)題和它的MiP變體,在條件缺失時(shí)推理模型觸發(fā)了token數(shù)量的劇增,遠(yuǎn)超普通過(guò)度思考。

此外,研究人員觀察到,即使推理模型偶爾能注意到缺失前提,它們的無(wú)效和冗余思考也常常無(wú)法停止,這違背了測(cè)試時(shí)擴(kuò)展定律的預(yù)期。

研究人員設(shè)計(jì)了一套專門(mén)的MiP問(wèn)題,目的是以可控的方式觸發(fā)模型的「過(guò)度思考」失敗。

為了確保研究結(jié)果的普適性,他們對(duì)各種最先進(jìn)的語(yǔ)言模型進(jìn)行了測(cè)試,涵蓋了從推理型模型到非推理型模型、從開(kāi)源模型到專有模型。

主要通過(guò)三個(gè)指標(biāo)來(lái)評(píng)估模型表現(xiàn):生成回答的長(zhǎng)度、在明確問(wèn)題上的準(zhǔn)確率,以及在包含MiP的「病態(tài)問(wèn)題」上的「放棄率」。

核心發(fā)現(xiàn):

  1. 當(dāng)問(wèn)題缺少前提時(shí),推理型模型會(huì)生成明顯更長(zhǎng)的回答(比一般過(guò)度思考多2到4倍的token)。但這些額外的token并不能幫助它們識(shí)別MiP問(wèn)題,這與人們常討論的「測(cè)試時(shí)擴(kuò)展定律」(test-time scaling law)相悖。

  2. 相比之下,非推理模型在面對(duì)MiP問(wèn)題時(shí),生成更短的回答,并能更快識(shí)別出缺失前提,表現(xiàn)出對(duì)關(guān)鍵信息缺失的更強(qiáng)魯棒性。

  3. 推理型模型在明確問(wèn)題和MiP問(wèn)題上的反應(yīng)截然不同:對(duì)于明確問(wèn)題,它們通常能穩(wěn)定地進(jìn)行「思維鏈」推理;但在MiP問(wèn)題上,它們往往陷入「自我懷疑循環(huán)」,反復(fù)重審問(wèn)題、猜測(cè)用戶意圖,導(dǎo)致生成的token數(shù)激增。

  4. 推理型模型通常能注意到MiP的存在,甚至在早期就能識(shí)別出來(lái),但它們往往猶豫不決、不敢果斷下結(jié)論,繼續(xù)輸出無(wú)效的思考內(nèi)容。


缺失前提的定義

簡(jiǎn)單說(shuō),「缺失前提」(Missing Premise, MiP)其實(shí)是在描述一種問(wèn)題:你本來(lái)需要一些關(guān)鍵信息(前提)來(lái)明確回答一個(gè)問(wèn)題,但如果其中一個(gè)關(guān)鍵信息被拿掉了,問(wèn)題就變得沒(méi)法準(zhǔn)確回答了。

舉個(gè)例子: 假如問(wèn)題Q是:「小明買(mǎi)了蘋(píng)果和香蕉一共花了多少錢(qián)?” 」

前提P是一組信息,比如:

P1:蘋(píng)果2元一個(gè),小明買(mǎi)了3個(gè)蘋(píng)果。

P2:香蕉1元一個(gè),小明買(mǎi)了2個(gè)香蕉。

有了這些前提,你可以算出:3×2+2×1=8元,答案是唯一的,問(wèn)題很好解決。

但如果我們把其中一個(gè)前提拿掉,比如去掉 P2(關(guān)于香蕉的信息),你就只知道蘋(píng)果的價(jià)格和數(shù)量,但不知道香蕉的價(jià)格或數(shù)量。

這時(shí)候,問(wèn)題就變成了「缺失前提問(wèn)題」,因?yàn)楣饪渴O碌男畔ⅲ銢](méi)法確定小明一共花了多少錢(qián)。

按照這個(gè)定義,一個(gè)聰明的推理系統(tǒng)應(yīng)該能很快發(fā)現(xiàn)「哎呀,缺了點(diǎn)關(guān)鍵信息,我沒(méi)法得出一個(gè)確定的答案」,然后就停下來(lái),不去瞎猜。

但實(shí)際上,很多高級(jí)模型卻會(huì)在這時(shí)候「想太多」,不停地繞圈子,試圖硬湊出一個(gè)答案,結(jié)果白費(fèi)力氣也沒(méi)用。

數(shù)據(jù)集的構(gòu)建

研究團(tuán)隊(duì)精心設(shè)計(jì)了一套可控的MiP問(wèn)題。這些問(wèn)題來(lái)自三個(gè)不同難度的數(shù)學(xué)數(shù)據(jù)集,另外他們還創(chuàng)建了一個(gè)合成數(shù)據(jù)集。

這些數(shù)據(jù)涵蓋了三種難度級(jí)別和三種策略:

1.基于規(guī)則生成這種方法通過(guò)公式構(gòu)建過(guò)程生成MiP問(wèn)題,其中未賦值的變量就是缺失的前提。

2.主體-問(wèn)題互換故意讓問(wèn)題的主體和提問(wèn)部分不匹配,制造邏輯上的矛盾。這樣,問(wèn)題的前提和提問(wèn)就完全不搭邊。

3.移除關(guān)鍵前提通過(guò)仔細(xì)分析原本完整的問(wèn)題,找出一條對(duì)解決問(wèn)題至關(guān)重要的前提,然后把它去掉。這樣問(wèn)題結(jié)構(gòu)還在,但沒(méi)法解答。

具體來(lái)說(shuō)包括這幾個(gè)部分(表1):MiP-Formula(公式數(shù)據(jù)集)、MiP-SVAMP(小學(xué)數(shù)學(xué)數(shù)據(jù)集)、MiP-GSM8K(更復(fù)雜的數(shù)學(xué)數(shù)據(jù)集)、MiP-MATH(競(jìng)賽級(jí)數(shù)學(xué)數(shù)據(jù)集)。


對(duì)于GSM8K和MATH數(shù)據(jù)集,通過(guò)去掉原始問(wèn)題中的一個(gè)前提(標(biāo)為刪除線)來(lái)創(chuàng)建MiP問(wèn)題

在缺失假設(shè)下的過(guò)度思考

為了系統(tǒng)地評(píng)估模型在缺失前提(MiP)條件下的響應(yīng),對(duì)于每個(gè)模型,研究團(tuán)隊(duì)分析計(jì)算了不同數(shù)據(jù)集中響應(yīng)的以下指標(biāo):

  • 響應(yīng)長(zhǎng)度:響應(yīng)中的平均token數(shù)量,包括推理步驟和最終答案部分。

  • MiP問(wèn)題的放棄率:模型明確識(shí)別出缺失前提,并選擇不提供答案或請(qǐng)求解決問(wèn)題所需額外信息的答案比例。

  • 明確定義問(wèn)題的準(zhǔn)確率:模型產(chǎn)生的確定性響應(yīng)與參考答案一致的比例。

對(duì)于沒(méi)有參考答案的數(shù)據(jù)集(MiP-Formula和MiP-SVAMP),僅計(jì)算問(wèn)題的放棄率。響應(yīng)評(píng)估使用GPT-4o作為自動(dòng)評(píng)估器進(jìn)行。

主要結(jié)果

圖2展示了多種先進(jìn)大型語(yǔ)言模型(LLMs)在平均回答長(zhǎng)度、明確問(wèn)題上的準(zhǔn)確率,以及MiP問(wèn)題上的「放棄率」(即識(shí)別無(wú)解并選擇不答的比率)的對(duì)比,揭示了模型行為中的幾個(gè)重要規(guī)律。


推理模型在缺失前提(MiP)問(wèn)題上容易「想太多」,生成過(guò)長(zhǎng)回答卻無(wú)法有效識(shí)別無(wú)解情況。非推理模型回答較短,更能快速發(fā)現(xiàn)信息不足,表現(xiàn)出更強(qiáng)的魯棒性

比較不同MiP數(shù)據(jù)集的響應(yīng)長(zhǎng)度和放棄率,更短的長(zhǎng)度和更高的放棄率是首選。

對(duì)于每一列,前三個(gè)優(yōu)選值用綠色標(biāo)注,其他用紅色標(biāo)注。

MiP過(guò)度思考(以較長(zhǎng)響應(yīng)和低放棄率為特征)在所有數(shù)據(jù)集的大多數(shù)現(xiàn)有推理模型中普遍存在(紅色所標(biāo)注的模型),表明了現(xiàn)有推理模型的一個(gè)關(guān)鍵缺陷。

首先,現(xiàn)有的推理模型在面對(duì)MiP問(wèn)題時(shí)表現(xiàn)出響應(yīng)長(zhǎng)度的爆炸性增長(zhǎng),通常產(chǎn)生比明確定義問(wèn)題的一般過(guò)度思考多2-4倍的Tokens。

例如,QwQ-32B和DeepSeek-R1在明確定義的問(wèn)題上已經(jīng)有較長(zhǎng)的推理路徑(簡(jiǎn)單GSM8K問(wèn)題約1,000個(gè)Tokens),在缺失前提條件下產(chǎn)生更長(zhǎng)的輸出(超過(guò)3,000個(gè)Tokens)。

相比之下,非推理模型不存在類似問(wèn)題,它們對(duì)明確定義和MiP問(wèn)題生成的Tokens數(shù)量相似。

這種現(xiàn)象直接說(shuō)明了推理模型的MiP過(guò)度思考現(xiàn)象。

其次,比較推理模型和非推理模型在明確定義問(wèn)題上的Tokens長(zhǎng)度,推理模型傾向于產(chǎn)生更長(zhǎng)的響應(yīng),即使是簡(jiǎn)單問(wèn)題,這凸顯了現(xiàn)有推理模型的低效和冗長(zhǎng)響應(yīng)特點(diǎn)。

例如,非推理模型僅需約200個(gè)Tokens就能生成明確定義問(wèn)題的響應(yīng),而DeepSeek-R1需要1,000個(gè)Tokens,QWQ-32B需要1,800個(gè)Tokens來(lái)回答完全相同的問(wèn)題。

然而,額外Tokens的爆炸性增長(zhǎng)并未帶來(lái)相應(yīng)的大幅準(zhǔn)確率提升,突顯了一般過(guò)度思考的問(wèn)題。

最后,MiP問(wèn)題的放棄率(紅線)顯示,盡管一些推理模型(如GPT-o1)在放棄MiP問(wèn)題方面表現(xiàn)出良好能力,但大多數(shù)其他推理模型即使有極長(zhǎng)的推理路徑,也無(wú)法正確放棄給定的MiP問(wèn)題。

這種現(xiàn)象表明,雖然大多數(shù)現(xiàn)有推理模型在某種程度上具備思考和推理能力,但它們?nèi)狈Α妇芙^」不當(dāng)問(wèn)題的批判性思維能力。

相比之下,非推理模型雖然沒(méi)有專門(mén)為推理而訓(xùn)練,但往往能取得更好的平衡,生成更短的答案,并且在問(wèn)題構(gòu)造不當(dāng)時(shí)更可能承認(rèn)MiP。

這種現(xiàn)象揭示了測(cè)試時(shí)擴(kuò)展定律的一個(gè)令人驚訝的矛盾。

此外,表2進(jìn)一步展示了整理的其他MiP數(shù)據(jù)集在長(zhǎng)度和放棄率方面的比較。

首選結(jié)果用綠色標(biāo)注(對(duì)于MiP問(wèn)題,更短的響應(yīng)和更高的放棄率),較差的結(jié)果用紅色標(biāo)注。

從中可以輕易發(fā)現(xiàn),推理模型傾向于在所有數(shù)據(jù)集中生成長(zhǎng)響應(yīng),同時(shí)保持低放棄率,表明現(xiàn)有推理模型持續(xù)存在MiP過(guò)度思考問(wèn)題。


此外,通過(guò)比較模型在不同數(shù)據(jù)集上的行為,可以觀察到,對(duì)于相對(duì)較難的數(shù)據(jù)集(MiP-MATH),所有模型生成的響應(yīng)相對(duì)更長(zhǎng),獲得的放棄率更低,表明更難的MiP問(wèn)題需要更強(qiáng)的推理能力。

通過(guò)Tokens分析思考模式

為了深入了解MiP過(guò)度思考問(wèn)題,比較了MiP-GSM8K數(shù)據(jù)集上與推理相關(guān)的Tokens分布。

如表3所示,分解了幾個(gè)與思考過(guò)程相關(guān)的Tokens模式的平均使用情況,以及每個(gè)模型解決給定問(wèn)題的步驟數(shù)。

具體而言,「alternatively」、「wait」、「check」和「but」的值可以直接從模型響應(yīng)中計(jì)數(shù),包括推理模型的思考路徑。

「Hypothesis」類別包括幾個(gè)關(guān)鍵詞,包括「perhaps」、「maybe」和「might」。步驟表示由「\n\n」分隔的步驟計(jì)數(shù)。


推理模型表現(xiàn)出更高頻率的「alternatively」、「wait」、「check」等Tokens使用,而非推理模型的頻率接近于零,這表明了它們的高級(jí)思考能力。

從明確定義問(wèn)題轉(zhuǎn)向MiP問(wèn)題時(shí),推理模型在推理相關(guān)Tokens上出現(xiàn)爆炸性增長(zhǎng),表明思考模式存在大量冗余。

此外,在比較步驟變化時(shí),推理模型對(duì)MiP問(wèn)題表現(xiàn)出步驟數(shù)的大幅增加,而非推理模型通常顯示更少的步驟,這表明它們能快速得出問(wèn)題無(wú)法回答的結(jié)論。

結(jié)合這種差距和非推理模型始終較好的放棄率,得出結(jié)論:冗長(zhǎng)的推理步驟大多是多余的,表明推理模型存在自我懷疑的思考模式。

為了進(jìn)一步評(píng)估在MiP條件下生成內(nèi)容的冗余程度,檢查了模型在MiP-GSM8K數(shù)據(jù)集上響應(yīng)的步驟級(jí)相似性。

具體來(lái)說(shuō),將每個(gè)響應(yīng)分為由「\n\n」分隔的離散步驟,并使用all-MiniLM-L6-v2生成的嵌入計(jì)算成對(duì)余弦相似度分?jǐn)?shù)。

可視化如圖3所示,熱圖矩陣中的每個(gè)值代表相應(yīng)步驟索引之間的平均余弦相似度。明確定義問(wèn)題的平均相似度分?jǐn)?shù)為0.45,MiP響應(yīng)為0.50。方差分別為7.9e-3和8.2e-4。


如圖所示,MiP問(wèn)題的響應(yīng)在各個(gè)步驟之間具有更高的整體相似性和更低的標(biāo)準(zhǔn)方差,表明內(nèi)容存在相當(dāng)大的冗余。

這意味著,在許多情況下,模型會(huì)重新訪問(wèn)類似的部分推理或僅做微小改動(dòng)重復(fù)前面的句子,顯示出潛在的自我陷阱問(wèn)題。

總的來(lái)說(shuō),這些模式證實(shí)MiP問(wèn)題在推理模型中導(dǎo)致高度重復(fù)的內(nèi)容。

模型沒(méi)有及早終止并得出前提不足的結(jié)論,而是用重復(fù)的重新檢查和重述填充其推理路徑,顯著增加Tokens使用量,但并未改善實(shí)際放棄率。

通過(guò)示例分析思考模式

為了進(jìn)一步理解推理模型在面對(duì)構(gòu)造不當(dāng)?shù)妮斎霑r(shí)推理鏈中發(fā)生的情況,在圖4中展示了推理模型對(duì)MiP問(wèn)題響應(yīng)的一個(gè)示例。

總結(jié)了在示例中發(fā)現(xiàn)的五種主要思考模式,并用不同顏色突出顯示它們。

可以從示例中觀察到,模型濫用這些模式生成長(zhǎng)響應(yīng),而這些響應(yīng)不僅冗余,而且對(duì)模型放棄給定的MiP問(wèn)題也沒(méi)有幫助。

該響應(yīng)展現(xiàn)了五種不同的思考模式,用不同顏色突出顯示:

  1. 重新審視問(wèn)題(黃色):模型重新審視原始問(wèn)題;

  2. 訪問(wèn)知識(shí)(紅色):模型訪問(wèn)領(lǐng)域特定知識(shí);

  3. 提出假設(shè)(藍(lán)色):模型提出并研究各種假設(shè);

  4. 自我懷疑(綠色):模型質(zhì)疑自己的推理過(guò)程并表達(dá)不確定性;

  5. 暫停/檢查(紫色):模型暫停以回顧先前的步驟。

這些模式展示了模型在面對(duì)缺失前提條件時(shí)的復(fù)雜但可能低效的推理過(guò)程。


模型是否知道前提缺失?

為了研究推理模型在其推理過(guò)程中是否能夠識(shí)別問(wèn)題的潛在不可解性,研究團(tuán)隊(duì)對(duì)它們的推理鏈進(jìn)行了詳細(xì)分析。

為確保評(píng)估的穩(wěn)健性,使用GPT-4o對(duì)每個(gè)步驟進(jìn)行了三次評(píng)估,并使用多數(shù)投票作為最終的步驟級(jí)結(jié)果。該分析的定量結(jié)果如表4所示。


從表中可以看出,大多數(shù)現(xiàn)有的推理模型在推理過(guò)程的早期階段就懷疑給定問(wèn)題可能無(wú)法解決,這表明推理模型具有識(shí)別潛在MiP問(wèn)題的能力。

然而,這些推理模型缺乏批判性思維能力:它們傾向于通過(guò)反復(fù)重新審視問(wèn)題和相關(guān)定義來(lái)繼續(xù)深挖給定的無(wú)解問(wèn)題,而不是質(zhì)疑給定問(wèn)題的可解性。

因此,如圖5所示,盡管現(xiàn)有的推理模型對(duì)大多數(shù)給定的MiP問(wèn)題表示懷疑,但它們只放棄了其中很小一部分。


基于上述觀察,得出結(jié)論:推理模型實(shí)際上具備發(fā)現(xiàn)給定MiP問(wèn)題不可解的能力,但它們「不敢」放棄這些問(wèn)題。

MiP(過(guò)度思考)問(wèn)題表明了推理模型缺乏批判性思維能力。

MiP-Overthinking現(xiàn)象在基于強(qiáng)化學(xué)習(xí)(RL)和基于監(jiān)督微調(diào)(SFT)的推理模型中都有體現(xiàn)。

假設(shè)這種現(xiàn)象主要源于基于規(guī)則的強(qiáng)化學(xué)習(xí)階段中長(zhǎng)度約束不足,隨后通過(guò)蒸餾傳播到SFT模型中。

當(dāng)前的基于RL的推理模型主要采用基于規(guī)則的訓(xùn)練,專注于格式和準(zhǔn)確性獎(jiǎng)勵(lì),其中一些模型加入了步驟或長(zhǎng)度獎(jiǎng)勵(lì)以促進(jìn)深入推理。

這種方法可能導(dǎo)致獎(jiǎng)勵(lì)破解(reward hacking),即模型探索過(guò)度的推理模式以獲得正確答案。

為了證明這種行為通過(guò)蒸餾的可傳播性,使用DeepSeek-R1在MiP-Formula數(shù)據(jù)集上生成的50個(gè)MiP響應(yīng)對(duì)Qwen-2.5-7B-Instruct進(jìn)行了小規(guī)模微調(diào)。

如圖6所示,在GSM8K上評(píng)估時(shí),微調(diào)后的模型表現(xiàn)出明顯的MiP-過(guò)度思考特征:MiP和定義良好的問(wèn)題的響應(yīng)長(zhǎng)度顯著增加,MiP和定義良好響應(yīng)之間出現(xiàn)了原始模型中不存在的長(zhǎng)度差異,以及棄權(quán)率下降。


結(jié)果表明,在微調(diào)過(guò)程中僅接觸少量MiP示例后,模型就迅速表現(xiàn)出MiP-Overthinking(過(guò)度思考)行為。

這些「聰明」的模型雖然能在早期階段察覺(jué)到前提缺失,卻缺乏「批判性思維」來(lái)果斷中止無(wú)效推理,陷入自我懷疑、過(guò)度假設(shè)和冗余探索的循環(huán)。

真正的AGI還任重道遠(yuǎn)。

本文作者

Chenrui Fan


華中科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)工學(xué)學(xué)士,美國(guó)馬里蘭大學(xué)帕克分校理學(xué)碩士。

曾在Lehigh University、武漢大學(xué)大數(shù)據(jù)智能實(shí)驗(yàn)室及騰訊實(shí)習(xí),從事可信賴的機(jī)器學(xué)習(xí)研究。

Ming Li


馬里蘭大學(xué)計(jì)算機(jī)科學(xué)系的二年級(jí)博士生,導(dǎo)師是Tianyi Zhou教授。2020年從西安交通大學(xué)獲得計(jì)算機(jī)科學(xué)學(xué)士學(xué)位,2023 年在德州農(nóng)工大學(xué)獲得碩士學(xué)位,導(dǎo)師是Ruihong Huang教授。

研究興趣廣泛涉及機(jī)器學(xué)習(xí)(ML)、自然語(yǔ)言處理(NLP)和大型語(yǔ)言模型(LLM)。他還對(duì)視覺(jué)-LLMs微調(diào)、代理、效率和推理感興趣。

參考資料:

https://www.alphaxiv.org/overview/2504.06514

https://arxiv.org/pdf/2504.06514

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
“沒(méi)法做無(wú)糖的”,這句話被星巴克殺死了

“沒(méi)法做無(wú)糖的”,這句話被星巴克殺死了

果殼
2025-04-15 20:48:18
員工被老板養(yǎng)著是啥感覺(jué)?網(wǎng)友:1000的工作量15000的工資

員工被老板養(yǎng)著是啥感覺(jué)?網(wǎng)友:1000的工作量15000的工資

解讀熱點(diǎn)事件
2025-04-15 00:20:03
上海一奧迪女銷售請(qǐng)客戶吃飯,細(xì)節(jié)被爆出,父母:臉都被丟盡了

上海一奧迪女銷售請(qǐng)客戶吃飯,細(xì)節(jié)被爆出,父母:臉都被丟盡了

紅豆講堂
2025-04-14 12:25:10
WTO稱中美貿(mào)易額或?qū)⑾陆蹈哌_(dá)80%

WTO稱中美貿(mào)易額或?qū)⑾陆蹈哌_(dá)80%

掌鏈
2025-04-15 18:42:27
什么叫裁員裁到大動(dòng)脈?廣鐵的一次錯(cuò)誤決定,讓中央調(diào)動(dòng)4萬(wàn)軍警

什么叫裁員裁到大動(dòng)脈?廣鐵的一次錯(cuò)誤決定,讓中央調(diào)動(dòng)4萬(wàn)軍警

貓眼觀史
2025-04-12 22:25:14
世界杯連爆大冷!國(guó)乒主力首敗,2大種子選手輸球,王藝迪被淘汰

世界杯連爆大冷!國(guó)乒主力首敗,2大種子選手輸球,王藝迪被淘汰

知軒體育
2025-04-15 19:04:37
67歲男子因血糖過(guò)高死亡,再次提醒:這4種素食,糖友需盡量少吃

67歲男子因血糖過(guò)高死亡,再次提醒:這4種素食,糖友需盡量少吃

腫瘤的真相與誤區(qū)
2025-04-13 17:35:24
舒淇凌晨曬與馮德倫合影,慶祝自己48歲生日,許了三個(gè)愿望!

舒淇凌晨曬與馮德倫合影,慶祝自己48歲生日,許了三個(gè)愿望!

檸檬有娛樂(lè)
2025-04-16 08:55:54
249元!小米新品官宣:4月18日,正式開(kāi)售!

249元!小米新品官宣:4月18日,正式開(kāi)售!

3C毒物
2025-04-16 08:35:49
武統(tǒng)、和統(tǒng)都沒(méi)希望?臺(tái)灣軍事專家:中國(guó)大陸已經(jīng)走上第三條路

武統(tǒng)、和統(tǒng)都沒(méi)希望?臺(tái)灣軍事專家:中國(guó)大陸已經(jīng)走上第三條路

睿鑒歷史
2023-08-25 12:00:02
人情薄如紙!原中央政治局常委吳官正:難忘那夜的秋雨!

人情薄如紙!原中央政治局常委吳官正:難忘那夜的秋雨!

霹靂炮
2025-03-03 14:09:01
中國(guó)拒買(mǎi)波音,特朗普暴怒,白宮:現(xiàn)在明明是中國(guó)要跟我們談協(xié)議

中國(guó)拒買(mǎi)波音,特朗普暴怒,白宮:現(xiàn)在明明是中國(guó)要跟我們談協(xié)議

悄悄史話
2025-04-16 11:39:20
美炸了!梁洛施珍珠裙造型封神,歷盡千帆歸來(lái)才36歲!

美炸了!梁洛施珍珠裙造型封神,歷盡千帆歸來(lái)才36歲!

夢(mèng)涵說(shuō)體育
2025-04-16 09:11:43
網(wǎng)友:這法拍房讓人脊背發(fā)涼!“戶主已槍決”七折甩賣,0人報(bào)名

網(wǎng)友:這法拍房讓人脊背發(fā)涼!“戶主已槍決”七折甩賣,0人報(bào)名

火山詩(shī)話
2025-04-16 05:52:01
恭喜,申思正式上任,亮相上海新崗位,多年努力獲最好回報(bào)

恭喜,申思正式上任,亮相上海新崗位,多年努力獲最好回報(bào)

樂(lè)聊球
2025-04-15 12:35:00
韓紅母親去年6月露面手臂淤青,戰(zhàn)友曝韓紅和繼父真實(shí)關(guān)系

韓紅母親去年6月露面手臂淤青,戰(zhàn)友曝韓紅和繼父真實(shí)關(guān)系

小椰的奶奶
2025-04-16 09:15:31
風(fēng)水局失控:復(fù)盤(pán)三河“中高烈度

風(fēng)水局失控:復(fù)盤(pán)三河“中高烈度

17譚
2025-04-16 12:20:23
A-史密斯:勇士掉到第7很被動(dòng) 即使贏了灰熊 首輪打火箭也很難

A-史密斯:勇士掉到第7很被動(dòng) 即使贏了灰熊 首輪打火箭也很難

直播吧
2025-04-15 21:28:15
“金城武44歲時(shí)的狀態(tài)”沖上熱搜!攝影師公開(kāi)拍攝花絮圖:沒(méi)有任何修片

“金城武44歲時(shí)的狀態(tài)”沖上熱搜!攝影師公開(kāi)拍攝花絮圖:沒(méi)有任何修片

FM93浙江交通之聲
2025-04-15 06:40:30
毛東東坐在曾祖父毛主席曾坐過(guò)的座位,尤其是頭型,讓人格外熟悉

毛東東坐在曾祖父毛主席曾坐過(guò)的座位,尤其是頭型,讓人格外熟悉

大江
2025-04-14 13:56:14
2025-04-16 14:39:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
12537文章數(shù) 66013關(guān)注度
往期回顧 全部

科技要聞

Model 2被斃內(nèi)幕:馬斯克嫌無(wú)聊 高管勸不住

頭條要聞

媒體:新加坡突然提前大選 存在三大變數(shù)

頭條要聞

媒體:新加坡突然提前大選 存在三大變數(shù)

體育要聞

諾坎普奇跡的兩位當(dāng)事人,差點(diǎn)靈魂互換

娛樂(lè)要聞

楊冪女兒小糯米長(zhǎng)大了,神似媽媽!

財(cái)經(jīng)要聞

一季度GDP同比增長(zhǎng)5.4%!

汽車要聞

又帥又快超實(shí)用 極氪007GT獵裝車才是完美的車?

態(tài)度原創(chuàng)

手機(jī)
本地
親子
公開(kāi)課
軍事航空

手機(jī)要聞

小屏手機(jī)性能崛起!一加13T性能首測(cè)出爐

本地新聞

云游湖北|相約安陸,解鎖限定版粉色春天

親子要聞

我在韓國(guó)養(yǎng)倆吞金獸兒子,錢(qián)包每天都在哭泣

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

涉嫌泄密 美防長(zhǎng)高級(jí)顧問(wèn)被調(diào)查

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 淮阳县| 眉山市| 上杭县| 库车县| 洛南县| 抚顺市| 化德县| 商都县| 松滋市| 邯郸县| 普格县| 乐清市| 奎屯市| 丰城市| 高台县| 方山县| 盐边县| 肥乡县| 望江县| 金川县| 沽源县| 合山市| 孟村| 泰和县| 错那县| 宁德市| 文登市| 共和县| 塔河县| 赣州市| 拉萨市| 甘泉县| 图们市| 小金县| 大关县| 维西| 临漳县| 吕梁市| 农安县| 绥中县| 金山区|