99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

微軟發(fā)布首個(gè)開源、原生1-bit LLM;再試一次,即可提高LLM搜索能力|今日熱門論文

0
分享至


速覽熱門論文

1. 微軟發(fā)布首個(gè)開源、原生 1-bit 大語(yǔ)言模型

2. 再試一次,即可提高 LLM 搜索能力

3. Cobra:利用 200 張參考圖像實(shí)現(xiàn)高效線條著色

4. ActPRM:通過(guò)主動(dòng)學(xué)習(xí)高效訓(xùn)練 PRM

5. 綜述:高效推理模型

1. 微軟發(fā)布首個(gè)開源、原生 1-bit 大語(yǔ)言模型

在這項(xiàng)工作中,微軟研究院團(tuán)隊(duì)提出了 BitNet b1.58 2B4T——首個(gè)開源、原生 1-bit 大語(yǔ)言模型(LLM),參數(shù)規(guī)模為 20 億。該模型在包含 4 萬(wàn)億 token 的語(yǔ)料庫(kù)中進(jìn)行了訓(xùn)練,并在語(yǔ)言理解、數(shù)學(xué)推理、編碼能力和會(huì)話能力等方面進(jìn)行了基準(zhǔn)評(píng)估。

結(jié)果表明,BitNet b1.58 2B4T 的性能與同等規(guī)模的領(lǐng)先開放權(quán)重、全精度 LLM 不相上下,同時(shí)在計(jì)算效率方面具有顯著優(yōu)勢(shì),包括大幅減少內(nèi)存占用、能耗和解碼延遲。


為了促進(jìn)進(jìn)一步的研究和應(yīng)用,他們發(fā)布了模型權(quán)重以及 GPU 和 CPU 架構(gòu)的開源推理實(shí)現(xiàn)。

論文鏈接:https://arxiv.org/abs/2504.12285

2. 再試一次,即可提高 LLM 搜索能力

檢索增強(qiáng)生成(RAG)提高了大語(yǔ)言模型(LLM)在知識(shí)密集型任務(wù)中的性能,但這在很大程度上取決于初始搜索查詢的質(zhì)量。當(dāng)前方法通常使用強(qiáng)化學(xué)習(xí),側(cè)重于查詢表述或結(jié)果推理,而不會(huì)明確鼓勵(lì)在搜索失敗后繼續(xù)搜索。

在這項(xiàng)工作中,Menlo Research 團(tuán)隊(duì)提出了一個(gè)新的強(qiáng)化學(xué)習(xí)框架——ReZero(Retry-Zero),其直接獎(jiǎng)勵(lì)初次嘗試失敗后重試搜索查詢的行為。這激勵(lì) LLM 探索其他查詢,而不是過(guò)早地停止。


與 25% 的基線相比,ReZero 取得了 46.88% 的準(zhǔn)確率,增強(qiáng)了 LLM 在復(fù)雜信息搜索場(chǎng)景中的魯棒性,在這種場(chǎng)景中,最初的查詢可能被證明是不夠的。

論文鏈接:https://arxiv.org/abs/2504.11001

3. Cobra:利用 200 張參考圖像實(shí)現(xiàn)高效線條著色

漫畫制作行業(yè)需要基于參考資料的線稿著色,要求精確度高、效率高、上下文一致、控制靈活。漫畫頁(yè)面通常涉及不同的人物、物體和背景,這使得著色過(guò)程變得復(fù)雜。用于圖像生成的擴(kuò)散模型在線描著色中的應(yīng)用依然有限,面臨著處理大量參考圖像、推理耗時(shí)和靈活控制等挑戰(zhàn)。

在這項(xiàng)工作中,來(lái)自清華大學(xué)、香港中文大學(xué)和騰訊的聯(lián)合團(tuán)隊(duì)研究了大量上下文圖像引導(dǎo)對(duì)線稿著色質(zhì)量的必要性。為了應(yīng)對(duì)這些挑戰(zhàn),他提出了一種高效、多用途的方法 Cobra,其支持色彩提示,可利用 200 多張參考圖像,同時(shí)保持較低的延遲。


Cobra 的核心是因果稀疏 DiT 架構(gòu),該架構(gòu)利用專門設(shè)計(jì)的位置編碼、因果稀疏注意力和鍵值緩存來(lái)有效管理長(zhǎng)上下文參考,并確保色彩身份的一致性。結(jié)果表明,Cobra 通過(guò)廣泛的上下文參考實(shí)現(xiàn)了準(zhǔn)確的線條美著色,提高了推理速度和交互性,從而滿足了關(guān)鍵的工業(yè)需求。

論文地址:https://arxiv.org/abs/2504.12240

4. ActPRM:通過(guò)主動(dòng)學(xué)習(xí)高效訓(xùn)練 PRM

過(guò)程獎(jiǎng)勵(lì)模型(PRM)為大語(yǔ)言模型(LLMs)提供了階段級(jí)監(jiān)督,但對(duì)于人類和 LLM 來(lái)說(shuō),擴(kuò)大訓(xùn)練數(shù)據(jù)標(biāo)注仍然是一項(xiàng)挑戰(zhàn)。

為了解決這一局限性,來(lái)自新加坡國(guó)立大學(xué)和 Sea AI Lab 的研究團(tuán)隊(duì)提出了一種主動(dòng)學(xué)習(xí)方法 ActPRM,它可以主動(dòng)選擇最不確定的樣本進(jìn)行訓(xùn)練,從而大大降低標(biāo)注成本。在訓(xùn)練過(guò)程中,他們使用 PRM 估算前向傳播后的不確定性,只保留高度不確定的數(shù)據(jù)。隨后,功能更強(qiáng)的推理模型會(huì)對(duì)這些數(shù)據(jù)進(jìn)行標(biāo)注。然后,他們計(jì)算與標(biāo)注相關(guān)的損失,并更新 PRM 的權(quán)重。

他們?cè)诨诔氐闹鲃?dòng)學(xué)習(xí)設(shè)置中比較了 ActPRM 和 vanilla 微調(diào),結(jié)果表明 ActPRM 減少了 50% 的標(biāo)注,但卻實(shí)現(xiàn)了相當(dāng)甚至更好的性能。除了標(biāo)注效率之外,他們還利用 ActPRM 過(guò)濾了 100 多萬(wàn)條數(shù)學(xué)推理軌跡,保留了 60% 的數(shù)據(jù),從而進(jìn)一步提高了主動(dòng)訓(xùn)練 PRM 的性能。與同等規(guī)模的模型相比,在這一選定數(shù)據(jù)集上進(jìn)行的后續(xù)訓(xùn)練在 ProcessBench(75.0%)和 PRMBench(65.5%)上產(chǎn)生了 SOTA PRM。

論文鏈接:https://arxiv.org/abs/2504.10559

5. 綜述:高效推理模型

推理模型通過(guò)在得出最終答案之前生成擴(kuò)展的“思維鏈”(CoT),在解決復(fù)雜的邏輯密集型任務(wù)方面取得了很大的進(jìn)展。然而,這種“慢思考”模式的出現(xiàn),以及依次生成的大量 token,不可避免地帶來(lái)了大量計(jì)算開銷。這凸顯了對(duì)有效加速的迫切需求。

在這項(xiàng)工作中,新加坡國(guó)立大學(xué)團(tuán)隊(duì)旨在全面概述高效推理的新進(jìn)展,將現(xiàn)有工作分為三個(gè)主要方向:(1)更短--將冗長(zhǎng)的 CoT 壓縮成簡(jiǎn)潔而有效的推理鏈;(2)更小--通過(guò)知識(shí)蒸餾、其他模型壓縮和強(qiáng)化學(xué)習(xí)等技術(shù),開發(fā)具有強(qiáng)推理能力的緊湊語(yǔ)言模型;(3)更快--設(shè)計(jì)高效的解碼策略以加速推理。


論文鏈接:https://arxiv.org/abs/2504.10903

整理:學(xué)術(shù)君

如需轉(zhuǎn)載或投稿,請(qǐng)直接在公眾號(hào)內(nèi)留言

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
1-0到1-3!丁俊暉3局0分,斯佳輝被罰7分,或首敗塞爾比終結(jié)者?

1-0到1-3!丁俊暉3局0分,斯佳輝被罰7分,或首敗塞爾比終結(jié)者?

劉姚堯的文字城堡
2025-04-27 03:27:14
特朗普上臺(tái)將滿100天,金融市場(chǎng)給“差評(píng)”!電商平臺(tái)集體漲價(jià),機(jī)構(gòu)稱“破產(chǎn)咨詢激增”!關(guān)稅暴漲44倍,企業(yè)主起訴政府

特朗普上臺(tái)將滿100天,金融市場(chǎng)給“差評(píng)”!電商平臺(tái)集體漲價(jià),機(jī)構(gòu)稱“破產(chǎn)咨詢激增”!關(guān)稅暴漲44倍,企業(yè)主起訴政府

每日經(jīng)濟(jì)新聞
2025-04-27 00:05:07
特朗普示弱,“窮寇” 真能不追?七年前的巴掌猶在臉畔!

特朗普示弱,“窮寇” 真能不追?七年前的巴掌猶在臉畔!

貓眼觀史
2025-04-26 01:07:13
今夏流行“不穿褲子”!洋氣顯瘦顯腿長(zhǎng),誰(shuí)穿誰(shuí)好看!

今夏流行“不穿褲子”!洋氣顯瘦顯腿長(zhǎng),誰(shuí)穿誰(shuí)好看!

Yuki女人故事
2025-04-25 22:30:18
0-7慘敗!韓媒怒斥:亞冠已徹底喪失公平,冠軍就是為沙特定做的

0-7慘敗!韓媒怒斥:亞冠已徹底喪失公平,冠軍就是為沙特定做的

直播吧
2025-04-26 16:57:12
南京淪陷后,日軍舉行慶祝活動(dòng),高級(jí)軍官鞠躬時(shí)腦袋被砍

南京淪陷后,日軍舉行慶祝活動(dòng),高級(jí)軍官鞠躬時(shí)腦袋被砍

阿七說(shuō)史
2025-04-25 23:52:40
劉爽下場(chǎng)開撕董明珠:若不收回成命,劉氏與赫舍里家族將抵制格力

劉爽下場(chǎng)開撕董明珠:若不收回成命,劉氏與赫舍里家族將抵制格力

剛哥說(shuō)法365
2025-04-26 21:04:23
美國(guó)拒發(fā)簽證,中國(guó)代表無(wú)法入境,耿爽發(fā)聲,聯(lián)合國(guó)搬遷勢(shì)在必行

美國(guó)拒發(fā)簽證,中國(guó)代表無(wú)法入境,耿爽發(fā)聲,聯(lián)合國(guó)搬遷勢(shì)在必行

說(shuō)天說(shuō)地說(shuō)實(shí)事
2025-04-27 02:53:11
廣廈主場(chǎng)19分大勝遼籃,全隊(duì)卻不開心!遼籃輸球只因一人不在狀態(tài)

廣廈主場(chǎng)19分大勝遼籃,全隊(duì)卻不開心!遼籃輸球只因一人不在狀態(tài)

生活新鮮市
2025-04-27 00:49:13
特朗普還是贏了?美聯(lián)儲(chǔ)連夜“投降”,半小時(shí)內(nèi)美國(guó)股市全面大漲

特朗普還是贏了?美聯(lián)儲(chǔ)連夜“投降”,半小時(shí)內(nèi)美國(guó)股市全面大漲

肆?xí)r說(shuō)
2025-04-26 19:03:47
搬磚9年攢200萬(wàn)元蓋了別墅!90后男子說(shuō)自己很后悔

搬磚9年攢200萬(wàn)元蓋了別墅!90后男子說(shuō)自己很后悔

新民周刊
2025-04-26 18:07:26
回不來(lái)了!臺(tái)積電張忠謀正式表態(tài),國(guó)內(nèi)院士:放棄一切幻想

回不來(lái)了!臺(tái)積電張忠謀正式表態(tài),國(guó)內(nèi)院士:放棄一切幻想

Thurman在昆明
2025-04-27 00:49:43
張柏芝淪為笑話?就算謝霆鋒向王菲示愛(ài)100次,她也是“大贏家”

張柏芝淪為笑話?就算謝霆鋒向王菲示愛(ài)100次,她也是“大贏家”

春序娛樂(lè)
2025-04-26 20:17:52
笑噴!廣西人工降雨結(jié)果打到廣東,廣東網(wǎng)友: 表,別打了都快淹了

笑噴!廣西人工降雨結(jié)果打到廣東,廣東網(wǎng)友: 表,別打了都快淹了

有趣的火烈鳥
2025-04-26 17:26:07
海關(guān)總署:4月22日起,允許符合相關(guān)要求的阿根廷牛黃進(jìn)口

海關(guān)總署:4月22日起,允許符合相關(guān)要求的阿根廷牛黃進(jìn)口

每日經(jīng)濟(jì)新聞
2025-04-26 21:57:06
歐洲裁判不慣著楊鳴!繼偉夢(mèng)回國(guó)際賽場(chǎng),廣廈造19分慘案1-0遼寧

歐洲裁判不慣著楊鳴!繼偉夢(mèng)回國(guó)際賽場(chǎng),廣廈造19分慘案1-0遼寧

后仰大風(fēng)車
2025-04-26 21:52:11
澤連斯基“讓步”了

澤連斯基“讓步”了

環(huán)球時(shí)報(bào)新聞
2025-04-26 17:01:11
曝中日友好醫(yī)院外科醫(yī)生出軌:護(hù)士長(zhǎng)兩次懷孕,與小三曖昧照流出

曝中日友好醫(yī)院外科醫(yī)生出軌:護(hù)士長(zhǎng)兩次懷孕,與小三曖昧照流出

博士觀察
2025-04-26 08:57:28
2011年,她全裸接受記者采訪,并稱:我敢看你們,你們敢看我嗎?

2011年,她全裸接受記者采訪,并稱:我敢看你們,你們敢看我嗎?

芳芳?xì)v史燴
2025-04-24 15:23:20
沒(méi)人結(jié)婚,成都崇州最豪華的喜宴中心倒閉了,才開業(yè)一年多

沒(méi)人結(jié)婚,成都崇州最豪華的喜宴中心倒閉了,才開業(yè)一年多

小人物看盡人間百態(tài)
2025-04-26 20:42:11
2025-04-27 05:20:49
學(xué)術(shù)頭條
學(xué)術(shù)頭條
致力于學(xué)術(shù)傳播和科學(xué)普及,重點(diǎn)關(guān)注人工智能、生命科學(xué)等前沿科學(xué)進(jìn)展。
1247文章數(shù) 5069關(guān)注度
往期回顧 全部

科技要聞

百度心響實(shí)測(cè):“能用版Manus”開了個(gè)好頭

頭條要聞

特朗普將舉行集會(huì)慶祝執(zhí)政100天 美媒:時(shí)機(jī)不妙

頭條要聞

特朗普將舉行集會(huì)慶祝執(zhí)政100天 美媒:時(shí)機(jī)不妙

體育要聞

廣廈19分勝遼寧獲開門紅 孫銘徽13分3助崴腳

娛樂(lè)要聞

金掃帚獎(jiǎng)出爐,包貝爾意外獲“影帝”

財(cái)經(jīng)要聞

韓國(guó)的"宇樹科技" 是怎樣被財(cái)閥毀掉的?

汽車要聞

充電5分鐘續(xù)航100公里 探訪華為兆瓦超充站

態(tài)度原創(chuàng)

本地
教育
數(shù)碼
旅游
軍事航空

本地新聞

云游湖北 | 漢川文旅新體驗(yàn):千年陶藝邂逅湖光

教育要聞

你說(shuō)說(shuō)看,你做做這樣也可以嗎?

數(shù)碼要聞

AMD修補(bǔ)高危安全漏洞!歷代Zen架構(gòu)CPU 100%中招

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

軍事要聞

白宮爭(zhēng)吵后特朗普與澤連斯基"首度"碰面

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 专栏| 青田县| 凤翔县| 常德市| 九江县| 新兴县| 万安县| 商丘市| 新营市| 海宁市| 长垣县| 治县。| 璧山县| 商都县| 铜山县| 武穴市| 郸城县| 南投县| 宁明县| 拉萨市| 西和县| 昭苏县| 姚安县| 澄江县| 筠连县| 耒阳市| 青岛市| 句容市| 广平县| 云林县| 巨野县| 北安市| 彭水| 剑川县| 开化县| 衡水市| 读书| 望谟县| 金门县| 六枝特区| 金湖县|