99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

實(shí)錘!大模型不會(huì)真正的數(shù)學(xué)推理;微軟開源實(shí)時(shí)交互式世界模型MineWorld|今日熱門論文

0
分享至


速覽熱門論文

1. 實(shí)錘! 大模型不會(huì)真正的數(shù)學(xué)推理

2. 微軟開源實(shí)時(shí)交互式世界模型 MineWorld

3. 字節(jié):7B 高性能視頻生成模型訓(xùn)練策略

4. CMU 團(tuán)隊(duì)提出「協(xié)作式 RAG」框架 CoRAG

5. 港大提出圖像生成模型 PixelFlow:無需 VAE,可端到端訓(xùn)練

1. 實(shí)錘!大模型不會(huì)真正的數(shù)學(xué)推理

盡管 benchmark 分?jǐn)?shù)很高,但大語言模型(LLM)經(jīng)常在簡單的問題上失敗,這就提出了一個(gè)關(guān)鍵問題:LLM 是在學(xué)習(xí)數(shù)學(xué)原理,還是僅僅在記憶模式?

在這項(xiàng)工作中,來自浙江大學(xué)和西湖大學(xué)的研究團(tuán)隊(duì)沒有設(shè)計(jì)更為復(fù)雜的 benchmark,而是使用基本的二進(jìn)制加法(0 到 2^64)來研究這個(gè)問題,探究了兩個(gè)核心特性:交換律(A+B=B+A)和組合泛化(通過同構(gòu)符號映射,例如,7 映射為 y)。SOTA LLM 在數(shù)字加法上的準(zhǔn)確率為 73.8%-99.8%,而在符號映射下的準(zhǔn)確率則下降到 7.5% 及以下,這表明所學(xué)規(guī)則的泛化失敗。數(shù)字?jǐn)?shù)量增加時(shí)的非單調(diào)性能變化,以及頻繁的交換律違反(超過 1700 例“A+B 不等于 B+A”),進(jìn)一步證明了這一點(diǎn)。明確提供加法規(guī)則會(huì)使性能平均下降 81.2%,而自我解釋則能保持基線準(zhǔn)確率,這表明 LLM 的算術(shù)處理與人類定義的原則不一致。


研究結(jié)果表明,當(dāng)前的 LLM 依賴于記憶模式,而不是真正的規(guī)則學(xué)習(xí),這凸顯了架構(gòu)上的局限性,以及需要新方法來實(shí)現(xiàn)真正的數(shù)學(xué)推理。

論文鏈接:https://arxiv.org/abs/2504.05262

2. 微軟開源實(shí)時(shí)交互式世界模型 MineWorld

世界建模是智能 agent 與人類有效互動(dòng)并在動(dòng)態(tài)環(huán)境中運(yùn)行的關(guān)鍵任務(wù)。

在這項(xiàng)工作中,微軟研究院團(tuán)隊(duì)提出了一個(gè)基于 Minecraft 的實(shí)時(shí)交互式世界模型——MineWorld,其由視覺-動(dòng)作自回歸 Transformer 驅(qū)動(dòng),將配對的游戲場景和相應(yīng)的動(dòng)作作為輸入,并根據(jù)動(dòng)作生成相應(yīng)的新場景。

具體來說,他們通過圖像 tokenizer 和動(dòng)作 tokenizer 將視覺游戲場景和動(dòng)作轉(zhuǎn)化為離散的 token ID,然后將這兩種 ID 交錯(cuò)連接組成模型輸入,再通過下一個(gè) token 預(yù)測對模型進(jìn)行訓(xùn)練,從而同時(shí)學(xué)習(xí)游戲狀態(tài)的豐富表征以及狀態(tài)和動(dòng)作之間的條件。


在推理方面,他們開發(fā)了一種新穎的并行解碼算法,可同時(shí)預(yù)測每幀中的空間冗余 token,讓不同規(guī)模的模型每秒生成 4 至 7 幀,實(shí)現(xiàn)與游戲玩家的實(shí)時(shí)互動(dòng)。在評估中,他們提出了新的指標(biāo),不僅可以評估視覺質(zhì)量,還可以評估生成新場景時(shí)的動(dòng)作跟隨能力,這對世界模型至關(guān)重要。

綜合評估結(jié)果表明,MineWorld 的效果優(yōu)于基于擴(kuò)散的 SoTA 開源世界模型。

論文鏈接:https://arxiv.org/abs/2504.08388

3. 字節(jié):7B 高性能視頻生成模型訓(xùn)練策略

在這項(xiàng)工作中,字節(jié)跳動(dòng) Seed 團(tuán)隊(duì)介紹了一種具有成本效益的視頻生成基礎(chǔ)模型訓(xùn)練策略。他們介紹了一個(gè)擁有約 70 億(7B)參數(shù)的中型研究模型,稱為 Seaweed-7B,該模型使用 665000 H100 GPU 小時(shí)從頭開始訓(xùn)練。盡管只使用了中等計(jì)算資源進(jìn)行訓(xùn)練,但與規(guī)模更大的視頻生成模型(如 Wan 2.1、HunyuanVideo)相比,Seaweed-7B 表現(xiàn)出了具有競爭力的性能。


在資源有限的情況下,設(shè)計(jì)選擇尤為重要。該技術(shù)報(bào)告重點(diǎn)介紹了提高中型擴(kuò)散模型性能的關(guān)鍵設(shè)計(jì)決策。他們得出了兩點(diǎn)結(jié)論:(1)Seaweed-7B 的性能可媲美甚至超越使用更多 GPU 資源訓(xùn)練的更大型模型;(2) Seaweed-7B 具有很強(qiáng)的泛化能力,可以通過輕量級微調(diào)或繼續(xù)訓(xùn)練,有效適用于各種下游應(yīng)用領(lǐng)域。

論文鏈接:https://arxiv.org/abs/2504.08685

4. CMU 團(tuán)隊(duì)提出「協(xié)作式 RAG」框架 CoRAG

檢索增強(qiáng)生成(RAG)模型在知識密集型任務(wù)中表現(xiàn)出色,尤其是在少樣本學(xué)習(xí)限制條件下。

在這項(xiàng)工作中,卡內(nèi)基梅隆大學(xué)團(tuán)隊(duì)提出了一個(gè)將 RAG 擴(kuò)展到協(xié)作環(huán)境的框架——CoRAG,其中多個(gè) client 使用協(xié)作文本片段存儲共同訓(xùn)練一個(gè)共享模型。


為了評估 CoRAG,他們還提出了一個(gè)用于協(xié)作同構(gòu)開放域問答的基準(zhǔn)——CRAB。實(shí)驗(yàn)證明,在資源匱乏的情況下,CoRAG 始終優(yōu)于參數(shù)協(xié)作學(xué)習(xí)方法和本地訓(xùn)練的 RAG 模型。進(jìn)一步的分析揭示了共享存儲中相關(guān)文本片段的重要性、納入無關(guān)文本片段的驚人優(yōu)勢以及硬否定對性能產(chǎn)生負(fù)面影響的可能性。這就為協(xié)作式 RAG 引入了一個(gè)新的考慮因素:利用集體豐富的知識庫與納入其他 client 的有害文本片段的潛在風(fēng)險(xiǎn)之間的權(quán)衡。研究結(jié)果強(qiáng)調(diào)了 CoRAG 的可行性,同時(shí)也突出了關(guān)鍵的設(shè)計(jì)挑戰(zhàn)和未來研究的前景。

論文鏈接:https://arxiv.org/abs/2504.01883

5. 港大提出圖像生成模型 PixelFlow:無需 VAE,可端到端訓(xùn)練

在這項(xiàng)工作中,香港大學(xué)團(tuán)隊(duì)提出了一系列直接在原始像素空間運(yùn)行的圖像生成模型 PixelFlow,其與主流的潛空間模型截然不同。


這種方法無需預(yù)訓(xùn)練變分自編碼器(VAE),簡化了圖像生成過程,并使整個(gè)模型可以端到端訓(xùn)練。通過高效的級聯(lián)流建模,PixelFlow 在像素空間內(nèi)實(shí)現(xiàn)了可負(fù)擔(dān)的計(jì)算成本。它在 256*256 ImageNet 類別條件圖像生成基準(zhǔn)上的 FID 達(dá)到了 1.98。文本到圖像的定性結(jié)果表明,PixelFlow 在圖像質(zhì)量、藝術(shù)性和語義控制方面表現(xiàn)出色。

論文鏈接:https://arxiv.org/abs/2504.07963

整理:錦鯉

如需轉(zhuǎn)載或投稿,請直接在公眾號內(nèi)留言

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
巨大爭議!李可踩到馬德魯加的腳踝,裁判無視,球迷:百分百紅牌

巨大爭議!李可踩到馬德魯加的腳踝,裁判無視,球迷:百分百紅牌

側(cè)身凌空斬
2025-04-26 20:34:13
你遇到過超級主動(dòng)的女生是啥樣?網(wǎng)友:為什么沒有女人主動(dòng)接近我

你遇到過超級主動(dòng)的女生是啥樣?網(wǎng)友:為什么沒有女人主動(dòng)接近我

娛樂圈人物大賞
2025-04-10 00:30:23
這身材美的不正常!

這身材美的不正常!

喜歡歷史的阿繁
2025-04-26 01:19:06
網(wǎng)友:燒窗簾是典型的仙人跳手法,普通人多加注意……

網(wǎng)友:燒窗簾是典型的仙人跳手法,普通人多加注意……

小人物看盡人間百態(tài)
2025-04-22 14:45:55
“治港敗類”曾蔭權(quán):治理香港7年,為何卻在卸任后,獲刑20個(gè)月

“治港敗類”曾蔭權(quán):治理香港7年,為何卻在卸任后,獲刑20個(gè)月

星光看娛樂
2025-03-31 17:52:22
俄宣布全面收復(fù)庫爾斯克,普京發(fā)聲

俄宣布全面收復(fù)庫爾斯克,普京發(fā)聲

參考消息
2025-04-26 20:41:05
江西省寧都縣政協(xié)原二級調(diào)研員謝亦禮被查

江西省寧都縣政協(xié)原二級調(diào)研員謝亦禮被查

澎湃新聞
2025-04-26 20:53:03
濃眉正式提出交易申請,渴望加盟快船聯(lián)手哈登,交易方案曝光

濃眉正式提出交易申請,渴望加盟快船聯(lián)手哈登,交易方案曝光

山河入畫屏
2025-04-26 15:15:20
去了趟學(xué)校,才發(fā)現(xiàn)現(xiàn)在男女教師比例已經(jīng)失衡到這個(gè)地步了

去了趟學(xué)校,才發(fā)現(xiàn)現(xiàn)在男女教師比例已經(jīng)失衡到這個(gè)地步了

清暉有墨
2025-04-19 12:04:29
男子稱喝中藥治肺結(jié)節(jié)三個(gè)月后反變大增多,自貢衛(wèi)健委回應(yīng)

男子稱喝中藥治肺結(jié)節(jié)三個(gè)月后反變大增多,自貢衛(wèi)健委回應(yīng)

澎湃新聞
2025-04-25 15:20:28
安徽鐵塔的大瓜!

安徽鐵塔的大瓜!

妮妮玩不夠
2025-04-25 17:22:16
在赫蓮娜官網(wǎng)購買面霜,退貨時(shí)被認(rèn)定為假貨?投訴人:商家惡意拒絕退款,多名消費(fèi)者有同樣遭遇

在赫蓮娜官網(wǎng)購買面霜,退貨時(shí)被認(rèn)定為假貨?投訴人:商家惡意拒絕退款,多名消費(fèi)者有同樣遭遇

中國能源網(wǎng)
2025-04-25 18:34:12
18歲德國女孩追求25歲中國男生,同居僅13天,見丈母娘就被催生。

18歲德國女孩追求25歲中國男生,同居僅13天,見丈母娘就被催生。

小毅說事
2025-04-16 21:21:37
有這么多死不了又很折磨人的病!看網(wǎng)友分享,太真實(shí)了!

有這么多死不了又很折磨人的病!看網(wǎng)友分享,太真實(shí)了!

墻頭草
2025-04-26 09:54:07
瑾汐父母家業(yè)曝光,做進(jìn)出口生意房產(chǎn)數(shù)套,親媽一身行頭近10萬元

瑾汐父母家業(yè)曝光,做進(jìn)出口生意房產(chǎn)數(shù)套,親媽一身行頭近10萬元

小正說娛樂
2025-04-26 16:42:08
演員何賽飛辟謠:網(wǎng)上千條減肥廣告不是我拍的,是AI合成的

演員何賽飛辟謠:網(wǎng)上千條減肥廣告不是我拍的,是AI合成的

南方都市報(bào)
2025-04-26 21:59:35
艾滋病新增130萬!多人無辜中招!公眾場合千萬堅(jiān)持“4不碰”原則

艾滋病新增130萬!多人無辜中招!公眾場合千萬堅(jiān)持“4不碰”原則

39健康網(wǎng)
2025-04-23 10:41:16
重磅消息!國務(wù)院最新批復(fù):同意!這個(gè)賽道要火

重磅消息!國務(wù)院最新批復(fù):同意!這個(gè)賽道要火

數(shù)據(jù)寶
2025-04-26 08:38:04
陸毅和郭京飛一個(gè)娶了姐姐,一個(gè)娶了妹妹,同去丈母娘家,丈母娘對郭京飛說:快去做飯,陸毅沒吃飯呢

陸毅和郭京飛一個(gè)娶了姐姐,一個(gè)娶了妹妹,同去丈母娘家,丈母娘對郭京飛說:快去做飯,陸毅沒吃飯呢

感覺會(huì)火
2025-04-26 12:09:28
11大名嘴齊夸洋哨,兩外籍裁判教遼籃三人重新做人,別再丟人了

11大名嘴齊夸洋哨,兩外籍裁判教遼籃三人重新做人,別再丟人了

南海浪花
2025-04-27 07:09:33
2025-04-27 07:52:49
學(xué)術(shù)頭條
學(xué)術(shù)頭條
致力于學(xué)術(shù)傳播和科學(xué)普及,重點(diǎn)關(guān)注人工智能、生命科學(xué)等前沿科學(xué)進(jìn)展。
1247文章數(shù) 5069關(guān)注度
往期回顧 全部

科技要聞

賈躍亭:FF市值到百億美元能基本還完中國債務(wù)

頭條要聞

日本執(zhí)政黨要員接連訪華 學(xué)者:對外釋放的信息很特殊

頭條要聞

日本執(zhí)政黨要員接連訪華 學(xué)者:對外釋放的信息很特殊

體育要聞

84分鐘扳平+加時(shí)絕殺!巴薩賽季3殺皇馬,32次問鼎國王杯歷史第1

娛樂要聞

金掃帚獎(jiǎng)出爐,包貝爾意外獲“影帝”

財(cái)經(jīng)要聞

韓國的"宇樹科技" 是怎樣被財(cái)閥毀掉的?

汽車要聞

充電5分鐘續(xù)航100公里 探訪華為兆瓦超充站

態(tài)度原創(chuàng)

教育
藝術(shù)
本地
游戲
家居

教育要聞

這道求值題,能用直接代入的方法么?

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

本地新聞

云游湖北 | 漢川文旅新體驗(yàn):千年陶藝邂逅湖光

夢幻西游:出了雙固傷玉魄卻難過,口袋版成刷80級環(huán)裝首選

家居要聞

清徐現(xiàn)代 有溫度有態(tài)度

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 安平县| 信阳市| 延川县| 札达县| 石楼县| 北京市| 莲花县| 新源县| 嘉义市| 湖口县| 建水县| 工布江达县| 禹城市| 陆丰市| 田林县| 车险| 平度市| 洛川县| 嵩明县| 潍坊市| 婺源县| 陕西省| 临夏市| 和静县| 宜春市| 聂拉木县| 平凉市| 马边| 吴川市| 廉江市| 临潭县| 兰考县| 新宾| 贺兰县| 信丰县| 楚雄市| 郎溪县| 乌拉特前旗| 六盘水市| 鸡东县| 新昌县|