99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

蘋果發現多模態模型Scaling Laws 早融合比后融合好MoE勝密集模型

0
分享至

機器之心報道

編輯:澤南、Panda

讓大模型進入多模態模式,從而能夠有效感知世界,是最近 AI 領域里人們一直的探索目標。

目前我們見到的很多多模態大模型應用是「組合式」的:其中集成了數個單獨預訓練的組件,例如將視覺編碼器連接到 LLM 上并繼續進行多模態訓練;而在谷歌 Gemin 2.0 推出之后,原生多模態模型(NMM)被認為是正確的方向。

但從零開始訓練的多模態大模型真的是更好的方法嗎?近日,來自法國索邦大學、蘋果的研究者進行了一項廣泛的 Scaling Laws 研究,涵蓋了 457 個采用不同架構和訓練方式的模型。

研究表明,不依賴圖像編碼器的早融合架構與后融合架構相比并沒有固有優勢。不過,早融合在較低的參數數量下表現出更強的性能,訓練效率更高,并且更易于部署。受早融合架構強大性能的啟發,實驗表明,結合混合專家 (MoE) 可以使模型學習特定于模態的權重,從而顯著提升性能。



論文標題:Scaling Laws for Native Multimodal Models

論文地址:https://arxiv.org/abs/2504.07951

研究人員的發現可以概括如下:原生早融合和后融合模型的性能相當,從零開始訓練的早融合模型性能與后融合模型性能相當,在計算預算較低的情況下,略優于早融合模型。此外,對于多模態 Scaling Laws 的研究表明,隨著計算預算的增加,早融合和后融合的計算最優模型性能相似。



NMM 的Scaling Law與 LLM 類似:原生多模態模型的 Scaling Law 遵循與純文本 LLM 類似的規律,scaling 指數根據目標數據類型和訓練組合略有不同。

與此同時,后融合的模型需要更多參數:與早融合相比,計算最優的后融合模型需要更高的參數與數據比(見圖 1 右)。



再往下,稀疏性顯著有利于早融合的 NMM:在相同的推理成本下,稀疏 NMM 與密集 NMM 相比表現出顯著的改進。

在稀疏性訓練中,它們會隱式學習特定于模態的權重(圖 23)。此外,隨著計算預算的增長,計算優化模型更多地依賴于訓練 token 數量的擴展,而不是活動參數的數量(圖 1 右)。



對于稀疏 NMM,模態無關路由優于模態感知路由:使用模態無關路由訓練稀疏混合專家模型,其性能始終優于使用模態感知路由的模型(圖 11)。



原生多模態模型的 scaling 屬性

下面具體展示原生多模態模型的 Scaling Laws。該團隊研究了多種架構選擇、不同的數據混合方式、早融合和后融合 NMM 之間的實際權衡、NMM 的原生預訓練和持續預訓練的性能表現。

NMM 的 Scaling Laws

早融合和后融合模型的 Scaling Laws。

圖 2 左圖展示了早融合 NMM 在多模態交織數據集、圖像 - 描述數據集和文本數據集上的平均最終損失。其最低損失邊界遵循與 FLOPs 的冪律關系。擬合該冪律可得出表達式 L ∝ C^?0.049,這指示了隨著計算量的增加,性能提升的速率。



擬合該冪律可得出表達式 L ∝ C^?0.049,這指示了隨著計算量的增加,性能提升的速率。

分析每種數據類型(例如,圖像 - 說明、多模態交織的文檔、文本)的 Scaling Laws 時,可以觀察到指數會發生變化(表 3)。例如,與多模態交織(L ∝ C^?0.046)相比,該模型在圖像說明數據(L ∝ C^?0.061)上實現了更高的性能提升。



為了將損失建模為訓練 token 數量 D 和模型參數 N 的函數,他們還擬合了以下參數函數,得到了 scaling 指數 α = 0.301 和 β = 0.335。它們分別描述了 scaling 模型參數和訓練 token 數量時的性能提升率。



該團隊假設計算量、N 和 D 之間存在線性關系(即 C ∝ N D),推導出了模型參數與計算預算之間的相關規律,詳見原論文附錄 C。簡單來說,對于給定的計算預算 C,以對數間隔的 D 值計算相應的模型大小 N,并確定使損失最小化的參數數量 N_opt。對不同的 FLOPs 值重復此操作,可得到一個 (C, N_opt) 數據集,該團隊對其擬合了一個冪律,可預測計算最優模型大小與計算量的關系:N ? ∝ C^0.526。

類似地,他們也擬合了估計計算最優訓練數據集大小與計算量和模型大小的關系:



這些關系可讓實踐者在給定固定計算預算的情況下確定最佳模型和數據集大小。在根據數據類型分析時,該團隊發現與圖像說明數據 (a = 0.520) 相比,多模態交織數據可從較大的模型 (a = 0.532) 中獲益更多,而訓練 token 則呈現相反的趨勢。

該團隊在圖 2(右)中對后融合模型進行了類似的研究,并觀察到了類似的 scaling 行為。具體而言,損失 scaling 指數 (c = ?0.0494) 與早融合 (c = ?0.0492) 幾乎相同。這一趨勢在圖 3 中顯而易見,在較小的模型規模下,早融合的表現優于后融合,而在較大的模型規模下,兩種架構的性能收斂到相似的水平。在改變后融合配置時,該團隊也觀察到了類似的趨勢,例如使用較小的視覺編碼器和較大的文本解碼器。



NMM 和 LLM 的 Scaling Laws 比較。

通過比較 NMM 的 scaling laws 系數與純文本 LLM(例如 GPT-3、Chinchilla)的 scaling laws 系數,該團隊發現它們處于相似的范圍內。

具體來說,如果將損失看作計算量的函數,GPT-3 遵循 L ∝ C^?0.048,而該團隊的模型遵循 L ∝ C^?0.049,這表明 NMM 的性能遵循與 LLM 類似的 scaling 規律。同樣,該團隊對 α 和 β 參數的估計值 (α = 0.301, β = 0.335) 與 Hoffmann 等人報告的值 (α = 0.339, β = 0.285) 非常接近。同樣,該團隊計算出的 a = 0.526 和 b = 0.473 與 Hoffmann 等人的 a = 0.46 和 b = 0.54 非常接近。

這表明:對于原生多模態模型,訓練 token 的數量和模型參數應按比例 scaling。然而,由于 a 和 b 之間的差距小于 LLM,因此這一原則對于 NMM 更為適用。此外,由于在該團隊的案例中 a = 0.526 大于 b = 0.473,因此在計算預算固定的情況下,NMM 的最佳模型大小大于 LLM,而最佳訓練 token 數量則較低。

早融合與后融合 NMM 的計算優化權衡。

雖然后融合和早融合模型的損失會隨著 FLOP 的增加以相似的速率降低,但該團隊觀察到它們的計算優化模型中存在明顯的權衡。具體而言,后融合模型的 N_opt 較大,而早融合模型的 D_opt 較大。這表明,在計算預算固定的情況下,后融合模型需要更多參數,而早融合模型則受益于更多訓練 token。



早融合的訓練效率更高。

該團隊比較了后融合和早融合架構的訓練效率。如圖 5 所示,在相同的計算預算下,早融合模型消耗的內存更少,訓練速度更快。隨著計算量的增加,這一優勢更加明顯,這表明:早融合在保持與后融合相當的大規模性能的同時,擁有卓越的訓練效率。



值得注意的是,在相同的 FLOPs 下,與早融合模型相比,后融合模型具有更高的參數數量和更高的有效深度(即除了解碼器層之外還增加了額外的視覺編碼器層)。

不同數據混合方式的 Scaling Laws

圖 4 展示了不同的混合方式都遵循相似的 scaling 趨勢;然而,scaling 系數會有差別(表 4)。有趣的是,增加圖像 - 說明數據的比例(mixtures 1 和 2)會導致 a 降低、b 升高,而增加多模態交織數據和文本數據的比例(mixtures 3 和 4)則會產生相反的效果。





值得注意的是,圖像說明數據包含的圖像 token 比文本 token 多;因此,增加其比例會導致圖像 token 增多,而增加多模態交織數據和文本數據的比例會增加文本 token 的數量。這表明,當圖像 token 占主導地位時,訓練時間越長,損失的降低速度就越快,而增加模型大小則更快。

該團隊還發現,對于固定的模型大小,增加純文本和多模態交織數據的比例有利于早融合(圖 6)。



原生多模態預訓練 vs. LLM 的持續訓練

下面比較這兩種情況:從零開始進行原生訓練,以及使用預訓練的 LLM 進行初始化后再進行持續訓練。

這里使用的初始模型是 DCLM-1B,該模型已使用超過 2T 個 token 進行訓練。圖 8 表明,當訓練時間更長時,原生多模態模型可以縮小與初始化模型的差距。



具體而言,在圖像說明數據上,該模型需要不到 100B 個多模態 token 即可達到相當的性能。然而,在多模態交織數據和文本數據上,該模型可能需要更長時間的訓練 —— 可多達 1T 個 token。考慮到預訓練的成本,這些結果表明,為了在多模態基準測試中實現相同性能,原生訓練可能是更有效方法。

邁向多模態專業化

研究證明了在固定計算預算下,早融合模型的性能與后融合模型相當。然而,多模態數據本質上是異構的,訓練一個統一的模型來擬合如此多樣化的分布可能并非最優方案。

因此研究人員主張在統一架構內進行多模態特化。理想情況下,模型應該隱式地適應每種模態,例如,通過學習特定于模態的權重或專門的專家。多模態模型 + MoE 是一個有潛力的方向,MoE 已在 LLM 中證明了其有效性。

研究觀察了不同數量活動參數、不同數量 token 訓練的模型,比較了稀疏 MoE 模型和密集 MoE 模型。圖 9 顯示,在相同的推理成本(或活動參數數量)下,MoE 的性能顯著優于密集模型。有趣的是,這種性能差距在模型規模較小時更為明顯。這表明 MoE 能夠使模型更有效地處理異構數據,并專注于不同的模態。然而,隨著密集模型規模變得足夠大,兩種架構之間的差距會逐漸縮小。



先前關于大模型 Scaling Laws 的研究主要觀察驗證損失,這種評估與下游任務的表現有很好的相關性。為了驗證這一點,研究人員對 LLaVA 混合模型進行了多模態指令調整階段 (SFT),并報告了其在多個 VQA 和字幕任務中的準確率和 CIDEr 得分。表 7 證實了不同模型配置的排名。



具體而言,早融合優于后融合,而多模態 MoE 優于密集模型。然而,由于這些模型規模相對較小(15 億規模)、從零開始訓練,并在小型數據集上進行微調,因此總體得分低于目前的 SOTA 水平。

更多細節可參看論文原文。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
一場生日宴轟動全香港,25歲香港頂流姜濤遭王晶怒罵:滾出娛樂圈

一場生日宴轟動全香港,25歲香港頂流姜濤遭王晶怒罵:滾出娛樂圈

界史
2025-04-12 16:52:51
首例5胞胎現狀:父親已過勞去世,母親直言:如能重來一個也不要

首例5胞胎現狀:父親已過勞去世,母親直言:如能重來一個也不要

夢史
2024-12-07 09:59:43
30天不到,已有3個億萬富豪傳來死訊,有人曾讓李嘉誠損失165億

30天不到,已有3個億萬富豪傳來死訊,有人曾讓李嘉誠損失165億

小晨同學啊
2025-04-14 15:34:56
飛來橫禍!佛山一行人走在路上,被從天而降的“攔車閘”砸中倒地上…

飛來橫禍!佛山一行人走在路上,被從天而降的“攔車閘”砸中倒地上…

廣東活動
2025-04-14 12:06:47
朝鮮每年賣給中國20億的商品,都是些什么?你可能一輩子都猜不到

朝鮮每年賣給中國20億的商品,都是些什么?你可能一輩子都猜不到

百姓識天下
2025-04-10 18:26:14
日本人這是窮瘋了!200多就賣這幾片小樹葉子 網友:都不夠塞牙縫

日本人這是窮瘋了!200多就賣這幾片小樹葉子 網友:都不夠塞牙縫

有趣的火烈鳥
2025-04-14 12:13:12
提醒全體股民!A股即將迎來超級大變盤,今天A股一定這樣走!

提醒全體股民!A股即將迎來超級大變盤,今天A股一定這樣走!

悠然安晴
2025-04-14 11:50:26
人不會無緣無故患老年癡呆!研究發現:患老年癡呆,離不開這4點

人不會無緣無故患老年癡呆!研究發現:患老年癡呆,離不開這4點

今日養生之道
2025-04-13 13:16:46
49歲趙薇出鏡為瓊瑤音樂會宣傳,剪短發撞臉高曉松,退圈后變化大

49歲趙薇出鏡為瓊瑤音樂會宣傳,剪短發撞臉高曉松,退圈后變化大

萌神木木
2025-04-12 15:15:02
扎心!41歲韓庚節目中忘戴假發,頭頂禿一大片,斷崖式衰老引熱議

扎心!41歲韓庚節目中忘戴假發,頭頂禿一大片,斷崖式衰老引熱議

鄭丁嘉話
2025-03-31 10:01:24
特朗普拒絕和部長夫人握手,59歲金發女星手懸空中尷尬,引發猜測

特朗普拒絕和部長夫人握手,59歲金發女星手懸空中尷尬,引發猜測

譯言
2025-04-13 12:13:00
預告:農業農村部4月16日就中國加入《關于預防、制止和消除非法、不報告、不管制捕魚的港口國措施協定》和全球打擊非法捕撈制度體系相關情況舉行發布會

預告:農業農村部4月16日就中國加入《關于預防、制止和消除非法、不報告、不管制捕魚的港口國措施協定》和全球打擊非法捕撈制度體系相關情況舉行發布會

財聯社
2025-04-14 13:37:07
全紅嬋一句我的時代結束了,登上了熱搜!

全紅嬋一句我的時代結束了,登上了熱搜!

明月聊史
2025-04-02 17:02:10
漢堡不愿回德甲是為了錢,德乙不原諒漢堡,為了錢各隊抬他回德甲

漢堡不愿回德甲是為了錢,德乙不原諒漢堡,為了錢各隊抬他回德甲

吃多福穿好祿睡多長肉
2025-04-13 22:41:48
8個月沒生一個孩子?人口第一大省,成了中國“最不敢生”的省份

8個月沒生一個孩子?人口第一大省,成了中國“最不敢生”的省份

云景侃記
2024-12-13 06:40:08
隊記:湖人預計不會轉正杰米森&科洛克 更可能留下萊恩進入季后賽

隊記:湖人預計不會轉正杰米森&科洛克 更可能留下萊恩進入季后賽

直播吧
2025-04-14 18:24:08
比電視劇還狗血!葉海洋前女友18頁長文開撕:四娃竟有三位生母

比電視劇還狗血!葉海洋前女友18頁長文開撕:四娃竟有三位生母

歸史
2025-04-11 23:54:11
同事出差帶禮物唯獨沒我,我點了奶茶也給他,我被提拔同事都愣了

同事出差帶禮物唯獨沒我,我點了奶茶也給他,我被提拔同事都愣了

職場火鍋
2025-04-14 09:26:51
主力出貨!64只股票被機構大幅賣出,含軟件、半導體、消費電子

主力出貨!64只股票被機構大幅賣出,含軟件、半導體、消費電子

小波股事歷程
2025-04-14 18:03:06
美軍攔下473枚導彈和無人機,紛紛慶祝勝利,算賬后發現虧本

美軍攔下473枚導彈和無人機,紛紛慶祝勝利,算賬后發現虧本

歸史
2025-04-14 14:11:24
2025-04-14 22:20:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10359文章數 142295關注度
往期回顧 全部

科技要聞

多款熱門芯片暫停報價 華強北多檔口歇業

頭條要聞

綠媒:關稅戰嚴重沖擊大陸 大陸或對臺采取不理性作為

頭條要聞

綠媒:關稅戰嚴重沖擊大陸 大陸或對臺采取不理性作為

體育要聞

廣東女籃這一冠,含金量有多高?

娛樂要聞

專訪 | 王安宇:角色是為觀眾服務的

財經要聞

通過人民幣貶值應對關稅?

汽車要聞

B級車要集體失眠? 吉利銀河星耀8"全都要"

態度原創

親子
教育
藝術
旅游
公開課

親子要聞

女兒說這個游戲沒有家長能贏,我才不信

教育要聞

如何發現孩子的天賦和興趣?AI讓家庭教育更多元更高效!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 苍梧县| 乃东县| 伊川县| 贡山| 凤翔县| 高台县| 繁峙县| 进贤县| 府谷县| 谢通门县| 呼图壁县| 巴楚县| 天峻县| 芒康县| 昌江| 江达县| 修武县| 德州市| 乐清市| 神池县| 区。| 项城市| 富裕县| 富锦市| 湘西| 永胜县| 龙口市| 呼伦贝尔市| 甘孜| 浠水县| 大石桥市| 元江| 菏泽市| 闻喜县| 太和县| 巍山| 沂南县| 清苑县| 壤塘县| 抚顺县| 贡觉县|