網易首頁 > 網易號 > 正文申請入駐

蘋果發現多模態模型Scaling Laws 早融合比后融合好MoE勝密集模型

2025-04-13 14:24:14　來源: 機器之心Pro

天津舉報

分享至

機器之心報道

編輯：澤南、Panda

讓大模型進入多模態模式，從而能夠有效感知世界，是最近 AI 領域里人們一直的探索目標。

目前我們見到的很多多模態大模型應用是「組合式」的：其中集成了數個單獨預訓練的組件，例如將視覺編碼器連接到 LLM 上并繼續進行多模態訓練；而在谷歌 Gemin 2.0 推出之后，原生多模態模型（NMM）被認為是正確的方向。

但從零開始訓練的多模態大模型真的是更好的方法嗎？近日，來自法國索邦大學、蘋果的研究者進行了一項廣泛的 Scaling Laws 研究，涵蓋了 457 個采用不同架構和訓練方式的模型。

研究表明，不依賴圖像編碼器的早融合架構與后融合架構相比并沒有固有優勢。不過，早融合在較低的參數數量下表現出更強的性能，訓練效率更高，并且更易于部署。受早融合架構強大性能的啟發，實驗表明，結合混合專家 (MoE) 可以使模型學習特定于模態的權重，從而顯著提升性能。

論文標題：Scaling Laws for Native Multimodal Models

論文地址：https://arxiv.org/abs/2504.07951

研究人員的發現可以概括如下：原生早融合和后融合模型的性能相當，從零開始訓練的早融合模型性能與后融合模型性能相當，在計算預算較低的情況下，略優于早融合模型。此外，對于多模態 Scaling Laws 的研究表明，隨著計算預算的增加，早融合和后融合的計算最優模型性能相似。

NMM 的Scaling Law與 LLM 類似：原生多模態模型的 Scaling Law 遵循與純文本 LLM 類似的規律，scaling 指數根據目標數據類型和訓練組合略有不同。

與此同時，后融合的模型需要更多參數：與早融合相比，計算最優的后融合模型需要更高的參數與數據比（見圖 1 右）。

再往下，稀疏性顯著有利于早融合的 NMM：在相同的推理成本下，稀疏 NMM 與密集 NMM 相比表現出顯著的改進。

在稀疏性訓練中，它們會隱式學習特定于模態的權重（圖 23）。此外，隨著計算預算的增長，計算優化模型更多地依賴于訓練 token 數量的擴展，而不是活動參數的數量（圖 1 右）。

對于稀疏 NMM，模態無關路由優于模態感知路由：使用模態無關路由訓練稀疏混合專家模型，其性能始終優于使用模態感知路由的模型（圖 11）。

原生多模態模型的 scaling 屬性

下面具體展示原生多模態模型的 Scaling Laws。該團隊研究了多種架構選擇、不同的數據混合方式、早融合和后融合 NMM 之間的實際權衡、NMM 的原生預訓練和持續預訓練的性能表現。

NMM 的 Scaling Laws

早融合和后融合模型的 Scaling Laws。

圖 2 左圖展示了早融合 NMM 在多模態交織數據集、圖像 - 描述數據集和文本數據集上的平均最終損失。其最低損失邊界遵循與 FLOPs 的冪律關系。擬合該冪律可得出表達式 L ∝ C^?0.049，這指示了隨著計算量的增加，性能提升的速率。

擬合該冪律可得出表達式 L ∝ C^?0.049，這指示了隨著計算量的增加，性能提升的速率。

分析每種數據類型（例如，圖像 - 說明、多模態交織的文檔、文本）的 Scaling Laws 時，可以觀察到指數會發生變化（表 3）。例如，與多模態交織（L ∝ C^?0.046）相比，該模型在圖像說明數據（L ∝ C^?0.061）上實現了更高的性能提升。

為了將損失建模為訓練 token 數量 D 和模型參數 N 的函數，他們還擬合了以下參數函數，得到了 scaling 指數 α = 0.301 和 β = 0.335。它們分別描述了 scaling 模型參數和訓練 token 數量時的性能提升率。

該團隊假設計算量、N 和 D 之間存在線性關系（即 C ∝ N D），推導出了模型參數與計算預算之間的相關規律，詳見原論文附錄 C。簡單來說，對于給定的計算預算 C，以對數間隔的 D 值計算相應的模型大小 N，并確定使損失最小化的參數數量 N_opt。對不同的 FLOPs 值重復此操作，可得到一個 (C, N_opt) 數據集，該團隊對其擬合了一個冪律，可預測計算最優模型大小與計算量的關系：N ? ∝ C^0.526。

類似地，他們也擬合了估計計算最優訓練數據集大小與計算量和模型大小的關系：

這些關系可讓實踐者在給定固定計算預算的情況下確定最佳模型和數據集大小。在根據數據類型分析時，該團隊發現與圖像說明數據 (a = 0.520) 相比，多模態交織數據可從較大的模型 (a = 0.532) 中獲益更多，而訓練 token 則呈現相反的趨勢。

該團隊在圖 2（右）中對后融合模型進行了類似的研究，并觀察到了類似的 scaling 行為。具體而言，損失 scaling 指數 (c = ?0.0494) 與早融合 (c = ?0.0492) 幾乎相同。這一趨勢在圖 3 中顯而易見，在較小的模型規模下，早融合的表現優于后融合，而在較大的模型規模下，兩種架構的性能收斂到相似的水平。在改變后融合配置時，該團隊也觀察到了類似的趨勢，例如使用較小的視覺編碼器和較大的文本解碼器。

NMM 和 LLM 的 Scaling Laws 比較。

通過比較 NMM 的 scaling laws 系數與純文本 LLM（例如 GPT-3、Chinchilla）的 scaling laws 系數，該團隊發現它們處于相似的范圍內。

具體來說，如果將損失看作計算量的函數，GPT-3 遵循 L ∝ C^?0.048，而該團隊的模型遵循 L ∝ C^?0.049，這表明 NMM 的性能遵循與 LLM 類似的 scaling 規律。同樣，該團隊對 α 和 β 參數的估計值 (α = 0.301, β = 0.335) 與 Hoffmann 等人報告的值 (α = 0.339, β = 0.285) 非常接近。同樣，該團隊計算出的 a = 0.526 和 b = 0.473 與 Hoffmann 等人的 a = 0.46 和 b = 0.54 非常接近。

這表明：對于原生多模態模型，訓練 token 的數量和模型參數應按比例 scaling。然而，由于 a 和 b 之間的差距小于 LLM，因此這一原則對于 NMM 更為適用。此外，由于在該團隊的案例中 a = 0.526 大于 b = 0.473，因此在計算預算固定的情況下，NMM 的最佳模型大小大于 LLM，而最佳訓練 token 數量則較低。

早融合與后融合 NMM 的計算優化權衡。

雖然后融合和早融合模型的損失會隨著 FLOP 的增加以相似的速率降低，但該團隊觀察到它們的計算優化模型中存在明顯的權衡。具體而言，后融合模型的 N_opt 較大，而早融合模型的 D_opt 較大。這表明，在計算預算固定的情況下，后融合模型需要更多參數，而早融合模型則受益于更多訓練 token。

早融合的訓練效率更高。

該團隊比較了后融合和早融合架構的訓練效率。如圖 5 所示，在相同的計算預算下，早融合模型消耗的內存更少，訓練速度更快。隨著計算量的增加，這一優勢更加明顯，這表明：早融合在保持與后融合相當的大規模性能的同時，擁有卓越的訓練效率。

值得注意的是，在相同的 FLOPs 下，與早融合模型相比，后融合模型具有更高的參數數量和更高的有效深度（即除了解碼器層之外還增加了額外的視覺編碼器層）。

不同數據混合方式的 Scaling Laws

圖 4 展示了不同的混合方式都遵循相似的 scaling 趨勢；然而，scaling 系數會有差別（表 4）。有趣的是，增加圖像 - 說明數據的比例（mixtures 1 和 2）會導致 a 降低、b 升高，而增加多模態交織數據和文本數據的比例（mixtures 3 和 4）則會產生相反的效果。

值得注意的是，圖像說明數據包含的圖像 token 比文本 token 多；因此，增加其比例會導致圖像 token 增多，而增加多模態交織數據和文本數據的比例會增加文本 token 的數量。這表明，當圖像 token 占主導地位時，訓練時間越長，損失的降低速度就越快，而增加模型大小則更快。

該團隊還發現，對于固定的模型大小，增加純文本和多模態交織數據的比例有利于早融合（圖 6）。

原生多模態預訓練 vs. LLM 的持續訓練

下面比較這兩種情況：從零開始進行原生訓練，以及使用預訓練的 LLM 進行初始化后再進行持續訓練。

這里使用的初始模型是 DCLM-1B，該模型已使用超過 2T 個 token 進行訓練。圖 8 表明，當訓練時間更長時，原生多模態模型可以縮小與初始化模型的差距。

具體而言，在圖像說明數據上，該模型需要不到 100B 個多模態 token 即可達到相當的性能。然而，在多模態交織數據和文本數據上，該模型可能需要更長時間的訓練 —— 可多達 1T 個 token。考慮到預訓練的成本，這些結果表明，為了在多模態基準測試中實現相同性能，原生訓練可能是更有效方法。

邁向多模態專業化

研究證明了在固定計算預算下，早融合模型的性能與后融合模型相當。然而，多模態數據本質上是異構的，訓練一個統一的模型來擬合如此多樣化的分布可能并非最優方案。

因此研究人員主張在統一架構內進行多模態特化。理想情況下，模型應該隱式地適應每種模態，例如，通過學習特定于模態的權重或專門的專家。多模態模型 + MoE 是一個有潛力的方向，MoE 已在 LLM 中證明了其有效性。

研究觀察了不同數量活動參數、不同數量 token 訓練的模型，比較了稀疏 MoE 模型和密集 MoE 模型。圖 9 顯示，在相同的推理成本（或活動參數數量）下，MoE 的性能顯著優于密集模型。有趣的是，這種性能差距在模型規模較小時更為明顯。這表明 MoE 能夠使模型更有效地處理異構數據，并專注于不同的模態。然而，隨著密集模型規模變得足夠大，兩種架構之間的差距會逐漸縮小。

先前關于大模型 Scaling Laws 的研究主要觀察驗證損失，這種評估與下游任務的表現有很好的相關性。為了驗證這一點，研究人員對 LLaVA 混合模型進行了多模態指令調整階段 (SFT)，并報告了其在多個 VQA 和字幕任務中的準確率和 CIDEr 得分。表 7 證實了不同模型配置的排名。

具體而言，早融合優于后融合，而多模態 MoE 優于密集模型。然而，由于這些模型規模相對較小（15 億規模）、從零開始訓練，并在小型數據集上進行微調，因此總體得分低于目前的 SOTA 水平。

更多細節可參看論文原文。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.