網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

院士領(lǐng)銜萬字長(zhǎng)文，全面系統(tǒng)梳理多模態(tài)LLM對(duì)齊算法

2025-03-23 12:40:18　來源: 量子位

北京舉報(bào)

分享至

CASIA等投稿
量子位 | 公眾號(hào) QbitAI

萬字長(zhǎng)文，對(duì)多模態(tài)LLM中對(duì)齊算法進(jìn)行全面系統(tǒng)性回顧！

從現(xiàn)有對(duì)齊算法涵蓋的應(yīng)用場(chǎng)景，到構(gòu)建對(duì)齊數(shù)據(jù)集的核心因素，再到用于評(píng)估對(duì)齊算法的基準(zhǔn)，還有對(duì)齊算法未來潛在發(fā)展方向，全都梳理了一遍。

大語言模型（LLMs）能夠通過簡(jiǎn)單的提示完成多種任務(wù)，且無需進(jìn)行任務(wù)特定的訓(xùn)練。然而，這些模型主要處理文本數(shù)據(jù)，對(duì)于多模態(tài)數(shù)據(jù)的處理存在局限。

由于世界本質(zhì)上是多模態(tài)的，包括視覺、聽覺和文本等數(shù)據(jù)，研究者開始在LLM的基礎(chǔ)上開發(fā)多模態(tài)大語言模型（MLLMs），以處理更復(fù)雜的數(shù)據(jù)形式。

然而，現(xiàn)有的MLLMs仍面臨一系列挑戰(zhàn)，尤其是在真實(shí)性、安全性、推理能力和與人類偏好對(duì)齊方面，這些問題尚未得到充分解決。

因此，針對(duì)這些問題的對(duì)齊算法應(yīng)運(yùn)而生，成為解決這些挑戰(zhàn)的有效途徑。

本文這項(xiàng)研究的主要貢獻(xiàn)是對(duì)多模態(tài)大型語言模型（MLLMs）中的對(duì)齊算法進(jìn)行全面的系統(tǒng)性回顧。

具體而言，探討了以下四個(gè)關(guān)鍵問題：

現(xiàn)有對(duì)齊算法的應(yīng)用場(chǎng)景：文章通過分類當(dāng)前的對(duì)齊算法，清晰地展示了它們?cè)诓煌瑧?yīng)用領(lǐng)域的適用性，并為研究者提供了一個(gè)統(tǒng)一的符號(hào)系統(tǒng)，幫助理解各算法之間的區(qū)別與聯(lián)系。
對(duì)齊數(shù)據(jù)集的構(gòu)建：對(duì)齊數(shù)據(jù)集的構(gòu)建涉及數(shù)據(jù)源、模型響應(yīng)和偏好注釋三個(gè)核心因素。文章對(duì)這些因素進(jìn)行了系統(tǒng)分析與分類，并總結(jié)了公開數(shù)據(jù)集的優(yōu)勢(shì)與不足，為未來的改進(jìn)提供參考。
對(duì)齊算法的評(píng)估方法：鑒于大多數(shù)對(duì)齊算法針對(duì)特定任務(wù)，如減少幻覺、確保安全性和改善推理能力，文章整理了常用的評(píng)估基準(zhǔn)，提出了清晰的評(píng)估框架。
未來發(fā)展方向：文章提出了對(duì)齊算法發(fā)展的潛在未來方向，特別是視覺信息的整合、LLM對(duì)齊方法的經(jīng)驗(yàn)啟示，以及MLLM作為智能體面臨的挑戰(zhàn)與機(jī)遇。

這項(xiàng)研究由來自中國(guó)科學(xué)院自動(dòng)化研究所、南京大學(xué)、中國(guó)科學(xué)技術(shù)大學(xué)、南洋理工大學(xué)、清華大學(xué)深圳國(guó)際研究生院、騰訊優(yōu)圖實(shí)驗(yàn)室、新加坡國(guó)立大學(xué)、理海大學(xué)、香港科技大學(xué)、松鼠Ai學(xué)習(xí)等機(jī)構(gòu)的研究人員共同完成。

中國(guó)科學(xué)院院士譚鐵牛、中國(guó)計(jì)算機(jī)學(xué)會(huì)會(huì)士王亮領(lǐng)銜。

以下是更多細(xì)節(jié)。

應(yīng)用場(chǎng)景與代表性方法

應(yīng)用場(chǎng)景

文章介紹了多模態(tài)大語言模型（MLLM）對(duì)齊算法的應(yīng)用場(chǎng)景，分為三大層次：

通用圖像理解：主要集中在減少幻覺（模型生成不準(zhǔn)確或無關(guān)的輸出），并提升模型在其他功能（如對(duì)話、推理能力）方面的表現(xiàn)。
多圖像、視頻和音頻：針對(duì)復(fù)雜多模態(tài)數(shù)據(jù)，如多圖像和視頻，提出了不同的架構(gòu)和訓(xùn)練方法來處理這些任務(wù)，尤其是如何在這些任務(wù)中減少幻覺并提高模型的能力。
擴(kuò)展應(yīng)用：探討了將MLLM應(yīng)用于領(lǐng)域特定任務(wù)，如醫(yī)學(xué)、數(shù)學(xué)推理、安全系統(tǒng)等，介紹了如何根據(jù)這些特定領(lǐng)域的需求對(duì)模型進(jìn)行優(yōu)化。

通用圖像理解與多模態(tài)o1

一般圖像理解

MLLM對(duì)齊算法的初衷是解決多模態(tài)系統(tǒng)中的幻覺問題。最近的研究表明，這些算法不僅能提升幻覺的處理，還能增強(qiáng)模型的安全性、對(duì)話能力、推理能力等多個(gè)功能屬性。

本節(jié)將系統(tǒng)地介紹幾種創(chuàng)新的方法，按其主要應(yīng)用場(chǎng)景分類：減少幻覺和提升其他能力。

減少幻覺

MLLM對(duì)齊算法的最初設(shè)計(jì)目的是減少幻覺現(xiàn)象。

例如，F(xiàn)act-RLHF是第一個(gè)多模態(tài)的RLHF算法，使用了10K個(gè)人工標(biāo)注的樣本來訓(xùn)練獎(jiǎng)勵(lì)模型，并引入了每個(gè)token的KL懲罰、事實(shí)信息校準(zhǔn)、以及正確性和長(zhǎng)度懲罰等機(jī)制。

DDPO通過提高更正數(shù)據(jù)的權(quán)重，進(jìn)一步優(yōu)化了標(biāo)準(zhǔn)的DPO。

HA-DPO則利用MLLM生成圖像描述，通過GPT-4驗(yàn)證幻覺并對(duì)正負(fù)樣本進(jìn)行重寫，加入了輔助的因果語言建模損失以減少幻覺。

mDPO通過引入視覺損失函數(shù)來解決視覺信息忽視問題，并增加錨定機(jī)制來避免選定響應(yīng)的概率下降。

提升綜合能力

除了減少幻覺，一些算法還專注于提升模型的多方面能力。

例如，Silkie通過收集多樣的指令數(shù)據(jù)集，并使用GPT-4V評(píng)估生成的響應(yīng)，從而為應(yīng)用DPO提供偏好數(shù)據(jù)。CLIP-DPO利用CLIP分?jǐn)?shù)對(duì)數(shù)據(jù)進(jìn)行標(biāo)注，并應(yīng)用DPO損失，從而同時(shí)提升幻覺減緩和零樣本分類任務(wù)的表現(xiàn)。

SIMA通過讓模型自我評(píng)估其生成的響應(yīng)來構(gòu)建偏好對(duì)，進(jìn)一步提升了多圖像任務(wù)的表現(xiàn)。

近期，MM-RLHF等方法通過更多樣性的數(shù)據(jù)和算法，將alignment的效果進(jìn)一步提升。

多模態(tài)o1發(fā)展

DeepSeek-R1的流行給MLLM社區(qū)帶來了新的啟示。

LMM-R1使用純文本數(shù)學(xué)數(shù)據(jù)集，通過RLOO訓(xùn)練，并在多模態(tài)數(shù)學(xué)基準(zhǔn)上取得了改進(jìn)。

Open-R1-Video則利用GRPO方法提升了模型在視頻領(lǐng)域的表現(xiàn)。

VLM-R1應(yīng)用R1方法處理指代表達(dá)理解任務(wù)，進(jìn)一步擴(kuò)展了多模態(tài)推理的能力。

多圖像、視頻和音頻

在這一部分，文章討論了多圖像、視頻和音頻任務(wù)中的挑戰(zhàn)和解決方法。

多圖像任務(wù)：現(xiàn)有的MLLM在多圖像理解方面常常遇到困難，MIA-DPO通過構(gòu)建多圖像偏好數(shù)據(jù)來解決這一問題，取得了較好的效果。
視頻任務(wù)：視頻理解任務(wù)比單圖像任務(wù)更加復(fù)雜，DPO和交錯(cuò)視覺指令的結(jié)合，能夠有效提升視頻任務(wù)的處理能力，如LLaVA-NeXT-Interleave方法。
音頻任務(wù)：音頻-視覺理解存在音頻盲視問題，Video-SALMONN 2通過引入音頻-視覺對(duì)齊機(jī)制，成功解決了這一問題。

擴(kuò)展多模態(tài)應(yīng)用

文章還介紹了在特定領(lǐng)域的擴(kuò)展應(yīng)用，提出了針對(duì)性更強(qiáng)的對(duì)齊方法。

醫(yī)學(xué)應(yīng)用：3D-CT-GPT++通過對(duì)醫(yī)學(xué)影像分析進(jìn)行優(yōu)化，成功減少了診斷中的誤差，達(dá)到了臨床級(jí)別的準(zhǔn)確性。
數(shù)學(xué)應(yīng)用：MAVIS方法通過改進(jìn)視覺數(shù)學(xué)問題解決框架，提高了MLLM在數(shù)學(xué)推理中的表現(xiàn)。
安全性：為應(yīng)對(duì)多模態(tài)大語言模型的對(duì)抗性攻擊，文章介紹了AdPO和VLGuard等方法，它們通過優(yōu)化訓(xùn)練數(shù)據(jù)和模型結(jié)構(gòu)來提高模型的魯棒性。
代理和智能系統(tǒng)：INTERACTIVECOT和EMMOE方法通過動(dòng)態(tài)優(yōu)化推理流程和分解任務(wù)，提高了多模態(tài)大語言模型在嵌入式智能中的表現(xiàn)，尤其是在復(fù)雜決策過程中。

作者分析多模態(tài)大語言模型的不同應(yīng)用場(chǎng)景，詳細(xì)介紹了多種算法和方法，涵蓋了從通用圖像理解到特定領(lǐng)域應(yīng)用的各個(gè)方面。

主要貢獻(xiàn)在于展示了如何通過優(yōu)化對(duì)齊算法來減少幻覺現(xiàn)象并提升模型在不同任務(wù)中的綜合能力，尤其在視頻、音頻、醫(yī)學(xué)、數(shù)學(xué)等復(fù)雜領(lǐng)域的應(yīng)用。

隨著這些方法的不斷優(yōu)化，MLLM將在更多領(lǐng)域展現(xiàn)其強(qiáng)大的處理能力。

下表總結(jié)了目前alignment策略常見的損失函數(shù)形式：

MLLM對(duì)齊數(shù)據(jù)構(gòu)造與現(xiàn)有數(shù)據(jù)總結(jié)

主要內(nèi)容總結(jié)

在多模態(tài)大型語言模型（MLLM）的研究中，對(duì)齊數(shù)據(jù)集是關(guān)鍵組成部分。由于多模態(tài)數(shù)據(jù)集的構(gòu)建涉及到大量的數(shù)據(jù)來源、生成方法和注釋技術(shù)，研究者們對(duì)不同構(gòu)建方法進(jìn)行了分類。

這些數(shù)據(jù)集大致可以分為兩類：引入外部知識(shí)的數(shù)據(jù)集和依賴自我標(biāo)注的數(shù)據(jù)集。

通過這些分類，研究者可以更清晰地了解不同數(shù)據(jù)集的特點(diǎn)，進(jìn)而為多模態(tài)系統(tǒng)的優(yōu)化提供支持。

作者對(duì)現(xiàn)有MLLM對(duì)齊數(shù)據(jù)集進(jìn)行了全面的分類與分析，詳細(xì)介紹了不同構(gòu)建方法的優(yōu)缺點(diǎn)以及應(yīng)用場(chǎng)景。研究主要關(guān)注以下幾個(gè)方面：

引入外部知識(shí)的數(shù)據(jù)集：討論了通過人類注釋和閉源模型（如GPT-4系列）構(gòu)建的數(shù)據(jù)集，這些方法提高了數(shù)據(jù)的質(zhì)量，但也面臨高成本和主觀性等挑戰(zhàn)。
自我標(biāo)注的數(shù)據(jù)集：探討了利用模型自身生成偏好對(duì)進(jìn)行數(shù)據(jù)集構(gòu)建的方法，包括單一文本模態(tài)、單一圖像模態(tài)和圖像-文本混合模態(tài)三種類型的數(shù)據(jù)構(gòu)建方法。
數(shù)據(jù)質(zhì)量和規(guī)模的平衡：文章還討論了如何平衡數(shù)據(jù)質(zhì)量、規(guī)模與成本的關(guān)系，并展望了未來自動(dòng)化數(shù)據(jù)增強(qiáng)技術(shù)的潛力，特別是如何利用自我標(biāo)注方法提升數(shù)據(jù)質(zhì)量。

通過這項(xiàng)工作，研究者們可以更加清楚地理解多模態(tài)數(shù)據(jù)集的構(gòu)建策略，為未來的研究提供有力的支持。

引入外部知識(shí)的數(shù)據(jù)集

人工注釋：通過人工標(biāo)注，收集了不同領(lǐng)域的高質(zhì)量數(shù)據(jù)。

例如，LLaVA-RLHF通過人工選擇正負(fù)響應(yīng)收集了10k個(gè)樣本，RLHF-V通過人工修正幻覺響應(yīng)收集了1.4k個(gè)樣本。

閉源LLM/MLLM：利用GPT-4系列模型生成的偏好數(shù)據(jù)，通過這種方法可以大規(guī)模構(gòu)建數(shù)據(jù)集，同時(shí)減少成本。

像LRV-Instruction通過GPT-4生成了400k個(gè)視覺指令，涵蓋16個(gè)視覺語言任務(wù)。

開源LLM/MLLM：使用開源模型（如CLIP-DPO）來構(gòu)建偏好數(shù)據(jù)，減少成本但可能犧牲數(shù)據(jù)質(zhì)量。

例如，INTERACTIVECOT通過預(yù)定義分?jǐn)?shù)構(gòu)建了具身智能的偏好數(shù)據(jù)集。

自我標(biāo)注的數(shù)據(jù)集

單一文本模態(tài)：

SQuBa使用微調(diào)后的模型生成負(fù)樣本，并將其與正樣本進(jìn)行DPO對(duì)比。SymDPO通過將VQA/分類數(shù)據(jù)轉(zhuǎn)化為ICL格式，以增強(qiáng)視覺學(xué)習(xí)。

單一圖像模態(tài)：

Image DPO通過對(duì)圖像進(jìn)行擾動(dòng)（如高斯模糊或像素化），而保持文本不變，構(gòu)建DPO偏好對(duì)。

圖像-文本混合模態(tài)：

AdPO通過構(gòu)建原始/對(duì)抗圖像及其模型響應(yīng)的偏好對(duì)，在優(yōu)化過程中，兩者的圖像和文本內(nèi)容在正負(fù)樣本中有所不同。

實(shí)驗(yàn)發(fā)現(xiàn)

在實(shí)驗(yàn)部分，研究發(fā)現(xiàn)：

數(shù)據(jù)集規(guī)模與質(zhì)量的平衡：通過引入外部知識(shí)的數(shù)據(jù)集，能夠提高數(shù)據(jù)的質(zhì)量，但這也增加了構(gòu)建成本。而自我標(biāo)注的方法雖然能夠大規(guī)模生成數(shù)據(jù)，但由于MLLM的性能限制，當(dāng)前的自我標(biāo)注數(shù)據(jù)集質(zhì)量仍較低，且存在一定的分布偏移問題。

自動(dòng)化增強(qiáng)的潛力：隨著自動(dòng)化數(shù)據(jù)增強(qiáng)技術(shù)的發(fā)展，未來的自我標(biāo)注方法將可能解決當(dāng)前數(shù)據(jù)質(zhì)量低的問題，并提高數(shù)據(jù)的多樣性和可信度。

總的來說，數(shù)據(jù)集的構(gòu)建方法和質(zhì)量控制是影響MLLM對(duì)齊效果的關(guān)鍵因素，未來的研究應(yīng)關(guān)注如何在保證數(shù)據(jù)質(zhì)量的同時(shí)，降低成本并提高數(shù)據(jù)集的規(guī)模。

模型評(píng)估

現(xiàn)有的MLLM對(duì)齊評(píng)估基準(zhǔn)被分為六個(gè)關(guān)鍵維度：

通用知識(shí)（評(píng)估基礎(chǔ)能力）、幻覺（衡量生成內(nèi)容與事實(shí)的一致性）、安全性（評(píng)估響應(yīng)中降低風(fēng)險(xiǎn)的能力）、對(duì)話（測(cè)試模型是否能輸出用戶要求的內(nèi)容）、獎(jiǎng)勵(lì)模型（評(píng)估獎(jiǎng)勵(lì)模型的表現(xiàn)）和與人類偏好的對(duì)齊。

通用知識(shí)

大多數(shù)基準(zhǔn)優(yōu)先考慮高質(zhì)量、人工注釋的數(shù)據(jù)集，這些數(shù)據(jù)集專門為實(shí)際應(yīng)用場(chǎng)景量身定制。

例如，MME-RealWorld包含來自13K張圖像的29K個(gè)問答對(duì)，MMMU包含來自學(xué)術(shù)來源的11.5K個(gè)問題。MMStar通過減少數(shù)據(jù)泄漏和強(qiáng)調(diào)視覺依賴性來增強(qiáng)可靠性。

許多基準(zhǔn)引入了創(chuàng)新方法，如MMBench的雙語評(píng)估與CircularEval，MMT-Bench的任務(wù)圖用于域內(nèi)外分析，以及BLINK專注于視覺感知任務(wù)。這些框架提升了評(píng)估精度，揭示了模型的局限性。

任務(wù)通常需要高級(jí)的多模態(tài)推理能力，例如MathVista的數(shù)學(xué)視覺整合、SQA3D的3D情境問答以及MMMU對(duì)圖表和地圖的覆蓋。

這些基準(zhǔn)推動(dòng)模型解決跨學(xué)科的挑戰(zhàn)，通過策劃具有挑戰(zhàn)性的、細(xì)粒度的任務(wù)（如MVBench中的時(shí)間理解、Mantis-Instruct中的多圖像處理），旨在提升模型解決現(xiàn)實(shí)世界問題的能力，特別是在細(xì)致感知和推理方面。

幻覺

這些基準(zhǔn)系統(tǒng)地識(shí)別并分類多模態(tài)模型中的幻覺問題，包括對(duì)象幻覺（Object HalBench）、內(nèi)在和外在幻覺（VideoHallucer）以及關(guān)聯(lián)偏差（VALOR-Eval）。它們強(qiáng)調(diào)在視覺、文本和序列上下文中的細(xì)粒度評(píng)估。

許多基準(zhǔn)提出了創(chuàng)新的框架，例如基于投票的查詢（POPE）、LLM驅(qū)動(dòng)的評(píng)分（HaELM、RefoMB）、開放詞匯檢測(cè)（OpenCHAIR）、無注釋評(píng)估（GAVIE）、無LLM管道（AMBER）和GPT-4輔助的推理分析（Mementos）。

這些方法強(qiáng)調(diào)自動(dòng)化、可擴(kuò)展的評(píng)估，同時(shí)解決數(shù)據(jù)泄漏和語言先驗(yàn)等問題。

數(shù)據(jù)集優(yōu)先采用細(xì)粒度的人類注釋（M-HalDetect、HallusionBench）和合成數(shù)據(jù)生成（VHTest、MHaluBench），它們平衡了現(xiàn)實(shí)世界的復(fù)雜性（PhD的反常識(shí)圖像、ActivityNet-QA的58K問答對(duì)）和受控挑戰(zhàn)（R-Bench的魯棒性分析）。

一些基準(zhǔn)專注于特定任務(wù)，如多語言支持（MHumanEval），而另一些則處理更廣泛的問題，如偏見和干擾（Bingo）。所有這些都旨在提高模型在實(shí)際場(chǎng)景中的魯棒性。

通過提出對(duì)齊策略（如RLAIF-V的開源反饋）并提出統(tǒng)一框架（HQH），這些基準(zhǔn)為開發(fā)更可靠的多模態(tài)系統(tǒng)提供了指導(dǎo)。

安全性

一些研究引入了新穎的技術(shù)，例如基于擴(kuò)散的對(duì)抗性攻擊（AdvDiffVLM）、紅隊(duì)框架（RTVLM）和后期微調(diào)策略（VLGuard）。

這些方法通過模擬現(xiàn)實(shí)世界威脅或提升模型的抗干擾能力來增強(qiáng)評(píng)估的嚴(yán)謹(jǐn)性。

像MultiTrust和RTVLM這樣的基準(zhǔn)通過多個(gè)維度統(tǒng)一了可信度評(píng)估（如真實(shí)性、公平性），而另一些基準(zhǔn)則專注于特定挑戰(zhàn)，如超出分布（OOD）泛化（VLLM-safety-bench）或過度敏感性（MOSSBench）。這些基準(zhǔn)為模型的限制提供了整體的見解。

MM-RLHF-SafetyBench從現(xiàn)有數(shù)據(jù)集中進(jìn)行采樣，進(jìn)一步涵蓋了如對(duì)抗性攻擊、隱私、紅隊(duì)攻擊和有害內(nèi)容檢測(cè)等領(lǐng)域。

對(duì)話

這些基準(zhǔn)優(yōu)先評(píng)估基礎(chǔ)的視覺技能，如低級(jí)感知能力（Q-Bench、LLVisionQA）、低級(jí)信息的描述能力（LLDescribe）和質(zhì)量評(píng)估。

它們強(qiáng)調(diào)模型解釋和表達(dá)細(xì)粒度視覺信息的能力。

幾個(gè)基準(zhǔn)測(cè)試了模型在具有挑戰(zhàn)性場(chǎng)景中的泛化能力，包括非常規(guī)圖像（LLaVA Bench-Wilder）、跨領(lǐng)域任務(wù)（LiveBench的數(shù)學(xué)/新聞?wù)希┖蛯?duì)抗性提示（Vibe-Eval的高難度問題）。這些基準(zhǔn)揭示了模型在標(biāo)準(zhǔn)數(shù)據(jù)集之外的適應(yīng)能力。

獎(jiǎng)勵(lì)模型

每個(gè)基準(zhǔn)都針對(duì)特定的評(píng)估維度，例如多語言能力（M-RewardBench中的23種語言）、對(duì)齊/安全性/偏見（MJ-Bench）、通過人類注釋增強(qiáng)可解釋性和最終模型評(píng)分能力（MM-RLHF-RewardBench）以及MLLM在輔助評(píng)判者跨多種模態(tài)中的能力（MLLM-as-a-Judge的評(píng)分與成對(duì)比較）。

這些框架揭示了模型在結(jié)構(gòu)化和OOD場(chǎng)景中的優(yōu)缺點(diǎn)。

高質(zhì)量的數(shù)據(jù)集通過人類與AI合作（如VL-RewardBench的注釋管道）或結(jié)構(gòu)化三元組設(shè)計(jì)（RewardBench）策劃而成，任務(wù)從簡(jiǎn)單的偏好排序到復(fù)雜的推理，推動(dòng)模型處理如幻覺和倫理對(duì)齊等細(xì)致挑戰(zhàn)。

對(duì)齊

一些基準(zhǔn)研究了模型與人類偏好的對(duì)齊能力。

Arena-Hard是一個(gè)全面的多維度基準(zhǔn)，旨在評(píng)估中文LLM的對(duì)齊能力。AlpacaEval-V2提出了一種簡(jiǎn)單的回歸分析方法，用于控制自評(píng)中的長(zhǎng)度偏差。Arena-Hard通過增加模型性能的分離度三倍，達(dá)到了98.6%的與人類偏好排名的相關(guān)性。MM-AlignBench是一個(gè)專門設(shè)計(jì)的手工注釋基準(zhǔn)，旨在評(píng)估與人類價(jià)值觀的對(duì)齊。

總體而言，許多當(dāng)前的MLLM對(duì)齊算法側(cè)重于防止模型生成幻覺，同時(shí)探索如何利用對(duì)齊算法提升MLLM的通用知識(shí)和對(duì)話能力，這是未來的重要方向。

一些研究者將不安全的響應(yīng)視為與人類偏好不對(duì)齊，因此應(yīng)用MLLM對(duì)齊算法來解決安全問題。這些框架中獎(jiǎng)勵(lì)模型的有效性，尤其是在引導(dǎo)對(duì)齊方面的表現(xiàn)，值得進(jìn)一步研究。

此外，針對(duì)與人類偏好的對(duì)齊，基準(zhǔn)也從LLM領(lǐng)域發(fā)展到了MLLM領(lǐng)域。

未來工作與挑戰(zhàn)

隨著多模態(tài)大型語言模型（MLLM）的迅速發(fā)展，將它們與人類偏好對(duì)齊已經(jīng)成為研究的重點(diǎn)。然而，仍然存在若干挑戰(zhàn)。

首先，高質(zhì)量和多樣化數(shù)據(jù)集的稀缺問題仍然未得到有效解決。其次，許多方法未能有效利用視覺信息，往往主要依賴文本來構(gòu)建正負(fù)樣本，忽略了多模態(tài)數(shù)據(jù)的全部潛力。此外，缺乏全面的評(píng)估標(biāo)準(zhǔn)，當(dāng)前的方法通常僅在幻覺或?qū)υ捜蝿?wù)等特定類型的基準(zhǔn)上進(jìn)行驗(yàn)證，這使得它們的普適性難以評(píng)估。

通過借鑒LLM后期訓(xùn)練策略和智能體研究的進(jìn)展，可以揭示現(xiàn)有MLLM對(duì)齊方法中的局限性。克服這些挑戰(zhàn)對(duì)于開發(fā)更強(qiáng)大和全面的對(duì)齊方法至關(guān)重要。

數(shù)據(jù)挑戰(zhàn)

MLLM對(duì)齊面臨兩個(gè)關(guān)鍵的數(shù)據(jù)相關(guān)挑戰(zhàn)：數(shù)據(jù)質(zhì)量和覆蓋范圍。

首先，高質(zhì)量的MLLM對(duì)齊數(shù)據(jù)的可用性有限。與LLM相比，獲取和注釋多模態(tài)數(shù)據(jù)要復(fù)雜得多，因?yàn)樗婕岸鄠€(gè)模態(tài)的處理。

其次，現(xiàn)有數(shù)據(jù)集在涵蓋多樣化多模態(tài)任務(wù)方面存在不足，例如光學(xué)字符識(shí)別、數(shù)學(xué)問題和圖表理解等任務(wù)。構(gòu)建一個(gè)涵蓋廣泛任務(wù)的綜合數(shù)據(jù)集是一項(xiàng)極具挑戰(zhàn)的工作。

據(jù)作者所知，目前沒有一個(gè)公開的、完全人工注釋的多模態(tài)數(shù)據(jù)集樣本量超過200,000個(gè)。

這些在數(shù)據(jù)質(zhì)量和覆蓋范圍方面的限制，成為有效對(duì)齊MLLM的重大障礙。

利用視覺信息進(jìn)行對(duì)齊

目前的對(duì)齊數(shù)據(jù)可以表示為：偏好數(shù)據(jù)D=(x, I, yw, yl)，其中x是問題，I是圖像，yw、yl分別表示正確和錯(cuò)誤的響應(yīng)。

在當(dāng)前的研究中，主要有三種方法用于利用視覺信息來增強(qiáng)對(duì)齊性能，但每種方法都有其局限性：

使用破損或無關(guān)圖像作為對(duì)齊階段的負(fù)樣本。

研究人員創(chuàng)建新的圖像Ineg，并使用(yw｜X, Ineg)作為負(fù)樣本。此方法通過減少幻覺和提高M(jìn)LLM對(duì)不同圖像的魯棒性來改善對(duì)齊效果。然而，視覺負(fù)樣本通常依賴于擴(kuò)散算法或圖像修改，這些方法缺乏強(qiáng)有力的質(zhì)量度量，并且計(jì)算成本較高。

基于破損圖像生成新的問題和答案。

在這種方法中，研究人員創(chuàng)建一個(gè)新的圖像Ineg，使用該圖像生成額外的響應(yīng)yneg，然后將(yneg｜X, I)視為負(fù)樣本。此方法增加了文本比較的多樣性，但生成額外負(fù)樣本的過程增加了計(jì)算開銷。

使用像CLIP這樣的余弦相似度度量來評(píng)估文本-圖像匹配。

該方法通過計(jì)算文本與圖像之間的相似度分?jǐn)?shù)來篩選數(shù)據(jù)，或?qū)⑵渥鳛閺?qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)的一部分。雖然這種方法有助于減少數(shù)據(jù)噪聲，但評(píng)分的質(zhì)量依賴于評(píng)估模型的質(zhì)量，可能受到模型偏見的影響。

每種方法在利用視覺數(shù)據(jù)增強(qiáng)MLLM對(duì)齊方面都有一定的作用，但在效率、成本和潛在偏見方面存在權(quán)衡。

綜合評(píng)估

大多數(shù)MLLM對(duì)齊研究主要評(píng)估其算法在幻覺、對(duì)話能力或安全性等幾個(gè)關(guān)鍵領(lǐng)域的表現(xiàn)。

然而，未來的研究應(yīng)采用更全面的評(píng)估方法，跨更廣泛的任務(wù)評(píng)估對(duì)齊方法，以更好地展示其普適性和有效性。

全模態(tài)對(duì)齊

Align-anything開創(chuàng)了通過多模態(tài)數(shù)據(jù)集“align-anything-200k”實(shí)現(xiàn)全模態(tài)對(duì)齊的研究，涵蓋了文本、圖像、音頻和視頻。這項(xiàng)研究展示了不同模態(tài)之間的互補(bǔ)效應(yīng)。

然而，他們的工作仍處于初期階段，每種模態(tài)的數(shù)據(jù)集相對(duì)較小，限制了其任務(wù)覆蓋范圍。

此外，提出的算法僅是DPO方法的初步改進(jìn)，未能充分利用每種模態(tài)固有的獨(dú)特結(jié)構(gòu)信息。

未來，超越圖像/文本領(lǐng)域的對(duì)齊算法設(shè)計(jì)，尤其是針對(duì)其他模態(tài)的對(duì)齊，將是一個(gè)關(guān)鍵的趨勢(shì)。

MLLM推理

最近，由OpenAI（o1）和DeepSeek-R1代表的推理LLM已經(jīng)證明，強(qiáng)化學(xué)習(xí)算法和偏好數(shù)據(jù)對(duì)于提高LLM在復(fù)雜問題求解、長(zhǎng)時(shí)上下文理解和生成任務(wù)中的表現(xiàn)至關(guān)重要。

本文將探討從LLM推理增強(qiáng)研究中獲得的洞察及其對(duì)對(duì)齊MLLM的影響，主要從數(shù)據(jù)和優(yōu)化框架兩個(gè)維度進(jìn)行分析。

(1) 數(shù)據(jù)。

規(guī)模與質(zhì)量。對(duì)應(yīng)的方法逐漸從小模型重采樣（如OpenMathInstruct）發(fā)展到高質(zhì)量合成數(shù)據(jù)（如AceMath），并逐步采用尖端模型（如OpenAI o1）和通過領(lǐng)域?qū)Ｓ媚Ｐ秃铣蓴?shù)據(jù)實(shí)現(xiàn)可擴(kuò)展的知識(shí)遷移（如DeepSeek-V3）。

目前，用于推理增強(qiáng)的數(shù)據(jù)集普遍達(dá)到百萬樣本規(guī)模（如Qwen-2.5-MATH）。

效率。采用“少即是多”的對(duì)齊（如LIMA的1k樣本用于65B Llama）證明了最少的高質(zhì)量數(shù)據(jù)能夠最優(yōu)地激活預(yù)訓(xùn)練能力，同時(shí)減少對(duì)數(shù)據(jù)規(guī)模的依賴。

(2) 優(yōu)化框架。

采樣策略。最近的進(jìn)展表明，在線強(qiáng)化學(xué)習(xí)（RL）逐漸成為主流方法，DeepSeek-V3和Qwen-2.5-MATH的在線采樣方法有效地緩解了分布偏移。

此外，Mini-Max采用了離線+在線采樣策略，進(jìn)一步提升了模型性能。

訓(xùn)練范式。多階段、協(xié)作優(yōu)化已成為主流方法。

例如，Llama 3包含了六輪DPO迭代，而DeepSeek通過溫度變化的采樣和反射/驗(yàn)證提示來優(yōu)化推理深度（長(zhǎng)鏈?zhǔn)酵评恚┖秃?jiǎn)潔性。

算法。強(qiáng)化學(xué)習(xí)算法從早期的策略梯度方法發(fā)展到更復(fù)雜的PPO，最近基于PPO的改進(jìn)主要有兩個(gè)方向：

一個(gè)是去除評(píng)估模型并用稀疏獎(jiǎng)勵(lì)訓(xùn)練策略，從而減少一半的參數(shù)量（如DPO和GRPO）；另一個(gè)是精煉評(píng)估模型的設(shè)計(jì)，例如引入比率作為優(yōu)勢(shì)函數(shù)的PRIME和通過重塑正負(fù)樣本獎(jiǎng)勵(lì)的OREAL。

通過優(yōu)先考慮高質(zhì)量數(shù)據(jù)和創(chuàng)新的優(yōu)化框架，MLLM領(lǐng)域正朝著更有效、可擴(kuò)展的模型發(fā)展，這些模型也能更好地解鎖MLLM的推理潛力。

LLM對(duì)齊的啟示

對(duì)LLM的對(duì)齊已經(jīng)成為最近研究的一個(gè)關(guān)鍵焦點(diǎn)，提供了許多有價(jià)值的見解，可以為MLLM的開發(fā)提供指導(dǎo)。通過審視現(xiàn)有LLM對(duì)齊策略的經(jīng)驗(yàn)教訓(xùn)，可以揭示出有助于提升MLLM研究的關(guān)鍵原則：

(1) 提高訓(xùn)練效率。

當(dāng)前MLLM的對(duì)齊方法依賴于DPO損失函數(shù)。然而，由于DPO需要同時(shí)加載策略模型和參考模型，訓(xùn)練速度會(huì)顯著下降。是否可以利用類似SimPO的無參考方法進(jìn)一步提升訓(xùn)練效率？

這一方法可能加速訓(xùn)練過程，同時(shí)減少對(duì)參考模型的依賴。進(jìn)一步研究參考模型在MLLM對(duì)齊中的具體作用和影響，對(duì)于提高效率和優(yōu)化模型設(shè)計(jì)至關(guān)重要。

(2) 減輕過度優(yōu)化/獎(jiǎng)勵(lì)黑客問題。

在使用DPO或RLHF進(jìn)行LLM對(duì)齊時(shí)，過度優(yōu)化仍然是一個(gè)關(guān)鍵挑戰(zhàn)，即通過學(xué)習(xí)到的代理獎(jiǎng)勵(lì)模型來提高性能，但真正的質(zhì)量可能停滯或退化。

為應(yīng)對(duì)這一挑戰(zhàn)，解決策略包括：

使用平衡的訓(xùn)練數(shù)據(jù)集確保多樣性和代表性，防止過于狹窄的優(yōu)化；
在驗(yàn)證性能平穩(wěn)時(shí)實(shí)施早停；
引入正則化技術(shù)，減少對(duì)訓(xùn)練數(shù)據(jù)的過度依賴，提高模型的泛化能力。

MLLM作為智能體

MLLM結(jié)合了LLM強(qiáng)大的推理能力和處理來自多種模態(tài)（如圖像、文本和音頻）數(shù)據(jù)的能力。這使得它們能夠從多種信息源中提取知識(shí)并進(jìn)行綜合分析，在處理復(fù)雜的現(xiàn)實(shí)任務(wù)中具有很大優(yōu)勢(shì)。

然而，要將MLLM轉(zhuǎn)變?yōu)楦咝У闹悄荏w，仍然需要解決幾個(gè)待處理的問題。

多智能體協(xié)作。
目前，針對(duì)基于文本的智能體的多智能體協(xié)作框架已取得顯著進(jìn)展，但基于MLLM的多智能體系統(tǒng)仍缺乏成熟的解決方案。
魯棒性。
MLLM智能體在開放環(huán)境中的魯棒性尚未得到系統(tǒng)驗(yàn)證，需引入對(duì)抗性魯棒性測(cè)試和保障技術(shù)。
安全性。
MLLM智能體中引入更多復(fù)雜組件增加了安全風(fēng)險(xiǎn)，未來的研究應(yīng)探索多種安全保護(hù)機(jī)制，以減輕這些風(fēng)險(xiǎn)。

論文鏈接：https://arxiv.org/pdf/2503.14504
GitHub鏈接：https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Alignment

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.