CASIA等 投稿
量子位 | 公眾號(hào) QbitAI
萬字長(zhǎng)文,對(duì)多模態(tài)LLM中對(duì)齊算法進(jìn)行全面系統(tǒng)性回顧!
從現(xiàn)有對(duì)齊算法涵蓋的應(yīng)用場(chǎng)景,到構(gòu)建對(duì)齊數(shù)據(jù)集的核心因素,再到用于評(píng)估對(duì)齊算法的基準(zhǔn),還有對(duì)齊算法未來潛在發(fā)展方向,全都梳理了一遍。
大語言模型(LLMs)能夠通過簡(jiǎn)單的提示完成多種任務(wù),且無需進(jìn)行任務(wù)特定的訓(xùn)練。然而,這些模型主要處理文本數(shù)據(jù),對(duì)于多模態(tài)數(shù)據(jù)的處理存在局限。
由于世界本質(zhì)上是多模態(tài)的,包括視覺、聽覺和文本等數(shù)據(jù),研究者開始在LLM的基礎(chǔ)上開發(fā)多模態(tài)大語言模型(MLLMs),以處理更復(fù)雜的數(shù)據(jù)形式。
然而,現(xiàn)有的MLLMs仍面臨一系列挑戰(zhàn),尤其是在真實(shí)性、安全性、推理能力和與人類偏好對(duì)齊方面,這些問題尚未得到充分解決。
因此,針對(duì)這些問題的對(duì)齊算法應(yīng)運(yùn)而生,成為解決這些挑戰(zhàn)的有效途徑。
本文這項(xiàng)研究的主要貢獻(xiàn)是對(duì)多模態(tài)大型語言模型(MLLMs)中的對(duì)齊算法進(jìn)行全面的系統(tǒng)性回顧。
具體而言,探討了以下四個(gè)關(guān)鍵問題:
- 現(xiàn)有對(duì)齊算法的應(yīng)用場(chǎng)景:文章通過分類當(dāng)前的對(duì)齊算法,清晰地展示了它們?cè)诓煌瑧?yīng)用領(lǐng)域的適用性,并為研究者提供了一個(gè)統(tǒng)一的符號(hào)系統(tǒng),幫助理解各算法之間的區(qū)別與聯(lián)系。
- 對(duì)齊數(shù)據(jù)集的構(gòu)建:對(duì)齊數(shù)據(jù)集的構(gòu)建涉及數(shù)據(jù)源、模型響應(yīng)和偏好注釋三個(gè)核心因素。文章對(duì)這些因素進(jìn)行了系統(tǒng)分析與分類,并總結(jié)了公開數(shù)據(jù)集的優(yōu)勢(shì)與不足,為未來的改進(jìn)提供參考。
- 對(duì)齊算法的評(píng)估方法:鑒于大多數(shù)對(duì)齊算法針對(duì)特定任務(wù),如減少幻覺、確保安全性和改善推理能力,文章整理了常用的評(píng)估基準(zhǔn),提出了清晰的評(píng)估框架。
- 未來發(fā)展方向:文章提出了對(duì)齊算法發(fā)展的潛在未來方向,特別是視覺信息的整合、LLM對(duì)齊方法的經(jīng)驗(yàn)啟示,以及MLLM作為智能體面臨的挑戰(zhàn)與機(jī)遇。
這項(xiàng)研究由來自中國(guó)科學(xué)院自動(dòng)化研究所、南京大學(xué)、中國(guó)科學(xué)技術(shù)大學(xué)、南洋理工大學(xué)、清華大學(xué)深圳國(guó)際研究生院、騰訊優(yōu)圖實(shí)驗(yàn)室、新加坡國(guó)立大學(xué)、理海大學(xué)、香港科技大學(xué)、松鼠Ai學(xué)習(xí)等機(jī)構(gòu)的研究人員共同完成。
中國(guó)科學(xué)院院士譚鐵牛、中國(guó)計(jì)算機(jī)學(xué)會(huì)會(huì)士王亮領(lǐng)銜。
以下是更多細(xì)節(jié)。
應(yīng)用場(chǎng)景與代表性方法
應(yīng)用場(chǎng)景
文章介紹了多模態(tài)大語言模型(MLLM)對(duì)齊算法的應(yīng)用場(chǎng)景,分為三大層次:
- 通用圖像理解:主要集中在減少幻覺(模型生成不準(zhǔn)確或無關(guān)的輸出),并提升模型在其他功能(如對(duì)話、推理能力)方面的表現(xiàn)。
- 多圖像、視頻和音頻:針對(duì)復(fù)雜多模態(tài)數(shù)據(jù),如多圖像和視頻,提出了不同的架構(gòu)和訓(xùn)練方法來處理這些任務(wù),尤其是如何在這些任務(wù)中減少幻覺并提高模型的能力。
- 擴(kuò)展應(yīng)用:探討了將MLLM應(yīng)用于領(lǐng)域特定任務(wù),如醫(yī)學(xué)、數(shù)學(xué)推理、安全系統(tǒng)等,介紹了如何根據(jù)這些特定領(lǐng)域的需求對(duì)模型進(jìn)行優(yōu)化。
通用圖像理解與多模態(tài)o1
一般圖像理解
MLLM對(duì)齊算法的初衷是解決多模態(tài)系統(tǒng)中的幻覺問題。最近的研究表明,這些算法不僅能提升幻覺的處理,還能增強(qiáng)模型的安全性、對(duì)話能力、推理能力等多個(gè)功能屬性。
本節(jié)將系統(tǒng)地介紹幾種創(chuàng)新的方法,按其主要應(yīng)用場(chǎng)景分類:減少幻覺和提升其他能力。
減少幻覺
MLLM對(duì)齊算法的最初設(shè)計(jì)目的是減少幻覺現(xiàn)象。
例如,F(xiàn)act-RLHF是第一個(gè)多模態(tài)的RLHF算法,使用了10K個(gè)人工標(biāo)注的樣本來訓(xùn)練獎(jiǎng)勵(lì)模型,并引入了每個(gè)token的KL懲罰、事實(shí)信息校準(zhǔn)、以及正確性和長(zhǎng)度懲罰等機(jī)制。
DDPO通過提高更正數(shù)據(jù)的權(quán)重,進(jìn)一步優(yōu)化了標(biāo)準(zhǔn)的DPO。
HA-DPO則利用MLLM生成圖像描述,通過GPT-4驗(yàn)證幻覺并對(duì)正負(fù)樣本進(jìn)行重寫,加入了輔助的因果語言建模損失以減少幻覺。
mDPO通過引入視覺損失函數(shù)來解決視覺信息忽視問題,并增加錨定機(jī)制來避免選定響應(yīng)的概率下降。
提升綜合能力
除了減少幻覺,一些算法還專注于提升模型的多方面能力。
例如,Silkie通過收集多樣的指令數(shù)據(jù)集,并使用GPT-4V評(píng)估生成的響應(yīng),從而為應(yīng)用DPO提供偏好數(shù)據(jù)。CLIP-DPO利用CLIP分?jǐn)?shù)對(duì)數(shù)據(jù)進(jìn)行標(biāo)注,并應(yīng)用DPO損失,從而同時(shí)提升幻覺減緩和零樣本分類任務(wù)的表現(xiàn)。
SIMA通過讓模型自我評(píng)估其生成的響應(yīng)來構(gòu)建偏好對(duì),進(jìn)一步提升了多圖像任務(wù)的表現(xiàn)。
近期,MM-RLHF等方法通過更多樣性的數(shù)據(jù)和算法,將alignment的效果進(jìn)一步提升。
多模態(tài)o1發(fā)展
DeepSeek-R1的流行給MLLM社區(qū)帶來了新的啟示。
LMM-R1使用純文本數(shù)學(xué)數(shù)據(jù)集,通過RLOO訓(xùn)練,并在多模態(tài)數(shù)學(xué)基準(zhǔn)上取得了改進(jìn)。
Open-R1-Video則利用GRPO方法提升了模型在視頻領(lǐng)域的表現(xiàn)。
VLM-R1應(yīng)用R1方法處理指代表達(dá)理解任務(wù),進(jìn)一步擴(kuò)展了多模態(tài)推理的能力。
多圖像、視頻和音頻
在這一部分,文章討論了多圖像、視頻和音頻任務(wù)中的挑戰(zhàn)和解決方法。
- 多圖像任務(wù):現(xiàn)有的MLLM在多圖像理解方面常常遇到困難,MIA-DPO通過構(gòu)建多圖像偏好數(shù)據(jù)來解決這一問題,取得了較好的效果。
- 視頻任務(wù):視頻理解任務(wù)比單圖像任務(wù)更加復(fù)雜,DPO和交錯(cuò)視覺指令的結(jié)合,能夠有效提升視頻任務(wù)的處理能力,如LLaVA-NeXT-Interleave方法。
- 音頻任務(wù):音頻-視覺理解存在音頻盲視問題,Video-SALMONN 2通過引入音頻-視覺對(duì)齊機(jī)制,成功解決了這一問題。
擴(kuò)展多模態(tài)應(yīng)用
文章還介紹了在特定領(lǐng)域的擴(kuò)展應(yīng)用,提出了針對(duì)性更強(qiáng)的對(duì)齊方法。
- 醫(yī)學(xué)應(yīng)用:3D-CT-GPT++通過對(duì)醫(yī)學(xué)影像分析進(jìn)行優(yōu)化,成功減少了診斷中的誤差,達(dá)到了臨床級(jí)別的準(zhǔn)確性。
- 數(shù)學(xué)應(yīng)用:MAVIS方法通過改進(jìn)視覺數(shù)學(xué)問題解決框架,提高了MLLM在數(shù)學(xué)推理中的表現(xiàn)。
- 安全性:為應(yīng)對(duì)多模態(tài)大語言模型的對(duì)抗性攻擊,文章介紹了AdPO和VLGuard等方法,它們通過優(yōu)化訓(xùn)練數(shù)據(jù)和模型結(jié)構(gòu)來提高模型的魯棒性。
- 代理和智能系統(tǒng):INTERACTIVECOT和EMMOE方法通過動(dòng)態(tài)優(yōu)化推理流程和分解任務(wù),提高了多模態(tài)大語言模型在嵌入式智能中的表現(xiàn),尤其是在復(fù)雜決策過程中。
作者分析多模態(tài)大語言模型的不同應(yīng)用場(chǎng)景,詳細(xì)介紹了多種算法和方法,涵蓋了從通用圖像理解到特定領(lǐng)域應(yīng)用的各個(gè)方面。
主要貢獻(xiàn)在于展示了如何通過優(yōu)化對(duì)齊算法來減少幻覺現(xiàn)象并提升模型在不同任務(wù)中的綜合能力,尤其在視頻、音頻、醫(yī)學(xué)、數(shù)學(xué)等復(fù)雜領(lǐng)域的應(yīng)用。
隨著這些方法的不斷優(yōu)化,MLLM將在更多領(lǐng)域展現(xiàn)其強(qiáng)大的處理能力。
下表總結(jié)了目前alignment策略常見的損失函數(shù)形式:
MLLM對(duì)齊數(shù)據(jù)構(gòu)造與現(xiàn)有數(shù)據(jù)總結(jié)
主要內(nèi)容總結(jié)
在多模態(tài)大型語言模型(MLLM)的研究中,對(duì)齊數(shù)據(jù)集是關(guān)鍵組成部分。由于多模態(tài)數(shù)據(jù)集的構(gòu)建涉及到大量的數(shù)據(jù)來源、生成方法和注釋技術(shù),研究者們對(duì)不同構(gòu)建方法進(jìn)行了分類。
這些數(shù)據(jù)集大致可以分為兩類:引入外部知識(shí)的數(shù)據(jù)集和依賴自我標(biāo)注的數(shù)據(jù)集。
通過這些分類,研究者可以更清晰地了解不同數(shù)據(jù)集的特點(diǎn),進(jìn)而為多模態(tài)系統(tǒng)的優(yōu)化提供支持。
作者對(duì)現(xiàn)有MLLM對(duì)齊數(shù)據(jù)集進(jìn)行了全面的分類與分析,詳細(xì)介紹了不同構(gòu)建方法的優(yōu)缺點(diǎn)以及應(yīng)用場(chǎng)景。研究主要關(guān)注以下幾個(gè)方面:
- 引入外部知識(shí)的數(shù)據(jù)集:討論了通過人類注釋和閉源模型(如GPT-4系列)構(gòu)建的數(shù)據(jù)集,這些方法提高了數(shù)據(jù)的質(zhì)量,但也面臨高成本和主觀性等挑戰(zhàn)。
- 自我標(biāo)注的數(shù)據(jù)集:探討了利用模型自身生成偏好對(duì)進(jìn)行數(shù)據(jù)集構(gòu)建的方法,包括單一文本模態(tài)、單一圖像模態(tài)和圖像-文本混合模態(tài)三種類型的數(shù)據(jù)構(gòu)建方法。
- 數(shù)據(jù)質(zhì)量和規(guī)模的平衡:文章還討論了如何平衡數(shù)據(jù)質(zhì)量、規(guī)模與成本的關(guān)系,并展望了未來自動(dòng)化數(shù)據(jù)增強(qiáng)技術(shù)的潛力,特別是如何利用自我標(biāo)注方法提升數(shù)據(jù)質(zhì)量。
通過這項(xiàng)工作,研究者們可以更加清楚地理解多模態(tài)數(shù)據(jù)集的構(gòu)建策略,為未來的研究提供有力的支持。
引入外部知識(shí)的數(shù)據(jù)集
- 人工注釋:通過人工標(biāo)注,收集了不同領(lǐng)域的高質(zhì)量數(shù)據(jù)。
例如,LLaVA-RLHF通過人工選擇正負(fù)響應(yīng)收集了10k個(gè)樣本,RLHF-V通過人工修正幻覺響應(yīng)收集了1.4k個(gè)樣本。
- 閉源LLM/MLLM:利用GPT-4系列模型生成的偏好數(shù)據(jù),通過這種方法可以大規(guī)模構(gòu)建數(shù)據(jù)集,同時(shí)減少成本。
像LRV-Instruction通過GPT-4生成了400k個(gè)視覺指令,涵蓋16個(gè)視覺語言任務(wù)。
- 開源LLM/MLLM:使用開源模型(如CLIP-DPO)來構(gòu)建偏好數(shù)據(jù),減少成本但可能犧牲數(shù)據(jù)質(zhì)量。
例如,INTERACTIVECOT通過預(yù)定義分?jǐn)?shù)構(gòu)建了具身智能的偏好數(shù)據(jù)集。
自我標(biāo)注的數(shù)據(jù)集
- 單一文本模態(tài):
SQuBa使用微調(diào)后的模型生成負(fù)樣本,并將其與正樣本進(jìn)行DPO對(duì)比。SymDPO通過將VQA/分類數(shù)據(jù)轉(zhuǎn)化為ICL格式,以增強(qiáng)視覺學(xué)習(xí)。
- 單一圖像模態(tài):
Image DPO通過對(duì)圖像進(jìn)行擾動(dòng)(如高斯模糊或像素化),而保持文本不變,構(gòu)建DPO偏好對(duì)。
- 圖像-文本混合模態(tài):
AdPO通過構(gòu)建原始/對(duì)抗圖像及其模型響應(yīng)的偏好對(duì),在優(yōu)化過程中,兩者的圖像和文本內(nèi)容在正負(fù)樣本中有所不同。
實(shí)驗(yàn)發(fā)現(xiàn)
在實(shí)驗(yàn)部分,研究發(fā)現(xiàn):
數(shù)據(jù)集規(guī)模與質(zhì)量的平衡:通過引入外部知識(shí)的數(shù)據(jù)集,能夠提高數(shù)據(jù)的質(zhì)量,但這也增加了構(gòu)建成本。而自我標(biāo)注的方法雖然能夠大規(guī)模生成數(shù)據(jù),但由于MLLM的性能限制,當(dāng)前的自我標(biāo)注數(shù)據(jù)集質(zhì)量仍較低,且存在一定的分布偏移問題。
自動(dòng)化增強(qiáng)的潛力:隨著自動(dòng)化數(shù)據(jù)增強(qiáng)技術(shù)的發(fā)展,未來的自我標(biāo)注方法將可能解決當(dāng)前數(shù)據(jù)質(zhì)量低的問題,并提高數(shù)據(jù)的多樣性和可信度。
總的來說,數(shù)據(jù)集的構(gòu)建方法和質(zhì)量控制是影響MLLM對(duì)齊效果的關(guān)鍵因素,未來的研究應(yīng)關(guān)注如何在保證數(shù)據(jù)質(zhì)量的同時(shí),降低成本并提高數(shù)據(jù)集的規(guī)模。
模型評(píng)估
現(xiàn)有的MLLM對(duì)齊評(píng)估基準(zhǔn)被分為六個(gè)關(guān)鍵維度:
通用知識(shí)(評(píng)估基礎(chǔ)能力)、幻覺(衡量生成內(nèi)容與事實(shí)的一致性)、安全性(評(píng)估響應(yīng)中降低風(fēng)險(xiǎn)的能力)、對(duì)話(測(cè)試模型是否能輸出用戶要求的內(nèi)容)、獎(jiǎng)勵(lì)模型(評(píng)估獎(jiǎng)勵(lì)模型的表現(xiàn))和與人類偏好的對(duì)齊。
通用知識(shí)
大多數(shù)基準(zhǔn)優(yōu)先考慮高質(zhì)量、人工注釋的數(shù)據(jù)集,這些數(shù)據(jù)集專門為實(shí)際應(yīng)用場(chǎng)景量身定制。
例如,MME-RealWorld包含來自13K張圖像的29K個(gè)問答對(duì),MMMU包含來自學(xué)術(shù)來源的11.5K個(gè)問題。MMStar通過減少數(shù)據(jù)泄漏和強(qiáng)調(diào)視覺依賴性來增強(qiáng)可靠性。
許多基準(zhǔn)引入了創(chuàng)新方法,如MMBench的雙語評(píng)估與CircularEval,MMT-Bench的任務(wù)圖用于域內(nèi)外分析,以及BLINK專注于視覺感知任務(wù)。這些框架提升了評(píng)估精度,揭示了模型的局限性。
任務(wù)通常需要高級(jí)的多模態(tài)推理能力,例如MathVista的數(shù)學(xué)視覺整合、SQA3D的3D情境問答以及MMMU對(duì)圖表和地圖的覆蓋。
這些基準(zhǔn)推動(dòng)模型解決跨學(xué)科的挑戰(zhàn),通過策劃具有挑戰(zhàn)性的、細(xì)粒度的任務(wù)(如MVBench中的時(shí)間理解、Mantis-Instruct中的多圖像處理),旨在提升模型解決現(xiàn)實(shí)世界問題的能力,特別是在細(xì)致感知和推理方面。
幻覺
這些基準(zhǔn)系統(tǒng)地識(shí)別并分類多模態(tài)模型中的幻覺問題,包括對(duì)象幻覺(Object HalBench)、內(nèi)在和外在幻覺(VideoHallucer)以及關(guān)聯(lián)偏差(VALOR-Eval)。它們強(qiáng)調(diào)在視覺、文本和序列上下文中的細(xì)粒度評(píng)估。
許多基準(zhǔn)提出了創(chuàng)新的框架,例如基于投票的查詢(POPE)、LLM驅(qū)動(dòng)的評(píng)分(HaELM、RefoMB)、開放詞匯檢測(cè)(OpenCHAIR)、無注釋評(píng)估(GAVIE)、無LLM管道(AMBER)和GPT-4輔助的推理分析(Mementos)。
這些方法強(qiáng)調(diào)自動(dòng)化、可擴(kuò)展的評(píng)估,同時(shí)解決數(shù)據(jù)泄漏和語言先驗(yàn)等問題。
數(shù)據(jù)集優(yōu)先采用細(xì)粒度的人類注釋(M-HalDetect、HallusionBench)和合成數(shù)據(jù)生成(VHTest、MHaluBench),它們平衡了現(xiàn)實(shí)世界的復(fù)雜性(PhD的反常識(shí)圖像、ActivityNet-QA的58K問答對(duì))和受控挑戰(zhàn)(R-Bench的魯棒性分析)。
一些基準(zhǔn)專注于特定任務(wù),如多語言支持(MHumanEval),而另一些則處理更廣泛的問題,如偏見和干擾(Bingo)。所有這些都旨在提高模型在實(shí)際場(chǎng)景中的魯棒性。
通過提出對(duì)齊策略(如RLAIF-V的開源反饋)并提出統(tǒng)一框架(HQH),這些基準(zhǔn)為開發(fā)更可靠的多模態(tài)系統(tǒng)提供了指導(dǎo)。
安全性
一些研究引入了新穎的技術(shù),例如基于擴(kuò)散的對(duì)抗性攻擊(AdvDiffVLM)、紅隊(duì)框架(RTVLM)和后期微調(diào)策略(VLGuard)。
這些方法通過模擬現(xiàn)實(shí)世界威脅或提升模型的抗干擾能力來增強(qiáng)評(píng)估的嚴(yán)謹(jǐn)性。
像MultiTrust和RTVLM這樣的基準(zhǔn)通過多個(gè)維度統(tǒng)一了可信度評(píng)估(如真實(shí)性、公平性),而另一些基準(zhǔn)則專注于特定挑戰(zhàn),如超出分布(OOD)泛化(VLLM-safety-bench)或過度敏感性(MOSSBench)。這些基準(zhǔn)為模型的限制提供了整體的見解。
MM-RLHF-SafetyBench從現(xiàn)有數(shù)據(jù)集中進(jìn)行采樣,進(jìn)一步涵蓋了如對(duì)抗性攻擊、隱私、紅隊(duì)攻擊和有害內(nèi)容檢測(cè)等領(lǐng)域。
對(duì)話
這些基準(zhǔn)優(yōu)先評(píng)估基礎(chǔ)的視覺技能,如低級(jí)感知能力(Q-Bench、LLVisionQA)、低級(jí)信息的描述能力(LLDescribe)和質(zhì)量評(píng)估。
它們強(qiáng)調(diào)模型解釋和表達(dá)細(xì)粒度視覺信息的能力。
幾個(gè)基準(zhǔn)測(cè)試了模型在具有挑戰(zhàn)性場(chǎng)景中的泛化能力,包括非常規(guī)圖像(LLaVA Bench-Wilder)、跨領(lǐng)域任務(wù)(LiveBench的數(shù)學(xué)/新聞?wù)希┖蛯?duì)抗性提示(Vibe-Eval的高難度問題)。這些基準(zhǔn)揭示了模型在標(biāo)準(zhǔn)數(shù)據(jù)集之外的適應(yīng)能力。
獎(jiǎng)勵(lì)模型
每個(gè)基準(zhǔn)都針對(duì)特定的評(píng)估維度,例如多語言能力(M-RewardBench中的23種語言)、對(duì)齊/安全性/偏見(MJ-Bench)、通過人類注釋增強(qiáng)可解釋性和最終模型評(píng)分能力(MM-RLHF-RewardBench)以及MLLM在輔助評(píng)判者跨多種模態(tài)中的能力(MLLM-as-a-Judge的評(píng)分與成對(duì)比較)。
這些框架揭示了模型在結(jié)構(gòu)化和OOD場(chǎng)景中的優(yōu)缺點(diǎn)。
高質(zhì)量的數(shù)據(jù)集通過人類與AI合作(如VL-RewardBench的注釋管道)或結(jié)構(gòu)化三元組設(shè)計(jì)(RewardBench)策劃而成,任務(wù)從簡(jiǎn)單的偏好排序到復(fù)雜的推理,推動(dòng)模型處理如幻覺和倫理對(duì)齊等細(xì)致挑戰(zhàn)。
對(duì)齊
一些基準(zhǔn)研究了模型與人類偏好的對(duì)齊能力。
Arena-Hard是一個(gè)全面的多維度基準(zhǔn),旨在評(píng)估中文LLM的對(duì)齊能力。AlpacaEval-V2提出了一種簡(jiǎn)單的回歸分析方法,用于控制自評(píng)中的長(zhǎng)度偏差。Arena-Hard通過增加模型性能的分離度三倍,達(dá)到了98.6%的與人類偏好排名的相關(guān)性。MM-AlignBench是一個(gè)專門設(shè)計(jì)的手工注釋基準(zhǔn),旨在評(píng)估與人類價(jià)值觀的對(duì)齊。
總體而言,許多當(dāng)前的MLLM對(duì)齊算法側(cè)重于防止模型生成幻覺,同時(shí)探索如何利用對(duì)齊算法提升MLLM的通用知識(shí)和對(duì)話能力,這是未來的重要方向。
一些研究者將不安全的響應(yīng)視為與人類偏好不對(duì)齊,因此應(yīng)用MLLM對(duì)齊算法來解決安全問題。這些框架中獎(jiǎng)勵(lì)模型的有效性,尤其是在引導(dǎo)對(duì)齊方面的表現(xiàn),值得進(jìn)一步研究。
此外,針對(duì)與人類偏好的對(duì)齊,基準(zhǔn)也從LLM領(lǐng)域發(fā)展到了MLLM領(lǐng)域。
未來工作與挑戰(zhàn)
隨著多模態(tài)大型語言模型(MLLM)的迅速發(fā)展,將它們與人類偏好對(duì)齊已經(jīng)成為研究的重點(diǎn)。然而,仍然存在若干挑戰(zhàn)。
首先,高質(zhì)量和多樣化數(shù)據(jù)集的稀缺問題仍然未得到有效解決。其次,許多方法未能有效利用視覺信息,往往主要依賴文本來構(gòu)建正負(fù)樣本,忽略了多模態(tài)數(shù)據(jù)的全部潛力。此外,缺乏全面的評(píng)估標(biāo)準(zhǔn),當(dāng)前的方法通常僅在幻覺或?qū)υ捜蝿?wù)等特定類型的基準(zhǔn)上進(jìn)行驗(yàn)證,這使得它們的普適性難以評(píng)估。
通過借鑒LLM后期訓(xùn)練策略和智能體研究的進(jìn)展,可以揭示現(xiàn)有MLLM對(duì)齊方法中的局限性。克服這些挑戰(zhàn)對(duì)于開發(fā)更強(qiáng)大和全面的對(duì)齊方法至關(guān)重要。
數(shù)據(jù)挑戰(zhàn)
MLLM對(duì)齊面臨兩個(gè)關(guān)鍵的數(shù)據(jù)相關(guān)挑戰(zhàn):數(shù)據(jù)質(zhì)量和覆蓋范圍。
首先,高質(zhì)量的MLLM對(duì)齊數(shù)據(jù)的可用性有限。與LLM相比,獲取和注釋多模態(tài)數(shù)據(jù)要復(fù)雜得多,因?yàn)樗婕岸鄠€(gè)模態(tài)的處理。
其次,現(xiàn)有數(shù)據(jù)集在涵蓋多樣化多模態(tài)任務(wù)方面存在不足,例如光學(xué)字符識(shí)別、數(shù)學(xué)問題和圖表理解等任務(wù)。構(gòu)建一個(gè)涵蓋廣泛任務(wù)的綜合數(shù)據(jù)集是一項(xiàng)極具挑戰(zhàn)的工作。
據(jù)作者所知,目前沒有一個(gè)公開的、完全人工注釋的多模態(tài)數(shù)據(jù)集樣本量超過200,000個(gè)。
這些在數(shù)據(jù)質(zhì)量和覆蓋范圍方面的限制,成為有效對(duì)齊MLLM的重大障礙。
利用視覺信息進(jìn)行對(duì)齊
目前的對(duì)齊數(shù)據(jù)可以表示為:偏好數(shù)據(jù)D=(x, I, yw, yl),其中x是問題,I是圖像,yw、yl分別表示正確和錯(cuò)誤的響應(yīng)。
在當(dāng)前的研究中,主要有三種方法用于利用視覺信息來增強(qiáng)對(duì)齊性能,但每種方法都有其局限性:
- 使用破損或無關(guān)圖像作為對(duì)齊階段的負(fù)樣本。
研究人員創(chuàng)建新的圖像Ineg,并使用(yw|X, Ineg)作為負(fù)樣本。此方法通過減少幻覺和提高M(jìn)LLM對(duì)不同圖像的魯棒性來改善對(duì)齊效果。然而,視覺負(fù)樣本通常依賴于擴(kuò)散算法或圖像修改,這些方法缺乏強(qiáng)有力的質(zhì)量度量,并且計(jì)算成本較高。
- 基于破損圖像生成新的問題和答案。
在這種方法中,研究人員創(chuàng)建一個(gè)新的圖像Ineg,使用該圖像生成額外的響應(yīng)yneg,然后將(yneg|X, I)視為負(fù)樣本。此方法增加了文本比較的多樣性,但生成額外負(fù)樣本的過程增加了計(jì)算開銷。
- 使用像CLIP這樣的余弦相似度度量來評(píng)估文本-圖像匹配。
該方法通過計(jì)算文本與圖像之間的相似度分?jǐn)?shù)來篩選數(shù)據(jù),或?qū)⑵渥鳛閺?qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)的一部分。雖然這種方法有助于減少數(shù)據(jù)噪聲,但評(píng)分的質(zhì)量依賴于評(píng)估模型的質(zhì)量,可能受到模型偏見的影響。
每種方法在利用視覺數(shù)據(jù)增強(qiáng)MLLM對(duì)齊方面都有一定的作用,但在效率、成本和潛在偏見方面存在權(quán)衡。
綜合評(píng)估
大多數(shù)MLLM對(duì)齊研究主要評(píng)估其算法在幻覺、對(duì)話能力或安全性等幾個(gè)關(guān)鍵領(lǐng)域的表現(xiàn)。
然而,未來的研究應(yīng)采用更全面的評(píng)估方法,跨更廣泛的任務(wù)評(píng)估對(duì)齊方法,以更好地展示其普適性和有效性。
全模態(tài)對(duì)齊
Align-anything開創(chuàng)了通過多模態(tài)數(shù)據(jù)集“align-anything-200k”實(shí)現(xiàn)全模態(tài)對(duì)齊的研究,涵蓋了文本、圖像、音頻和視頻。這項(xiàng)研究展示了不同模態(tài)之間的互補(bǔ)效應(yīng)。
然而,他們的工作仍處于初期階段,每種模態(tài)的數(shù)據(jù)集相對(duì)較小,限制了其任務(wù)覆蓋范圍。
此外,提出的算法僅是DPO方法的初步改進(jìn),未能充分利用每種模態(tài)固有的獨(dú)特結(jié)構(gòu)信息。
未來,超越圖像/文本領(lǐng)域的對(duì)齊算法設(shè)計(jì),尤其是針對(duì)其他模態(tài)的對(duì)齊,將是一個(gè)關(guān)鍵的趨勢(shì)。
MLLM推理
最近,由OpenAI(o1)和DeepSeek-R1代表的推理LLM已經(jīng)證明,強(qiáng)化學(xué)習(xí)算法和偏好數(shù)據(jù)對(duì)于提高LLM在復(fù)雜問題求解、長(zhǎng)時(shí)上下文理解和生成任務(wù)中的表現(xiàn)至關(guān)重要。
本文將探討從LLM推理增強(qiáng)研究中獲得的洞察及其對(duì)對(duì)齊MLLM的影響,主要從數(shù)據(jù)和優(yōu)化框架兩個(gè)維度進(jìn)行分析。
(1) 數(shù)據(jù)。
- 規(guī)模與質(zhì)量。對(duì)應(yīng)的方法逐漸從小模型重采樣(如OpenMathInstruct)發(fā)展到高質(zhì)量合成數(shù)據(jù)(如AceMath),并逐步采用尖端模型(如OpenAI o1)和通過領(lǐng)域?qū)S媚P秃铣蓴?shù)據(jù)實(shí)現(xiàn)可擴(kuò)展的知識(shí)遷移(如DeepSeek-V3)。
目前,用于推理增強(qiáng)的數(shù)據(jù)集普遍達(dá)到百萬樣本規(guī)模(如Qwen-2.5-MATH)。
- 效率。采用“少即是多”的對(duì)齊(如LIMA的1k樣本用于65B Llama)證明了最少的高質(zhì)量數(shù)據(jù)能夠最優(yōu)地激活預(yù)訓(xùn)練能力,同時(shí)減少對(duì)數(shù)據(jù)規(guī)模的依賴。
(2) 優(yōu)化框架。
- 采樣策略。最近的進(jìn)展表明,在線強(qiáng)化學(xué)習(xí)(RL)逐漸成為主流方法,DeepSeek-V3和Qwen-2.5-MATH的在線采樣方法有效地緩解了分布偏移。
此外,Mini-Max采用了離線+在線采樣策略,進(jìn)一步提升了模型性能。
- 訓(xùn)練范式。多階段、協(xié)作優(yōu)化已成為主流方法。
例如,Llama 3包含了六輪DPO迭代,而DeepSeek通過溫度變化的采樣和反射/驗(yàn)證提示來優(yōu)化推理深度(長(zhǎng)鏈?zhǔn)酵评恚┖秃?jiǎn)潔性。
- 算法。強(qiáng)化學(xué)習(xí)算法從早期的策略梯度方法發(fā)展到更復(fù)雜的PPO,最近基于PPO的改進(jìn)主要有兩個(gè)方向:
一個(gè)是去除評(píng)估模型并用稀疏獎(jiǎng)勵(lì)訓(xùn)練策略,從而減少一半的參數(shù)量(如DPO和GRPO);另一個(gè)是精煉評(píng)估模型的設(shè)計(jì),例如引入比率作為優(yōu)勢(shì)函數(shù)的PRIME和通過重塑正負(fù)樣本獎(jiǎng)勵(lì)的OREAL。
通過優(yōu)先考慮高質(zhì)量數(shù)據(jù)和創(chuàng)新的優(yōu)化框架,MLLM領(lǐng)域正朝著更有效、可擴(kuò)展的模型發(fā)展,這些模型也能更好地解鎖MLLM的推理潛力。
LLM對(duì)齊的啟示
對(duì)LLM的對(duì)齊已經(jīng)成為最近研究的一個(gè)關(guān)鍵焦點(diǎn),提供了許多有價(jià)值的見解,可以為MLLM的開發(fā)提供指導(dǎo)。通過審視現(xiàn)有LLM對(duì)齊策略的經(jīng)驗(yàn)教訓(xùn),可以揭示出有助于提升MLLM研究的關(guān)鍵原則:
(1) 提高訓(xùn)練效率。
當(dāng)前MLLM的對(duì)齊方法依賴于DPO損失函數(shù)。然而,由于DPO需要同時(shí)加載策略模型和參考模型,訓(xùn)練速度會(huì)顯著下降。是否可以利用類似SimPO的無參考方法進(jìn)一步提升訓(xùn)練效率?
這一方法可能加速訓(xùn)練過程,同時(shí)減少對(duì)參考模型的依賴。進(jìn)一步研究參考模型在MLLM對(duì)齊中的具體作用和影響,對(duì)于提高效率和優(yōu)化模型設(shè)計(jì)至關(guān)重要。
(2) 減輕過度優(yōu)化/獎(jiǎng)勵(lì)黑客問題。
在使用DPO或RLHF進(jìn)行LLM對(duì)齊時(shí),過度優(yōu)化仍然是一個(gè)關(guān)鍵挑戰(zhàn),即通過學(xué)習(xí)到的代理獎(jiǎng)勵(lì)模型來提高性能,但真正的質(zhì)量可能停滯或退化。
為應(yīng)對(duì)這一挑戰(zhàn),解決策略包括:
- 使用平衡的訓(xùn)練數(shù)據(jù)集確保多樣性和代表性,防止過于狹窄的優(yōu)化;
- 在驗(yàn)證性能平穩(wěn)時(shí)實(shí)施早停;
- 引入正則化技術(shù),減少對(duì)訓(xùn)練數(shù)據(jù)的過度依賴,提高模型的泛化能力。
MLLM作為智能體
MLLM結(jié)合了LLM強(qiáng)大的推理能力和處理來自多種模態(tài)(如圖像、文本和音頻)數(shù)據(jù)的能力。這使得它們能夠從多種信息源中提取知識(shí)并進(jìn)行綜合分析,在處理復(fù)雜的現(xiàn)實(shí)任務(wù)中具有很大優(yōu)勢(shì)。
然而,要將MLLM轉(zhuǎn)變?yōu)楦咝У闹悄荏w,仍然需要解決幾個(gè)待處理的問題。
- 多智能體協(xié)作。
目前,針對(duì)基于文本的智能體的多智能體協(xié)作框架已取得顯著進(jìn)展,但基于MLLM的多智能體系統(tǒng)仍缺乏成熟的解決方案。 - 魯棒性。
MLLM智能體在開放環(huán)境中的魯棒性尚未得到系統(tǒng)驗(yàn)證,需引入對(duì)抗性魯棒性測(cè)試和保障技術(shù)。 - 安全性。
MLLM智能體中引入更多復(fù)雜組件增加了安全風(fēng)險(xiǎn),未來的研究應(yīng)探索多種安全保護(hù)機(jī)制,以減輕這些風(fēng)險(xiǎn)。
論文鏈接:https://arxiv.org/pdf/2503.14504
GitHub鏈接:https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Alignment
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.