99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

院士領(lǐng)銜萬字長(zhǎng)文,全面系統(tǒng)梳理多模態(tài)LLM對(duì)齊算法

0
分享至

CASIA等 投稿
量子位 | 公眾號(hào) QbitAI

萬字長(zhǎng)文,對(duì)多模態(tài)LLM中對(duì)齊算法進(jìn)行全面系統(tǒng)性回顧!

從現(xiàn)有對(duì)齊算法涵蓋的應(yīng)用場(chǎng)景,到構(gòu)建對(duì)齊數(shù)據(jù)集的核心因素,再到用于評(píng)估對(duì)齊算法的基準(zhǔn),還有對(duì)齊算法未來潛在發(fā)展方向,全都梳理了一遍。



大語言模型(LLMs)能夠通過簡(jiǎn)單的提示完成多種任務(wù),且無需進(jìn)行任務(wù)特定的訓(xùn)練。然而,這些模型主要處理文本數(shù)據(jù),對(duì)于多模態(tài)數(shù)據(jù)的處理存在局限。

由于世界本質(zhì)上是多模態(tài)的,包括視覺、聽覺和文本等數(shù)據(jù),研究者開始在LLM的基礎(chǔ)上開發(fā)多模態(tài)大語言模型(MLLMs),以處理更復(fù)雜的數(shù)據(jù)形式。

然而,現(xiàn)有的MLLMs仍面臨一系列挑戰(zhàn),尤其是在真實(shí)性、安全性、推理能力和與人類偏好對(duì)齊方面,這些問題尚未得到充分解決。

因此,針對(duì)這些問題的對(duì)齊算法應(yīng)運(yùn)而生,成為解決這些挑戰(zhàn)的有效途徑。



本文這項(xiàng)研究的主要貢獻(xiàn)是對(duì)多模態(tài)大型語言模型(MLLMs)中的對(duì)齊算法進(jìn)行全面的系統(tǒng)性回顧。

具體而言,探討了以下四個(gè)關(guān)鍵問題:

  • 現(xiàn)有對(duì)齊算法的應(yīng)用場(chǎng)景:文章通過分類當(dāng)前的對(duì)齊算法,清晰地展示了它們?cè)诓煌瑧?yīng)用領(lǐng)域的適用性,并為研究者提供了一個(gè)統(tǒng)一的符號(hào)系統(tǒng),幫助理解各算法之間的區(qū)別與聯(lián)系。
  • 對(duì)齊數(shù)據(jù)集的構(gòu)建:對(duì)齊數(shù)據(jù)集的構(gòu)建涉及數(shù)據(jù)源、模型響應(yīng)和偏好注釋三個(gè)核心因素。文章對(duì)這些因素進(jìn)行了系統(tǒng)分析與分類,并總結(jié)了公開數(shù)據(jù)集的優(yōu)勢(shì)與不足,為未來的改進(jìn)提供參考。
  • 對(duì)齊算法的評(píng)估方法:鑒于大多數(shù)對(duì)齊算法針對(duì)特定任務(wù),如減少幻覺、確保安全性和改善推理能力,文章整理了常用的評(píng)估基準(zhǔn),提出了清晰的評(píng)估框架。
  • 未來發(fā)展方向:文章提出了對(duì)齊算法發(fā)展的潛在未來方向,特別是視覺信息的整合、LLM對(duì)齊方法的經(jīng)驗(yàn)啟示,以及MLLM作為智能體面臨的挑戰(zhàn)與機(jī)遇。

這項(xiàng)研究由來自中國(guó)科學(xué)院自動(dòng)化研究所、南京大學(xué)、中國(guó)科學(xué)技術(shù)大學(xué)、南洋理工大學(xué)、清華大學(xué)深圳國(guó)際研究生院、騰訊優(yōu)圖實(shí)驗(yàn)室、新加坡國(guó)立大學(xué)、理海大學(xué)、香港科技大學(xué)、松鼠Ai學(xué)習(xí)等機(jī)構(gòu)的研究人員共同完成。

中國(guó)科學(xué)院院士譚鐵牛、中國(guó)計(jì)算機(jī)學(xué)會(huì)會(huì)士王亮領(lǐng)銜。



以下是更多細(xì)節(jié)。

應(yīng)用場(chǎng)景與代表性方法

應(yīng)用場(chǎng)景

文章介紹了多模態(tài)大語言模型(MLLM)對(duì)齊算法的應(yīng)用場(chǎng)景,分為三大層次:

  • 通用圖像理解:主要集中在減少幻覺(模型生成不準(zhǔn)確或無關(guān)的輸出),并提升模型在其他功能(如對(duì)話、推理能力)方面的表現(xiàn)。
  • 多圖像、視頻和音頻:針對(duì)復(fù)雜多模態(tài)數(shù)據(jù),如多圖像和視頻,提出了不同的架構(gòu)和訓(xùn)練方法來處理這些任務(wù),尤其是如何在這些任務(wù)中減少幻覺并提高模型的能力。
  • 擴(kuò)展應(yīng)用:探討了將MLLM應(yīng)用于領(lǐng)域特定任務(wù),如醫(yī)學(xué)、數(shù)學(xué)推理、安全系統(tǒng)等,介紹了如何根據(jù)這些特定領(lǐng)域的需求對(duì)模型進(jìn)行優(yōu)化。

通用圖像理解與多模態(tài)o1

一般圖像理解

MLLM對(duì)齊算法的初衷是解決多模態(tài)系統(tǒng)中的幻覺問題。最近的研究表明,這些算法不僅能提升幻覺的處理,還能增強(qiáng)模型的安全性、對(duì)話能力、推理能力等多個(gè)功能屬性。

本節(jié)將系統(tǒng)地介紹幾種創(chuàng)新的方法,按其主要應(yīng)用場(chǎng)景分類:減少幻覺和提升其他能力。

減少幻覺

MLLM對(duì)齊算法的最初設(shè)計(jì)目的是減少幻覺現(xiàn)象。

例如,F(xiàn)act-RLHF是第一個(gè)多模態(tài)的RLHF算法,使用了10K個(gè)人工標(biāo)注的樣本來訓(xùn)練獎(jiǎng)勵(lì)模型,并引入了每個(gè)token的KL懲罰、事實(shí)信息校準(zhǔn)、以及正確性和長(zhǎng)度懲罰等機(jī)制。

DDPO通過提高更正數(shù)據(jù)的權(quán)重,進(jìn)一步優(yōu)化了標(biāo)準(zhǔn)的DPO。

HA-DPO則利用MLLM生成圖像描述,通過GPT-4驗(yàn)證幻覺并對(duì)正負(fù)樣本進(jìn)行重寫,加入了輔助的因果語言建模損失以減少幻覺。

mDPO通過引入視覺損失函數(shù)來解決視覺信息忽視問題,并增加錨定機(jī)制來避免選定響應(yīng)的概率下降。

提升綜合能力

除了減少幻覺,一些算法還專注于提升模型的多方面能力。

例如,Silkie通過收集多樣的指令數(shù)據(jù)集,并使用GPT-4V評(píng)估生成的響應(yīng),從而為應(yīng)用DPO提供偏好數(shù)據(jù)。CLIP-DPO利用CLIP分?jǐn)?shù)對(duì)數(shù)據(jù)進(jìn)行標(biāo)注,并應(yīng)用DPO損失,從而同時(shí)提升幻覺減緩和零樣本分類任務(wù)的表現(xiàn)。

SIMA通過讓模型自我評(píng)估其生成的響應(yīng)來構(gòu)建偏好對(duì),進(jìn)一步提升了多圖像任務(wù)的表現(xiàn)。

近期,MM-RLHF等方法通過更多樣性的數(shù)據(jù)和算法,將alignment的效果進(jìn)一步提升。

多模態(tài)o1發(fā)展

DeepSeek-R1的流行給MLLM社區(qū)帶來了新的啟示。

LMM-R1使用純文本數(shù)學(xué)數(shù)據(jù)集,通過RLOO訓(xùn)練,并在多模態(tài)數(shù)學(xué)基準(zhǔn)上取得了改進(jìn)。

Open-R1-Video則利用GRPO方法提升了模型在視頻領(lǐng)域的表現(xiàn)。

VLM-R1應(yīng)用R1方法處理指代表達(dá)理解任務(wù),進(jìn)一步擴(kuò)展了多模態(tài)推理的能力。

多圖像、視頻和音頻

在這一部分,文章討論了多圖像、視頻和音頻任務(wù)中的挑戰(zhàn)和解決方法。

  • 多圖像任務(wù):現(xiàn)有的MLLM在多圖像理解方面常常遇到困難,MIA-DPO通過構(gòu)建多圖像偏好數(shù)據(jù)來解決這一問題,取得了較好的效果。
  • 視頻任務(wù):視頻理解任務(wù)比單圖像任務(wù)更加復(fù)雜,DPO和交錯(cuò)視覺指令的結(jié)合,能夠有效提升視頻任務(wù)的處理能力,如LLaVA-NeXT-Interleave方法。
  • 音頻任務(wù):音頻-視覺理解存在音頻盲視問題,Video-SALMONN 2通過引入音頻-視覺對(duì)齊機(jī)制,成功解決了這一問題。

擴(kuò)展多模態(tài)應(yīng)用

文章還介紹了在特定領(lǐng)域的擴(kuò)展應(yīng)用,提出了針對(duì)性更強(qiáng)的對(duì)齊方法。

  • 醫(yī)學(xué)應(yīng)用:3D-CT-GPT++通過對(duì)醫(yī)學(xué)影像分析進(jìn)行優(yōu)化,成功減少了診斷中的誤差,達(dá)到了臨床級(jí)別的準(zhǔn)確性。
  • 數(shù)學(xué)應(yīng)用:MAVIS方法通過改進(jìn)視覺數(shù)學(xué)問題解決框架,提高了MLLM在數(shù)學(xué)推理中的表現(xiàn)。
  • 安全性:為應(yīng)對(duì)多模態(tài)大語言模型的對(duì)抗性攻擊,文章介紹了AdPO和VLGuard等方法,它們通過優(yōu)化訓(xùn)練數(shù)據(jù)和模型結(jié)構(gòu)來提高模型的魯棒性。
  • 代理和智能系統(tǒng):INTERACTIVECOT和EMMOE方法通過動(dòng)態(tài)優(yōu)化推理流程和分解任務(wù),提高了多模態(tài)大語言模型在嵌入式智能中的表現(xiàn),尤其是在復(fù)雜決策過程中。

作者分析多模態(tài)大語言模型的不同應(yīng)用場(chǎng)景,詳細(xì)介紹了多種算法和方法,涵蓋了從通用圖像理解到特定領(lǐng)域應(yīng)用的各個(gè)方面。

主要貢獻(xiàn)在于展示了如何通過優(yōu)化對(duì)齊算法來減少幻覺現(xiàn)象并提升模型在不同任務(wù)中的綜合能力,尤其在視頻、音頻、醫(yī)學(xué)、數(shù)學(xué)等復(fù)雜領(lǐng)域的應(yīng)用。

隨著這些方法的不斷優(yōu)化,MLLM將在更多領(lǐng)域展現(xiàn)其強(qiáng)大的處理能力。

下表總結(jié)了目前alignment策略常見的損失函數(shù)形式:



MLLM對(duì)齊數(shù)據(jù)構(gòu)造與現(xiàn)有數(shù)據(jù)總結(jié)

主要內(nèi)容總結(jié)

在多模態(tài)大型語言模型(MLLM)的研究中,對(duì)齊數(shù)據(jù)集是關(guān)鍵組成部分。由于多模態(tài)數(shù)據(jù)集的構(gòu)建涉及到大量的數(shù)據(jù)來源、生成方法和注釋技術(shù),研究者們對(duì)不同構(gòu)建方法進(jìn)行了分類。



這些數(shù)據(jù)集大致可以分為兩類:引入外部知識(shí)的數(shù)據(jù)集和依賴自我標(biāo)注的數(shù)據(jù)集。

通過這些分類,研究者可以更清晰地了解不同數(shù)據(jù)集的特點(diǎn),進(jìn)而為多模態(tài)系統(tǒng)的優(yōu)化提供支持。

作者對(duì)現(xiàn)有MLLM對(duì)齊數(shù)據(jù)集進(jìn)行了全面的分類與分析,詳細(xì)介紹了不同構(gòu)建方法的優(yōu)缺點(diǎn)以及應(yīng)用場(chǎng)景。研究主要關(guān)注以下幾個(gè)方面:

  • 引入外部知識(shí)的數(shù)據(jù)集:討論了通過人類注釋和閉源模型(如GPT-4系列)構(gòu)建的數(shù)據(jù)集,這些方法提高了數(shù)據(jù)的質(zhì)量,但也面臨高成本和主觀性等挑戰(zhàn)。
  • 自我標(biāo)注的數(shù)據(jù)集:探討了利用模型自身生成偏好對(duì)進(jìn)行數(shù)據(jù)集構(gòu)建的方法,包括單一文本模態(tài)、單一圖像模態(tài)和圖像-文本混合模態(tài)三種類型的數(shù)據(jù)構(gòu)建方法。
  • 數(shù)據(jù)質(zhì)量和規(guī)模的平衡:文章還討論了如何平衡數(shù)據(jù)質(zhì)量、規(guī)模與成本的關(guān)系,并展望了未來自動(dòng)化數(shù)據(jù)增強(qiáng)技術(shù)的潛力,特別是如何利用自我標(biāo)注方法提升數(shù)據(jù)質(zhì)量。

通過這項(xiàng)工作,研究者們可以更加清楚地理解多模態(tài)數(shù)據(jù)集的構(gòu)建策略,為未來的研究提供有力的支持。

引入外部知識(shí)的數(shù)據(jù)集

  • 人工注釋:通過人工標(biāo)注,收集了不同領(lǐng)域的高質(zhì)量數(shù)據(jù)。

例如,LLaVA-RLHF通過人工選擇正負(fù)響應(yīng)收集了10k個(gè)樣本,RLHF-V通過人工修正幻覺響應(yīng)收集了1.4k個(gè)樣本。

  • 閉源LLM/MLLM:利用GPT-4系列模型生成的偏好數(shù)據(jù),通過這種方法可以大規(guī)模構(gòu)建數(shù)據(jù)集,同時(shí)減少成本。

像LRV-Instruction通過GPT-4生成了400k個(gè)視覺指令,涵蓋16個(gè)視覺語言任務(wù)。

  • 開源LLM/MLLM:使用開源模型(如CLIP-DPO)來構(gòu)建偏好數(shù)據(jù),減少成本但可能犧牲數(shù)據(jù)質(zhì)量。

例如,INTERACTIVECOT通過預(yù)定義分?jǐn)?shù)構(gòu)建了具身智能的偏好數(shù)據(jù)集。

自我標(biāo)注的數(shù)據(jù)集

  • 單一文本模態(tài):

SQuBa使用微調(diào)后的模型生成負(fù)樣本,并將其與正樣本進(jìn)行DPO對(duì)比。SymDPO通過將VQA/分類數(shù)據(jù)轉(zhuǎn)化為ICL格式,以增強(qiáng)視覺學(xué)習(xí)。

  • 單一圖像模態(tài):

Image DPO通過對(duì)圖像進(jìn)行擾動(dòng)(如高斯模糊或像素化),而保持文本不變,構(gòu)建DPO偏好對(duì)。

  • 圖像-文本混合模態(tài):

AdPO通過構(gòu)建原始/對(duì)抗圖像及其模型響應(yīng)的偏好對(duì),在優(yōu)化過程中,兩者的圖像和文本內(nèi)容在正負(fù)樣本中有所不同。

實(shí)驗(yàn)發(fā)現(xiàn)

在實(shí)驗(yàn)部分,研究發(fā)現(xiàn):

數(shù)據(jù)集規(guī)模與質(zhì)量的平衡:通過引入外部知識(shí)的數(shù)據(jù)集,能夠提高數(shù)據(jù)的質(zhì)量,但這也增加了構(gòu)建成本。而自我標(biāo)注的方法雖然能夠大規(guī)模生成數(shù)據(jù),但由于MLLM的性能限制,當(dāng)前的自我標(biāo)注數(shù)據(jù)集質(zhì)量仍較低,且存在一定的分布偏移問題。

自動(dòng)化增強(qiáng)的潛力:隨著自動(dòng)化數(shù)據(jù)增強(qiáng)技術(shù)的發(fā)展,未來的自我標(biāo)注方法將可能解決當(dāng)前數(shù)據(jù)質(zhì)量低的問題,并提高數(shù)據(jù)的多樣性和可信度。

總的來說,數(shù)據(jù)集的構(gòu)建方法和質(zhì)量控制是影響MLLM對(duì)齊效果的關(guān)鍵因素,未來的研究應(yīng)關(guān)注如何在保證數(shù)據(jù)質(zhì)量的同時(shí),降低成本并提高數(shù)據(jù)集的規(guī)模。

模型評(píng)估

現(xiàn)有的MLLM對(duì)齊評(píng)估基準(zhǔn)被分為六個(gè)關(guān)鍵維度:

通用知識(shí)(評(píng)估基礎(chǔ)能力)、幻覺(衡量生成內(nèi)容與事實(shí)的一致性)、安全性(評(píng)估響應(yīng)中降低風(fēng)險(xiǎn)的能力)、對(duì)話(測(cè)試模型是否能輸出用戶要求的內(nèi)容)、獎(jiǎng)勵(lì)模型(評(píng)估獎(jiǎng)勵(lì)模型的表現(xiàn))和與人類偏好的對(duì)齊

通用知識(shí)

大多數(shù)基準(zhǔn)優(yōu)先考慮高質(zhì)量、人工注釋的數(shù)據(jù)集,這些數(shù)據(jù)集專門為實(shí)際應(yīng)用場(chǎng)景量身定制。

例如,MME-RealWorld包含來自13K張圖像的29K個(gè)問答對(duì),MMMU包含來自學(xué)術(shù)來源的11.5K個(gè)問題。MMStar通過減少數(shù)據(jù)泄漏和強(qiáng)調(diào)視覺依賴性來增強(qiáng)可靠性。

許多基準(zhǔn)引入了創(chuàng)新方法,如MMBench的雙語評(píng)估與CircularEval,MMT-Bench的任務(wù)圖用于域內(nèi)外分析,以及BLINK專注于視覺感知任務(wù)。這些框架提升了評(píng)估精度,揭示了模型的局限性。

任務(wù)通常需要高級(jí)的多模態(tài)推理能力,例如MathVista的數(shù)學(xué)視覺整合、SQA3D的3D情境問答以及MMMU對(duì)圖表和地圖的覆蓋。

這些基準(zhǔn)推動(dòng)模型解決跨學(xué)科的挑戰(zhàn),通過策劃具有挑戰(zhàn)性的、細(xì)粒度的任務(wù)(如MVBench中的時(shí)間理解、Mantis-Instruct中的多圖像處理),旨在提升模型解決現(xiàn)實(shí)世界問題的能力,特別是在細(xì)致感知和推理方面。

幻覺

這些基準(zhǔn)系統(tǒng)地識(shí)別并分類多模態(tài)模型中的幻覺問題,包括對(duì)象幻覺(Object HalBench)、內(nèi)在和外在幻覺(VideoHallucer)以及關(guān)聯(lián)偏差(VALOR-Eval)。它們強(qiáng)調(diào)在視覺、文本和序列上下文中的細(xì)粒度評(píng)估。

許多基準(zhǔn)提出了創(chuàng)新的框架,例如基于投票的查詢(POPE)、LLM驅(qū)動(dòng)的評(píng)分(HaELM、RefoMB)、開放詞匯檢測(cè)(OpenCHAIR)、無注釋評(píng)估(GAVIE)、無LLM管道(AMBER)和GPT-4輔助的推理分析(Mementos)。

這些方法強(qiáng)調(diào)自動(dòng)化、可擴(kuò)展的評(píng)估,同時(shí)解決數(shù)據(jù)泄漏和語言先驗(yàn)等問題。

數(shù)據(jù)集優(yōu)先采用細(xì)粒度的人類注釋(M-HalDetect、HallusionBench)和合成數(shù)據(jù)生成(VHTest、MHaluBench),它們平衡了現(xiàn)實(shí)世界的復(fù)雜性(PhD的反常識(shí)圖像、ActivityNet-QA的58K問答對(duì))和受控挑戰(zhàn)(R-Bench的魯棒性分析)。

一些基準(zhǔn)專注于特定任務(wù),如多語言支持(MHumanEval),而另一些則處理更廣泛的問題,如偏見和干擾(Bingo)。所有這些都旨在提高模型在實(shí)際場(chǎng)景中的魯棒性。

通過提出對(duì)齊策略(如RLAIF-V的開源反饋)并提出統(tǒng)一框架(HQH),這些基準(zhǔn)為開發(fā)更可靠的多模態(tài)系統(tǒng)提供了指導(dǎo)。

安全性

一些研究引入了新穎的技術(shù),例如基于擴(kuò)散的對(duì)抗性攻擊(AdvDiffVLM)、紅隊(duì)框架(RTVLM)和后期微調(diào)策略(VLGuard)。

這些方法通過模擬現(xiàn)實(shí)世界威脅或提升模型的抗干擾能力來增強(qiáng)評(píng)估的嚴(yán)謹(jǐn)性。

像MultiTrust和RTVLM這樣的基準(zhǔn)通過多個(gè)維度統(tǒng)一了可信度評(píng)估(如真實(shí)性、公平性),而另一些基準(zhǔn)則專注于特定挑戰(zhàn),如超出分布(OOD)泛化(VLLM-safety-bench)或過度敏感性(MOSSBench)。這些基準(zhǔn)為模型的限制提供了整體的見解。

MM-RLHF-SafetyBench從現(xiàn)有數(shù)據(jù)集中進(jìn)行采樣,進(jìn)一步涵蓋了如對(duì)抗性攻擊、隱私、紅隊(duì)攻擊和有害內(nèi)容檢測(cè)等領(lǐng)域。

對(duì)話

這些基準(zhǔn)優(yōu)先評(píng)估基礎(chǔ)的視覺技能,如低級(jí)感知能力(Q-Bench、LLVisionQA)、低級(jí)信息的描述能力(LLDescribe)和質(zhì)量評(píng)估。

它們強(qiáng)調(diào)模型解釋和表達(dá)細(xì)粒度視覺信息的能力。

幾個(gè)基準(zhǔn)測(cè)試了模型在具有挑戰(zhàn)性場(chǎng)景中的泛化能力,包括非常規(guī)圖像(LLaVA Bench-Wilder)、跨領(lǐng)域任務(wù)(LiveBench的數(shù)學(xué)/新聞?wù)希┖蛯?duì)抗性提示(Vibe-Eval的高難度問題)。這些基準(zhǔn)揭示了模型在標(biāo)準(zhǔn)數(shù)據(jù)集之外的適應(yīng)能力。

獎(jiǎng)勵(lì)模型

每個(gè)基準(zhǔn)都針對(duì)特定的評(píng)估維度,例如多語言能力(M-RewardBench中的23種語言)、對(duì)齊/安全性/偏見(MJ-Bench)、通過人類注釋增強(qiáng)可解釋性和最終模型評(píng)分能力(MM-RLHF-RewardBench)以及MLLM在輔助評(píng)判者跨多種模態(tài)中的能力(MLLM-as-a-Judge的評(píng)分與成對(duì)比較)。

這些框架揭示了模型在結(jié)構(gòu)化和OOD場(chǎng)景中的優(yōu)缺點(diǎn)。

高質(zhì)量的數(shù)據(jù)集通過人類與AI合作(如VL-RewardBench的注釋管道)或結(jié)構(gòu)化三元組設(shè)計(jì)(RewardBench)策劃而成,任務(wù)從簡(jiǎn)單的偏好排序到復(fù)雜的推理,推動(dòng)模型處理如幻覺和倫理對(duì)齊等細(xì)致挑戰(zhàn)。

對(duì)齊

一些基準(zhǔn)研究了模型與人類偏好的對(duì)齊能力。

Arena-Hard是一個(gè)全面的多維度基準(zhǔn),旨在評(píng)估中文LLM的對(duì)齊能力。AlpacaEval-V2提出了一種簡(jiǎn)單的回歸分析方法,用于控制自評(píng)中的長(zhǎng)度偏差。Arena-Hard通過增加模型性能的分離度三倍,達(dá)到了98.6%的與人類偏好排名的相關(guān)性。MM-AlignBench是一個(gè)專門設(shè)計(jì)的手工注釋基準(zhǔn),旨在評(píng)估與人類價(jià)值觀的對(duì)齊。

總體而言,許多當(dāng)前的MLLM對(duì)齊算法側(cè)重于防止模型生成幻覺,同時(shí)探索如何利用對(duì)齊算法提升MLLM的通用知識(shí)和對(duì)話能力,這是未來的重要方向。

一些研究者將不安全的響應(yīng)視為與人類偏好不對(duì)齊,因此應(yīng)用MLLM對(duì)齊算法來解決安全問題。這些框架中獎(jiǎng)勵(lì)模型的有效性,尤其是在引導(dǎo)對(duì)齊方面的表現(xiàn),值得進(jìn)一步研究。

此外,針對(duì)與人類偏好的對(duì)齊,基準(zhǔn)也從LLM領(lǐng)域發(fā)展到了MLLM領(lǐng)域。

未來工作與挑戰(zhàn)

隨著多模態(tài)大型語言模型(MLLM)的迅速發(fā)展,將它們與人類偏好對(duì)齊已經(jīng)成為研究的重點(diǎn)。然而,仍然存在若干挑戰(zhàn)。

首先,高質(zhì)量和多樣化數(shù)據(jù)集的稀缺問題仍然未得到有效解決。其次,許多方法未能有效利用視覺信息,往往主要依賴文本來構(gòu)建正負(fù)樣本,忽略了多模態(tài)數(shù)據(jù)的全部潛力。此外,缺乏全面的評(píng)估標(biāo)準(zhǔn),當(dāng)前的方法通常僅在幻覺或?qū)υ捜蝿?wù)等特定類型的基準(zhǔn)上進(jìn)行驗(yàn)證,這使得它們的普適性難以評(píng)估。

通過借鑒LLM后期訓(xùn)練策略和智能體研究的進(jìn)展,可以揭示現(xiàn)有MLLM對(duì)齊方法中的局限性。克服這些挑戰(zhàn)對(duì)于開發(fā)更強(qiáng)大和全面的對(duì)齊方法至關(guān)重要。

數(shù)據(jù)挑戰(zhàn)

MLLM對(duì)齊面臨兩個(gè)關(guān)鍵的數(shù)據(jù)相關(guān)挑戰(zhàn):數(shù)據(jù)質(zhì)量和覆蓋范圍。

首先,高質(zhì)量的MLLM對(duì)齊數(shù)據(jù)的可用性有限。與LLM相比,獲取和注釋多模態(tài)數(shù)據(jù)要復(fù)雜得多,因?yàn)樗婕岸鄠€(gè)模態(tài)的處理。

其次,現(xiàn)有數(shù)據(jù)集在涵蓋多樣化多模態(tài)任務(wù)方面存在不足,例如光學(xué)字符識(shí)別、數(shù)學(xué)問題和圖表理解等任務(wù)。構(gòu)建一個(gè)涵蓋廣泛任務(wù)的綜合數(shù)據(jù)集是一項(xiàng)極具挑戰(zhàn)的工作。

據(jù)作者所知,目前沒有一個(gè)公開的、完全人工注釋的多模態(tài)數(shù)據(jù)集樣本量超過200,000個(gè)。

這些在數(shù)據(jù)質(zhì)量和覆蓋范圍方面的限制,成為有效對(duì)齊MLLM的重大障礙。

利用視覺信息進(jìn)行對(duì)齊

目前的對(duì)齊數(shù)據(jù)可以表示為:偏好數(shù)據(jù)D=(x, I, yw, yl),其中x是問題,I是圖像,yw、yl分別表示正確和錯(cuò)誤的響應(yīng)。

在當(dāng)前的研究中,主要有三種方法用于利用視覺信息來增強(qiáng)對(duì)齊性能,但每種方法都有其局限性:

  • 使用破損或無關(guān)圖像作為對(duì)齊階段的負(fù)樣本。

研究人員創(chuàng)建新的圖像Ineg,并使用(yw|X, Ineg)作為負(fù)樣本。此方法通過減少幻覺和提高M(jìn)LLM對(duì)不同圖像的魯棒性來改善對(duì)齊效果。然而,視覺負(fù)樣本通常依賴于擴(kuò)散算法或圖像修改,這些方法缺乏強(qiáng)有力的質(zhì)量度量,并且計(jì)算成本較高。

  • 基于破損圖像生成新的問題和答案。

在這種方法中,研究人員創(chuàng)建一個(gè)新的圖像Ineg,使用該圖像生成額外的響應(yīng)yneg,然后將(yneg|X, I)視為負(fù)樣本。此方法增加了文本比較的多樣性,但生成額外負(fù)樣本的過程增加了計(jì)算開銷。

  • 使用像CLIP這樣的余弦相似度度量來評(píng)估文本-圖像匹配。

該方法通過計(jì)算文本與圖像之間的相似度分?jǐn)?shù)來篩選數(shù)據(jù),或?qū)⑵渥鳛閺?qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)的一部分。雖然這種方法有助于減少數(shù)據(jù)噪聲,但評(píng)分的質(zhì)量依賴于評(píng)估模型的質(zhì)量,可能受到模型偏見的影響。

每種方法在利用視覺數(shù)據(jù)增強(qiáng)MLLM對(duì)齊方面都有一定的作用,但在效率、成本和潛在偏見方面存在權(quán)衡。

綜合評(píng)估

大多數(shù)MLLM對(duì)齊研究主要評(píng)估其算法在幻覺、對(duì)話能力或安全性等幾個(gè)關(guān)鍵領(lǐng)域的表現(xiàn)。

然而,未來的研究應(yīng)采用更全面的評(píng)估方法,跨更廣泛的任務(wù)評(píng)估對(duì)齊方法,以更好地展示其普適性和有效性。

全模態(tài)對(duì)齊

Align-anything開創(chuàng)了通過多模態(tài)數(shù)據(jù)集“align-anything-200k”實(shí)現(xiàn)全模態(tài)對(duì)齊的研究,涵蓋了文本、圖像、音頻和視頻。這項(xiàng)研究展示了不同模態(tài)之間的互補(bǔ)效應(yīng)。

然而,他們的工作仍處于初期階段,每種模態(tài)的數(shù)據(jù)集相對(duì)較小,限制了其任務(wù)覆蓋范圍。

此外,提出的算法僅是DPO方法的初步改進(jìn),未能充分利用每種模態(tài)固有的獨(dú)特結(jié)構(gòu)信息。

未來,超越圖像/文本領(lǐng)域的對(duì)齊算法設(shè)計(jì),尤其是針對(duì)其他模態(tài)的對(duì)齊,將是一個(gè)關(guān)鍵的趨勢(shì)。

MLLM推理

最近,由OpenAI(o1)和DeepSeek-R1代表的推理LLM已經(jīng)證明,強(qiáng)化學(xué)習(xí)算法和偏好數(shù)據(jù)對(duì)于提高LLM在復(fù)雜問題求解、長(zhǎng)時(shí)上下文理解和生成任務(wù)中的表現(xiàn)至關(guān)重要。

本文將探討從LLM推理增強(qiáng)研究中獲得的洞察及其對(duì)對(duì)齊MLLM的影響,主要從數(shù)據(jù)和優(yōu)化框架兩個(gè)維度進(jìn)行分析。

(1) 數(shù)據(jù)。

  • 規(guī)模與質(zhì)量。對(duì)應(yīng)的方法逐漸從小模型重采樣(如OpenMathInstruct)發(fā)展到高質(zhì)量合成數(shù)據(jù)(如AceMath),并逐步采用尖端模型(如OpenAI o1)和通過領(lǐng)域?qū)S媚P秃铣蓴?shù)據(jù)實(shí)現(xiàn)可擴(kuò)展的知識(shí)遷移(如DeepSeek-V3)。

目前,用于推理增強(qiáng)的數(shù)據(jù)集普遍達(dá)到百萬樣本規(guī)模(如Qwen-2.5-MATH)。

  • 效率。采用“少即是多”的對(duì)齊(如LIMA的1k樣本用于65B Llama)證明了最少的高質(zhì)量數(shù)據(jù)能夠最優(yōu)地激活預(yù)訓(xùn)練能力,同時(shí)減少對(duì)數(shù)據(jù)規(guī)模的依賴。

(2) 優(yōu)化框架。

  • 采樣策略。最近的進(jìn)展表明,在線強(qiáng)化學(xué)習(xí)(RL)逐漸成為主流方法,DeepSeek-V3和Qwen-2.5-MATH的在線采樣方法有效地緩解了分布偏移。

此外,Mini-Max采用了離線+在線采樣策略,進(jìn)一步提升了模型性能。

  • 訓(xùn)練范式。多階段、協(xié)作優(yōu)化已成為主流方法。

例如,Llama 3包含了六輪DPO迭代,而DeepSeek通過溫度變化的采樣和反射/驗(yàn)證提示來優(yōu)化推理深度(長(zhǎng)鏈?zhǔn)酵评恚┖秃?jiǎn)潔性。

  • 算法。強(qiáng)化學(xué)習(xí)算法從早期的策略梯度方法發(fā)展到更復(fù)雜的PPO,最近基于PPO的改進(jìn)主要有兩個(gè)方向:

一個(gè)是去除評(píng)估模型并用稀疏獎(jiǎng)勵(lì)訓(xùn)練策略,從而減少一半的參數(shù)量(如DPO和GRPO);另一個(gè)是精煉評(píng)估模型的設(shè)計(jì),例如引入比率作為優(yōu)勢(shì)函數(shù)的PRIME和通過重塑正負(fù)樣本獎(jiǎng)勵(lì)的OREAL。

通過優(yōu)先考慮高質(zhì)量數(shù)據(jù)和創(chuàng)新的優(yōu)化框架,MLLM領(lǐng)域正朝著更有效、可擴(kuò)展的模型發(fā)展,這些模型也能更好地解鎖MLLM的推理潛力。

LLM對(duì)齊的啟示

對(duì)LLM的對(duì)齊已經(jīng)成為最近研究的一個(gè)關(guān)鍵焦點(diǎn),提供了許多有價(jià)值的見解,可以為MLLM的開發(fā)提供指導(dǎo)。通過審視現(xiàn)有LLM對(duì)齊策略的經(jīng)驗(yàn)教訓(xùn),可以揭示出有助于提升MLLM研究的關(guān)鍵原則:

(1) 提高訓(xùn)練效率。

當(dāng)前MLLM的對(duì)齊方法依賴于DPO損失函數(shù)。然而,由于DPO需要同時(shí)加載策略模型和參考模型,訓(xùn)練速度會(huì)顯著下降。是否可以利用類似SimPO的無參考方法進(jìn)一步提升訓(xùn)練效率?

這一方法可能加速訓(xùn)練過程,同時(shí)減少對(duì)參考模型的依賴。進(jìn)一步研究參考模型在MLLM對(duì)齊中的具體作用和影響,對(duì)于提高效率和優(yōu)化模型設(shè)計(jì)至關(guān)重要。

(2) 減輕過度優(yōu)化/獎(jiǎng)勵(lì)黑客問題。

在使用DPO或RLHF進(jìn)行LLM對(duì)齊時(shí),過度優(yōu)化仍然是一個(gè)關(guān)鍵挑戰(zhàn),即通過學(xué)習(xí)到的代理獎(jiǎng)勵(lì)模型來提高性能,但真正的質(zhì)量可能停滯或退化。

為應(yīng)對(duì)這一挑戰(zhàn),解決策略包括:

  • 使用平衡的訓(xùn)練數(shù)據(jù)集確保多樣性和代表性,防止過于狹窄的優(yōu)化;
  • 在驗(yàn)證性能平穩(wěn)時(shí)實(shí)施早停;
  • 引入正則化技術(shù),減少對(duì)訓(xùn)練數(shù)據(jù)的過度依賴,提高模型的泛化能力。

MLLM作為智能體

MLLM結(jié)合了LLM強(qiáng)大的推理能力和處理來自多種模態(tài)(如圖像、文本和音頻)數(shù)據(jù)的能力。這使得它們能夠從多種信息源中提取知識(shí)并進(jìn)行綜合分析,在處理復(fù)雜的現(xiàn)實(shí)任務(wù)中具有很大優(yōu)勢(shì)。

然而,要將MLLM轉(zhuǎn)變?yōu)楦咝У闹悄荏w,仍然需要解決幾個(gè)待處理的問題。

  • 多智能體協(xié)作。
    目前,針對(duì)基于文本的智能體的多智能體協(xié)作框架已取得顯著進(jìn)展,但基于MLLM的多智能體系統(tǒng)仍缺乏成熟的解決方案。
  • 魯棒性。
    MLLM智能體在開放環(huán)境中的魯棒性尚未得到系統(tǒng)驗(yàn)證,需引入對(duì)抗性魯棒性測(cè)試和保障技術(shù)。
  • 安全性。
    MLLM智能體中引入更多復(fù)雜組件增加了安全風(fēng)險(xiǎn),未來的研究應(yīng)探索多種安全保護(hù)機(jī)制,以減輕這些風(fēng)險(xiǎn)。

論文鏈接:https://arxiv.org/pdf/2503.14504
GitHub鏈接:https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Alignment

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
它能一步步榨干你的腎!有這些征兆一定要重視了

它能一步步榨干你的腎!有這些征兆一定要重視了

大象新聞
2025-04-11 09:34:02
洋媳婦父母空運(yùn)冰棺接女兒回家,中國(guó)丈夫跪求留華,誰懂這份痛?

洋媳婦父母空運(yùn)冰棺接女兒回家,中國(guó)丈夫跪求留華,誰懂這份痛?

花生科技雜談
2025-04-11 14:41:22
關(guān)稅戰(zhàn)將終:中國(guó)不再理會(huì)!美承認(rèn)決策欠妥,不要求中方先打電話

關(guān)稅戰(zhàn)將終:中國(guó)不再理會(huì)!美承認(rèn)決策欠妥,不要求中方先打電話

陳意小可愛
2025-04-11 21:24:51
成本3.64億,票房只有87萬,好萊塢第一巨星跌落“神壇”

成本3.64億,票房只有87萬,好萊塢第一巨星跌落“神壇”

影視高原說
2025-04-12 07:32:33
明白阿諾為何對(duì)董力百依百順了

明白阿諾為何對(duì)董力百依百順了

萱小蕾o
2025-04-11 22:05:42
勇士贏球,暫升西部第6,仍未鎖定正賽資格!競(jìng)爭(zhēng)對(duì)手希望更大

勇士贏球,暫升西部第6,仍未鎖定正賽資格!競(jìng)爭(zhēng)對(duì)手希望更大

郝小小看體育
2025-04-12 12:20:57
“女霸總”葉海洋再遭前女友曝料!助理插足要八字,炸裂細(xì)節(jié)曝光

“女霸總”葉海洋再遭前女友曝料!助理插足要八字,炸裂細(xì)節(jié)曝光

裕豐娛間說
2025-04-12 12:01:48
西安已出現(xiàn)11級(jí)大風(fēng)!西安北站:臨時(shí)停運(yùn)!

西安已出現(xiàn)11級(jí)大風(fēng)!西安北站:臨時(shí)停運(yùn)!

91.6陜西交通廣播
2025-04-12 12:53:59
沙特記者:小因扎吉在考慮利雅得新月的報(bào)價(jià),但沒有做出最終決定

沙特記者:小因扎吉在考慮利雅得新月的報(bào)價(jià),但沒有做出最終決定

雷速體育
2025-04-12 09:28:07
關(guān)稅暴漲150%?中國(guó)會(huì)怕?外交部公布毛主席講話視頻,特朗普聽好

關(guān)稅暴漲150%?中國(guó)會(huì)怕?外交部公布毛主席講話視頻,特朗普聽好

說天說地說實(shí)事
2025-04-11 20:55:47
錫安場(chǎng)外生活太豐富了!兩名女友在其家中互毆,驚動(dòng)警方

錫安場(chǎng)外生活太豐富了!兩名女友在其家中互毆,驚動(dòng)警方

仰臥撐FTUer
2025-04-10 12:09:06
白宮警告中國(guó)繼續(xù)報(bào)復(fù)會(huì)對(duì)中國(guó)不利

白宮警告中國(guó)繼續(xù)報(bào)復(fù)會(huì)對(duì)中國(guó)不利

風(fēng)華講史
2025-04-12 10:40:11
沖上熱搜!浙江義烏 “最牛老板娘”霸氣喊話美國(guó)客戶→

沖上熱搜!浙江義烏 “最牛老板娘”霸氣喊話美國(guó)客戶→

第一財(cái)經(jīng)資訊
2025-04-12 11:00:58
華南師范大學(xué)連夜通報(bào):成立調(diào)查組第一時(shí)間啟動(dòng)調(diào)查

華南師范大學(xué)連夜通報(bào):成立調(diào)查組第一時(shí)間啟動(dòng)調(diào)查

新京報(bào)政事兒
2025-04-11 07:31:53
中國(guó)的出生率,永遠(yuǎn)都不會(huì)回來了

中國(guó)的出生率,永遠(yuǎn)都不會(huì)回來了

請(qǐng)辯
2024-04-23 13:50:49
“包青天”金超群現(xiàn)狀:腦瘤已康復(fù),無兒無女,和妻子定居青島

“包青天”金超群現(xiàn)狀:腦瘤已康復(fù),無兒無女,和妻子定居青島

春秋論娛
2025-04-09 22:20:03
1955年授銜大典結(jié)束,主席突然盯著一將領(lǐng)質(zhì)問:莫非你把我忘了

1955年授銜大典結(jié)束,主席突然盯著一將領(lǐng)質(zhì)問:莫非你把我忘了

紀(jì)實(shí)文錄
2025-04-12 11:50:49
美國(guó)震驚了,中國(guó)向世界發(fā)行美元債了

美國(guó)震驚了,中國(guó)向世界發(fā)行美元債了

芯怡飛
2024-11-15 12:56:36
這次關(guān)稅戰(zhàn)勝利后 :沒有哪個(gè)國(guó)家敢輕易對(duì)中國(guó)展開關(guān)稅戰(zhàn)

這次關(guān)稅戰(zhàn)勝利后 :沒有哪個(gè)國(guó)家敢輕易對(duì)中國(guó)展開關(guān)稅戰(zhàn)

滄海一書客
2025-04-12 09:27:44
浙江女子因穿特色衣服坐地鐵引發(fā)熱議,網(wǎng)友感嘆形象受損。

浙江女子因穿特色衣服坐地鐵引發(fā)熱議,網(wǎng)友感嘆形象受損。

星辰生肖館
2025-01-25 00:32:27
2025-04-12 14:27:00
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
10303文章數(shù) 176094關(guān)注度
往期回顧 全部

科技要聞

單臺(tái)年入20萬!首批人形機(jī)器人致富者來了

頭條要聞

特朗普“出手”:把白宮奧巴馬肖像換成了自己的

頭條要聞

特朗普“出手”:把白宮奧巴馬肖像換成了自己的

體育要聞

當(dāng)意甲冠軍跌入意乙降級(jí)區(qū) 老男孩們坐不住了

娛樂要聞

25歲女歌手突然離世,和大S死因相似

財(cái)經(jīng)要聞

造假累計(jì)數(shù)百億 揭秘東旭集團(tuán)造假手法

汽車要聞

審美和深層次豪華 阿維塔06都辦到了

態(tài)度原創(chuàng)

本地
家居
時(shí)尚
教育
公開課

本地新聞

華北將迎“歷史罕見”大風(fēng)

家居要聞

浪漫與優(yōu)雅 不被定義的現(xiàn)代法式

繼德訓(xùn)鞋、老爹鞋之后,今年輪到這雙運(yùn)動(dòng)鞋刷屏!

教育要聞

留學(xué)生分享:除了學(xué)習(xí),在韓國(guó)留學(xué)還可以做什么?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 泾川县| 桂林市| 汶上县| 来安县| 康马县| 安化县| 林周县| 武清区| 临安市| 平阴县| 获嘉县| 平舆县| 甘肃省| 南投县| 韶山市| 巫山县| 河源市| 阳春市| 永修县| 彭州市| 韶山市| 扬中市| 霍林郭勒市| 且末县| 英超| 阿瓦提县| 玛沁县| 防城港市| 冷水江市| 新巴尔虎左旗| 深圳市| 永嘉县| 库尔勒市| 庆云县| 奉贤区| 昌吉市| 江西省| 景东| 兴国县| 宜兰县| 菏泽市|