網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

UniToken：多模態(tài)“全能選手”，一次編碼搞定圖文理解與圖像生成

2025-04-25 14:45:51　來源: 量子位

北京舉報

分享至

UniToken團隊投稿
量子位 | 公眾號 QbitAI

首次在統(tǒng)一框架內(nèi)實現(xiàn)理解與生成的“雙優(yōu)表現(xiàn)”，打破了多模態(tài)統(tǒng)一建模的僵局！

復旦大學和美團的研究者們提出了UniToken——一種創(chuàng)新的統(tǒng)一視覺編碼方案，在一個框架內(nèi)兼顧了圖文理解與圖像生成任務，并在多個權威評測中取得了領先的性能表現(xiàn)。

UniToken通過融合連續(xù)和離散視覺表征，有效緩解了以往方法中“任務干擾”和“表示割裂”的問題，為多模態(tài)統(tǒng)一建模提供了新的范式。

為了便于社區(qū)內(nèi)研究者們復現(xiàn)與進一步開發(fā)，UniToken團隊已將代碼與模型全部開源。

任務背景：統(tǒng)一建模的挑戰(zhàn)

在傳統(tǒng)圖文理解或圖像生成模型中，其視覺編碼的底層特性差異較大。

譬如圖文理解模型（如LLaVA、Qwen-VL等）要求從圖像中抽取高層語義，從而進一步結(jié)合文本進行協(xié)同理解；而圖像生成模型（如DALL-E、Stable Diffusion等）則要求保留充分的底層細節(jié)以高保真圖像的生成。

由此，開發(fā)理解生成一體化的多模態(tài)大模型面臨著以下幾大難題：

視覺編碼割裂：理解任務偏好具有高層語義的連續(xù)視覺特征（如CLIP），而生成任務依賴保留底層細節(jié)的離散視覺特征（如VQ-GAN編碼的codebook）；

聯(lián)合訓練干擾：理解與生成任務差異而帶來的沖突性使得在統(tǒng)一模型中訓練時難以兼顧兩個任務的性能，存在“一個優(yōu)化，另一個退化”的現(xiàn)象。

為了應對上述挑戰(zhàn)，領域內(nèi)的相關工作通常采取兩類范式：以VILA-U等為代表的工作通過結(jié)合圖像重建與圖文對比學習的訓練目標，來提升離散視覺編碼的語義豐富度；以Janus等為代表的工作通過為理解和生成任務分別定制相應的視覺編碼器與預測頭，來實現(xiàn)兩個任務之間的解耦。

然而，前者在理解任務上目前依舊難以與連續(xù)視覺編碼驅(qū)動的多模態(tài)大模型匹敵；后者則在應對更復雜的多模任務（例如多輪圖像編輯等）時面臨嚴重的上下文切換開銷及單邊信息缺失等問題。

UniToken：統(tǒng)一視覺表示，融合兩種世界

核心設計：連續(xù)+離散雙編碼器

不同于Janus的多任務解耦的設計思路，UniToken為所有下游任務均提供一套完備的視覺信息，促使多模態(tài)大模型以指令驅(qū)動的形式從中吸收相應的知識。

具體而言，UniToken采取統(tǒng)一的雙邊視覺編碼器，其中將VQ-GAN的離散編碼與SigLIP的連續(xù)表征以下述方式進行拼接，從而得到一套兼?zhèn)涓邔诱Z義與底層細節(jié)的視覺編碼：

[BOS][BOI]{離散圖像token}[SEP]{連續(xù)圖像embedding}[EOI]{文本}[EOS]

多階段訓練策略

為了協(xié)調(diào)理解與生成任務的特性，UniToken采用三階段訓練流程：

階段一：視覺語義空間對齊：

基于Chameleon作為基座，本階段旨在為LLM接入SigLIP的連續(xù)視覺編碼。為此，在訓練時凍結(jié)LLM，僅訓練SigLIP ViT和Adapter，使其輸出與語言空間對齊。

階段二：多任務聯(lián)合訓練：

基于第一階段對齊后的雙邊編碼器所提供的完備視覺信息，本階段在大規(guī)模圖文理解與圖像生成數(shù)據(jù)集上聯(lián)合訓練，通過控制數(shù)據(jù)配比（10M:10M）以均衡提升模型理解與生成任務的性能。

階段三：指令強化微調(diào)：

通過測試發(fā)現(xiàn)，第二階段訓練后的模型在指令跟隨、布局圖像生成等方面的表現(xiàn)均有待加強，故在本階段進一步引入高質(zhì)量多模態(tài)對話（423K）與精細化圖像生成數(shù)據(jù)（100K），進一步增強模型對復雜指令的跟隨能力。

細粒度視覺增強

得益于保存了雙邊視覺編碼的完備性，UniToken可無縫銜接現(xiàn)有的細粒度視覺增強技術。

具體而言，UniToken在連續(xù)視覺編碼側(cè)引入兩項增強策略：

AnyRes：將高分辨率圖像劃分為多個子圖，分別提取特征后進行相應空間位置的拼接，以提升對圖像的細粒度感知；

ViT端到端微調(diào)：在模型的全訓練流程中，動態(tài)微調(diào)連續(xù)視覺編碼器的權重，結(jié)合精細的學習率控制策略以避免模型崩潰，進而適應廣泛的任務場景。

實驗結(jié)果：超越SOTA，多模態(tài)統(tǒng)一的“優(yōu)等生”

在多個主流多模態(tài)基準（圖文理解+圖像生成）上，UniToken均取得了媲美甚至領先于領域內(nèi)專用模型的性能：

與此同時，研究者們對于訓練策略及視覺編碼的影響進行了進一步深入的消融分析：

在大規(guī)模數(shù)據(jù)場景下（>15M），1:1的理解+生成數(shù)據(jù)比例能夠兼顧理解與生成任務的性能

在應對理解與生成的任務沖突時，統(tǒng)一的連續(xù)+離散的視覺編碼相較于僅采用離散編碼的方案具有較強的魯棒性。

總結(jié)：邁向通用理解生成一體化的多模態(tài)大模型

從發(fā)展趨勢上來看，目前圖文理解模型在通用性上遠遠領先于圖像生成模型。

而Gemini-2.0-Flash與GPT-4o在指令跟隨的圖像生成方面的驚艷表現(xiàn)，帶來了通用圖像生成模型未來的曙光。

在這樣的時代背景下，UniToken僅是初步的嘗試，而其信息完備的特性也為進一步挖掘其更深層次的潛力提供了更多信心：

模型規(guī)模擴展：借助更大的語言模型，進一步探索統(tǒng)一模型在理解與生成上的“涌現(xiàn)能力”；

數(shù)據(jù)規(guī)模擴展：引入更大規(guī)模的訓練數(shù)據(jù)（如Janus-Pro使用的近2億樣本），推動模型性能極限；

任務類型擴展：從傳統(tǒng)的理解與生成拓展至圖像編輯、故事生成等圖文交錯的任務，追逐通用生成能力的上限。

論文鏈接：
https://arxiv.org/pdf/2504.04423
代碼地址：
https://github.com/SxJyJay/UniToken

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.