近年來,基于大語言模型(LLM)的多模態任務處理能力取得了顯著進展,特別是在將視覺信息融入語言模型方面。像 QwenVL 和 InternVL 這樣的模型已經展示了在視覺理解方面的卓越表現,而以擴散模型為代表的文本到圖像生成技術也不斷突破,推動了統一多模態大語言模型(MLLM)的發展。這些技術的進步使得視覺理解和生成能力的無縫集成成為可能,進一步推進了視覺和語義深度融合下的人工通用智能(AGI)的探索。
新一代 GPT-4o 作為理解生成一體的模型,其強大的能力已經令人矚目。它不僅在語義理解和圖像生成方面展現出極高的準確性和流暢性,還特別擅長上下文感知生成(context-aware generation)和圖像編輯(image editing)任務。無論是在進行高精度的圖像生成,還是在復雜的圖像編輯任務中,GPT-4o 都能動態理解和生成符合上下文需求的內容,極大地增強了模型的實用性和靈活性。這使得 GPT-4o 能夠在多模態任務中更加高效地完成多種復雜場景下的理解與生成工作。
最近,華為諾亞盤古研究團隊聯合香港大學推出了ILLUME+,這款模型是 ILLUME 的升級版本,采用了雙重視覺聯合詞表(DualViTok)和擴散解碼器的創新設計,顯著提升了語義理解和高保真圖像生成能力。與當前現有的統一模型不同,ILLUME + 能夠在圖像理解、生成和編輯三大能力上達到優異的表現,解決了傳統模型在圖像紋理保持和語義對齊方面的難題。
- 鏈接:https://arxiv.org/abs/2504.01934
- 項目地址:https://illume-unified-mllm.github.io/
ILLUME + 在處理多模態任務時,展現出強大的上下文感知能力和語義深層交互能力,能夠更準確地理解和生成視覺與語言的關系。它的創新架構通過雙視覺聯合詞表(DualViTok)將語義信息與圖像細節同時保留,為圖像編輯和生成任務提供了更加精細的控制能力。此外,擴散解碼器的引入,不僅提升了生成圖像的質量,還使得超分辨率圖像生成變得更加高效,避免了傳統自回歸模型在高分辨率生成時的計算瓶頸。
而這正是目前行業所需要的一種能夠同時滿足理解、生成和編輯需求的統一架構。與新一代 GPT-4o 架構相比,ILLUME + 采用了類似的其官網中暗示的 Token→ [Transformer]→ [Diffusion]→ pixel 的結構,在語義理解和上下文感知生成能力上達到新的高度。我們認為,ILLUME + 所展示的架構,正是未來統一大語言模型發展的方向。
隨著我們對該架構的深入研究,ILLUME + 的 3B 模型在多模態理解、生成與編輯的基準測試中均展現出了卓越的性能(比肩 7B)。ILLUME + 的優勢不僅體現在單一任務的出色表現,更在于它能夠靈活適應多樣的應用場景,推動著多模態大語言模型向著更加智能化、可擴展的方向邁進。
ILLUME+ 關鍵技術點與模型架構
1. 雙重視覺聯合詞表(DualViTok)
ILLUME + 的核心創新之一是雙重視覺聯合詞表(DualViTok),該詞表通過兩條分支設計,分別處理圖像的語義信息和細節紋理。具體來說,語義分支利用預訓練的文本對齊視覺編碼器(如 QwenViT)提取高層次的語義特征,這些特征被量化為離散標記,并通過輕量級解碼器進行重建。同時,像素分支則通過 MoVQGAN 類似的架構進行像素級的細節重建,保證圖像細節的高保真度。
2. 擴散解碼器(Diffusion Decoder)
為進一步提升生成圖像的質量,ILLUME + 引入了擴散解碼器。該解碼器使用擴散模型進行圖像生成,顯著提高了圖像的細節和魯棒性。擴散解碼器還能夠進行高效的超分辨率生成,緩解了傳統自回歸生成方法在高分辨率生成時的 token 數目急劇增長帶來的推理速度瓶頸。通過這種設計,ILLUME + 能夠生成高分辨率圖像(最高可達 1024×1024),同時有效提高了圖像的細節和質量。
3. 連續輸入、離散輸出的 MLLM 架構
ILLUME + 采用了統一的多模態大語言模型(MLLM),該模型能夠同時生成文本和圖像,并通過共同的預測頭來進行聯合建模。ILLUME + 采用連續輸入、離散輸出的機制。在輸入端,直接使用視覺連接器連接離散化層前的視覺特征到 LLM 中。輸出端仍然保留統一輸出頭,以自回歸的形式預測文本 token 與視覺 token。這種機制確保了圖像輸入時不會因量化過程丟失細粒度信息,保證了模型在視覺理解任務中展現了更好的穩定性和細致的語義處理能力。在生成圖像時,ILLUME + 采用生成語義 token 后再生成紋理 token 的方式(Coarse-to-fine Unified Image Representation),由于圖像語義表征更容易和文本對齊,這種先語義再紋理的序列化方式,加速了文本和圖像細節紋理信息的對齊,從而提升生成圖像的高保真度和語義一致性。
4. 支持任意分辨率的漸進式訓練策略
ILLUME + 采用漸進式的訓練策略,從而使得詞表、MLLM 和 Diffusion decoder 三個模塊均支持動態分辨率的訓練與推理。訓練流程包括五個階段,逐步增強模型能力,確保穩定性和最終性能。下圖展示了我們的五個訓練階段的打開參數和每個階段的數據分布情況。
Dual Vision Tokenizer Training:訓練雙重視覺標記化器,通過重建語義和像素信息,逐步增加輸入分辨率,先訓練固定 256 分辨率,再訓練固定 512,最后訓練 512×512 以內的任意分辨率,確保模型在不同分辨率下的穩定訓練。該階段采用了 63M 訓練數據,包括自然圖像,美學圖像,人物肖像,文檔圖表類和學科類圖片數據。
Diffusion Decoder Training(擴散解碼器優化):進一步優化圖像生成質量,通過擴散模型提升生成細節,并進行圖像超分辨率輸出,解決自回歸方法的生成高分辨率速度瓶頸。訓練時,我們凍結視覺詞表中的編碼器和詞表的權重,打開 Diffusion 的參數進行訓練。為支持高分辨率,訓練分為兩個子階段,即先訓練像素數量在 512×512 左右的分辨率,再訓練像素數量在 1024×1024 左右的分辨率。該階段采用了 10M 與訓練視覺詞表相同分布的數據。
MLLM Stage 1: Visual Embedding Initialization:初始化 MLLM 中新增的視覺詞表與視覺連接器,優化圖像重建和描述任務,固定分辨率為 256×256,以獲得良好的視覺表示。
MLLM Stage 2: Unified Image-Text Alignment:通過多模態數據訓練,打開視覺適配器和語言模型,增強圖像與文本的語義對齊,先訓練分辨率 256×256,再提升至 512×512。
MLLM Stage 3: Supervised Fine-tuning:使用復雜的多任務數據進行微調,支持任意分辨率圖像輸入,以及高達 11 種不同長寬比的圖像生成,最高像素達到 1024×1024。
ILLUME+(3B) 實驗結果
實驗設置
在實驗中,ILLUME + 使用 Qwen2.5(3B)作為基礎大語言模型(LLM)。其 encoder 采用了預訓練的 QwenVIT 語義編碼器和基于 MoVQGAN 的像素編碼器架構。流程上打通了昇騰訓練與推理。訓練過程中,使用了 256 Ascend NPUs。其中,視覺詞表和 Diffusion 訓練 3+3 天;3B 的 MLLM 模型,經過三個階段的訓練,總訓練時間約為 13 天。
多分辨率文生圖可視化
多功能圖像編輯可視化
(注:這其中的很多任務比如 ghibli style 和 ID 保持的編輯并未特意制作過數據,但是竟然都能泛化出來,很神奇)
圖像理解可視化
與 SOTA 模型的比較
多模態理解:在多模態理解任務中,ILLUME + 在常用的基準測試(如 POPE、MMBench、SEED 等)上表現優秀,尤其在文檔相關任務中展現了優異的性能。盡管是 3B 模型,ILLUME + 在這些任務上與現有的 7B 模型如 Janus-Pro-7B 和 ILLUME-7B 相當,特別是在文檔理解任務中,得益于雙重編碼器設計,模型在保留強大理解能力方面取得了顯著優勢。
多模態圖像生成:在多模態圖像生成方面,ILLUME + 在 MJHQ-30K、GenAI-bench 和 GenEval 基準測試中取得了顯著成績。在 MJHQ-30K 的 FID 分數為 6.00,達到了最先進的生成質量和多樣性,在復雜文本描述生成方面獲得了很好的準確度。
多模態圖像編輯:在圖像編輯任務中,ILLUME + 在 Emu Edit 基準測試中優于專門的圖像編輯模型,特別是在 CLIP-T 評分上,表明其強大的理解能力增強了對編輯指令的解釋能力,實現了更加精確的修改。DualViTok 設計有效提高了與原始圖像的一致性,特別是在紋理信息處理上。
Tokenizer 的圖像重建:在 ImageNet 50k 驗證集上,DualViTok 在不同分辨率下的重建效果超越了多種現有的視覺標記化器,尤其在 256×256 分辨率下,展現了最優的性能。特別是在 384×384 分辨率下,DualViTok 相較于 VILA-U 有了顯著的提升,突出了其在處理不同輸入分辨率時的靈活性和高效性。
更多的 Ablation Study 可參看具體論文
結語
ILLUME + 通過創新的 DualViTok 保留圖像中的語義和細節紋理,并結合擴散解碼器提升圖像生成質量,實現了任意分辨率。憑借統一的粗到細圖像表示和動態視覺分辨率的漸進訓練過程,ILLUME + 僅用 3B 參數便能處理靈活分辨率的視覺輸入和輸出,并在多模態理解、生成和編輯任務中表現出色,在 context-aware 生成和泛化上表現出了令人意外的水平。
作者表示將會嘗試更大的模型,并且嘗試更多原生圖像 - 文本交織預訓練的效果,讓 ILLUME + 能夠真正在視覺任務上完成大一統。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.