99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

UniToken:多模態“全能選手”,一次編碼搞定圖文理解與圖像生成

0
分享至

  • UniToken團隊 投稿
    量子位 | 公眾號 QbitAI

首次在統一框架內實現理解與生成的“雙優表現”,打破了多模態統一建模的僵局!

復旦大學和美團的研究者們提出了UniToken——一種創新的統一視覺編碼方案,在一個框架內兼顧了圖文理解與圖像生成任務,并在多個權威評測中取得了領先的性能表現。

UniToken通過融合連續和離散視覺表征,有效緩解了以往方法中“任務干擾”和“表示割裂”的問題,為多模態統一建模提供了新的范式。



為了便于社區內研究者們復現與進一步開發,UniToken團隊已將代碼與模型全部開源。



任務背景:統一建模的挑戰

在傳統圖文理解或圖像生成模型中,其視覺編碼的底層特性差異較大。

譬如圖文理解模型(如LLaVA、Qwen-VL等)要求從圖像中抽取高層語義,從而進一步結合文本進行協同理解;而圖像生成模型(如DALL-E、Stable Diffusion等)則要求保留充分的底層細節以高保真圖像的生成。

由此,開發理解生成一體化的多模態大模型面臨著以下幾大難題:

視覺編碼割裂:理解任務偏好具有高層語義的連續視覺特征(如CLIP),而生成任務依賴保留底層細節的離散視覺特征(如VQ-GAN編碼的codebook);

聯合訓練干擾:理解與生成任務差異而帶來的沖突性使得在統一模型中訓練時難以兼顧兩個任務的性能,存在“一個優化,另一個退化”的現象。

為了應對上述挑戰,領域內的相關工作通常采取兩類范式:以VILA-U等為代表的工作通過結合圖像重建與圖文對比學習的訓練目標,來提升離散視覺編碼的語義豐富度;以Janus等為代表的工作通過為理解和生成任務分別定制相應的視覺編碼器與預測頭,來實現兩個任務之間的解耦。

然而,前者在理解任務上目前依舊難以與連續視覺編碼驅動的多模態大模型匹敵;后者則在應對更復雜的多模任務(例如多輪圖像編輯等)時面臨嚴重的上下文切換開銷及單邊信息缺失等問題。

UniToken:統一視覺表示,融合兩種世界
核心設計:連續+離散雙編碼器



不同于Janus的多任務解耦的設計思路,UniToken為所有下游任務均提供一套完備的視覺信息,促使多模態大模型以指令驅動的形式從中吸收相應的知識。

具體而言,UniToken采取統一的雙邊視覺編碼器,其中將VQ-GAN的離散編碼與SigLIP的連續表征以下述方式進行拼接,從而得到一套兼備高層語義與底層細節的視覺編碼:

[BOS][BOI]{離散圖像token}[SEP]{連續圖像embedding}[EOI]{文本}[EOS]

多階段訓練策略

為了協調理解與生成任務的特性,UniToken采用三階段訓練流程:

階段一:視覺語義空間對齊:

基于Chameleon作為基座,本階段旨在為LLM接入SigLIP的連續視覺編碼。為此,在訓練時凍結LLM,僅訓練SigLIP ViT和Adapter,使其輸出與語言空間對齊。

階段二:多任務聯合訓練:

基于第一階段對齊后的雙邊編碼器所提供的完備視覺信息,本階段在大規模圖文理解與圖像生成數據集上聯合訓練,通過控制數據配比(10M:10M)以均衡提升模型理解與生成任務的性能。

階段三:指令強化微調:

通過測試發現,第二階段訓練后的模型在指令跟隨、布局圖像生成等方面的表現均有待加強,故在本階段進一步引入高質量多模態對話(423K)與精細化圖像生成數據(100K),進一步增強模型對復雜指令的跟隨能力。

細粒度視覺增強

得益于保存了雙邊視覺編碼的完備性,UniToken可無縫銜接現有的細粒度視覺增強技術。

具體而言,UniToken在連續視覺編碼側引入兩項增強策略:

AnyRes:將高分辨率圖像劃分為多個子圖,分別提取特征后進行相應空間位置的拼接,以提升對圖像的細粒度感知;

ViT端到端微調:在模型的全訓練流程中,動態微調連續視覺編碼器的權重,結合精細的學習率控制策略以避免模型崩潰,進而適應廣泛的任務場景。

實驗結果:超越SOTA,多模態統一的“優等生”

在多個主流多模態基準(圖文理解+圖像生成)上,UniToken均取得了媲美甚至領先于領域內專用模型的性能:





與此同時,研究者們對于訓練策略及視覺編碼的影響進行了進一步深入的消融分析:



  • 在大規模數據場景下(>15M),1:1的理解+生成數據比例能夠兼顧理解與生成任務的性能



  • 在應對理解與生成的任務沖突時,統一的連續+離散的視覺編碼相較于僅采用離散編碼的方案具有較強的魯棒性。

總結:邁向通用理解生成一體化的多模態大模型

從發展趨勢上來看,目前圖文理解模型在通用性上遠遠領先于圖像生成模型。

而Gemini-2.0-Flash與GPT-4o在指令跟隨的圖像生成方面的驚艷表現,帶來了通用圖像生成模型未來的曙光。

在這樣的時代背景下,UniToken僅是初步的嘗試,而其信息完備的特性也為進一步挖掘其更深層次的潛力提供了更多信心:

模型規模擴展:借助更大的語言模型,進一步探索統一模型在理解與生成上的“涌現能力”;

數據規模擴展:引入更大規模的訓練數據(如Janus-Pro使用的近2億樣本),推動模型性能極限;

任務類型擴展:從傳統的理解與生成拓展至圖像編輯、故事生成等圖文交錯的任務,追逐通用生成能力的上限。

論文鏈接:
https://arxiv.org/pdf/2504.04423

代碼地址:
https://github.com/SxJyJay/UniToken

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
反轉!維尼修斯拒絕續約:要求皇馬3000萬年薪,向C羅看齊

反轉!維尼修斯拒絕續約:要求皇馬3000萬年薪,向C羅看齊

葉青足球世界
2025-04-24 19:18:26
震驚!網傳一小區通知保安,只允許京東外賣進入,直言助力京東…

震驚!網傳一小區通知保安,只允許京東外賣進入,直言助力京東…

明月雜談
2025-04-24 15:09:41
網友:燒窗簾是典型的仙人跳手法,普通人多加注意……

網友:燒窗簾是典型的仙人跳手法,普通人多加注意……

小人物看盡人間百態
2025-04-22 14:45:55
我每次回婆家過年都丟首飾,今年我戴了假手鐲,成功揪出兇手

我每次回婆家過年都丟首飾,今年我戴了假手鐲,成功揪出兇手

林林故事揭秘
2025-04-22 17:50:38
特朗普再次回應加拿大:我在管理這個國家,而不是我在管理加拿大

特朗普再次回應加拿大:我在管理這個國家,而不是我在管理加拿大

風華講史
2025-04-24 21:05:03
賺走中國女人600億!被官媒揭穿的“防曬衣”,滿滿的都是套路

賺走中國女人600億!被官媒揭穿的“防曬衣”,滿滿的都是套路

史行途
2025-03-13 09:36:30
專家表示:不在乎失去美國市場,中國5000年大部分時間沒有美國!

專家表示:不在乎失去美國市場,中國5000年大部分時間沒有美國!

翻開歷史和現實
2025-04-15 11:01:12
除了楊瀚森,還有一名中國球員被NBA看中!22歲登陸NBA一點不晚

除了楊瀚森,還有一名中國球員被NBA看中!22歲登陸NBA一點不晚

弄月公子
2025-04-25 07:59:02
波音給中國回信了!要求中方接收飛機,還聲稱要再給中國一個機會

波音給中國回信了!要求中方接收飛機,還聲稱要再給中國一個機會

林子說事
2025-04-25 13:03:20
42萬人逃離山東,22萬人拋棄吉林!人口大遷徙中誰是最后贏家?

42萬人逃離山東,22萬人拋棄吉林!人口大遷徙中誰是最后贏家?

通文知史
2025-04-25 08:05:03
王楚欽飛成都一身名牌超12萬:1個包包近9萬,鞋子2萬,短袖超1萬

王楚欽飛成都一身名牌超12萬:1個包包近9萬,鞋子2萬,短袖超1萬

二哥聊球
2025-04-25 12:16:15
印巴接觸線發生交火!巴軍殲10C緊急升空,印軍無人機抵到邊境!

印巴接觸線發生交火!巴軍殲10C緊急升空,印軍無人機抵到邊境!

頭條爆料007
2025-04-25 18:00:31
外交部回應美方堅稱中美正在談判

外交部回應美方堅稱中美正在談判

財聯社
2025-04-25 15:32:04
男子酒后騎自行車被查酒駕,反問:我騎自行車喝酒怎么了?

男子酒后騎自行車被查酒駕,反問:我騎自行車喝酒怎么了?

張曉磊
2025-04-22 08:09:55
“特使”黃仁勛抵京,特朗普要給自己找臺階下,中方態度已有變化

“特使”黃仁勛抵京,特朗普要給自己找臺階下,中方態度已有變化

紅色鑒史官
2025-04-24 18:55:03
退休后才發現:同事、同學、朋友,只不過是你人生中的過客而已,你最重要的,只有你自己!

退休后才發現:同事、同學、朋友,只不過是你人生中的過客而已,你最重要的,只有你自己!

我是娛有理
2025-04-22 07:01:11
續航1937km!零自燃終身質保,限時一口價7.98萬,還要啥比亞迪?

續航1937km!零自燃終身質保,限時一口價7.98萬,還要啥比亞迪?

隔壁說車老王
2025-04-24 08:30:55
萊昂納德:隊友不僅僅只是指著我讓我防守,還在防守端激勵著我

萊昂納德:隊友不僅僅只是指著我讓我防守,還在防守端激勵著我

懂球帝
2025-04-25 14:12:14
中央定調!2025年養老金調整,1954~1959年的人有福了!多漲錢嗎

中央定調!2025年養老金調整,1954~1959年的人有福了!多漲錢嗎

社保小達人
2025-02-04 11:00:02
顧客買魚要求不宰殺被扔秤砣,武漢涉事魚販被行拘12天

顧客買魚要求不宰殺被扔秤砣,武漢涉事魚販被行拘12天

現代快報
2025-04-24 17:41:10
2025-04-25 20:39:00
量子位 incentive-icons
量子位
追蹤人工智能動態
10373文章數 176116關注度
往期回顧 全部

科技要聞

文心模型再降價80%,李彥宏:我打下了價格

頭條要聞

35歲程序員長期熬夜加班致腦干出血昏迷15天 本人發聲

頭條要聞

35歲程序員長期熬夜加班致腦干出血昏迷15天 本人發聲

體育要聞

?跑得最快的院長來啦!蘇炳添擔任暨大體育學院院長

娛樂要聞

王菲被諷刺為愚婦 張柏芝最終還是贏了

財經要聞

政治局會議傳遞積極信號 機構熱議6大看點

汽車要聞

"下一代純電寶馬"提前體驗 用代碼編譯駕駛樂趣

態度原創

數碼
藝術
親子
本地
公開課

數碼要聞

英特爾Panther Lake處理器首個SKU年底前推出 其余需待明年

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

親子要聞

來自二胎家庭的反轉,果然,人和人還是剛認識的時候好,網友:每一個二胎都躲不過姐姐的“教育”

本地新聞

云游湖北 | 漢川文旅新體驗:千年陶藝邂逅湖光

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 铜山县| 秦皇岛市| 措美县| 古交市| 宜兴市| 密山市| 贺兰县| 松溪县| 合江县| 红桥区| 大连市| 临安市| 嘉祥县| 绥芬河市| 博白县| 大荔县| 东丽区| 湾仔区| 甘德县| 大埔县| 桂平市| 武隆县| 定陶县| 平阴县| 芦溪县| 京山县| 淮安市| 泸州市| 黔南| 浦县| 克什克腾旗| 中牟县| 巴楚县| 屏南县| 尼勒克县| 新邵县| 余江县| 隆回县| 沙湾县| 上犹县| 临泉县|