99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

UniToken:多模態(tài)“全能選手”,一次編碼搞定圖文理解與圖像生成

0
分享至

  • UniToken團隊 投稿
    量子位 | 公眾號 QbitAI

首次在統(tǒng)一框架內(nèi)實現(xiàn)理解與生成的“雙優(yōu)表現(xiàn)”,打破了多模態(tài)統(tǒng)一建模的僵局!

復旦大學和美團的研究者們提出了UniToken——一種創(chuàng)新的統(tǒng)一視覺編碼方案,在一個框架內(nèi)兼顧了圖文理解與圖像生成任務,并在多個權威評測中取得了領先的性能表現(xiàn)。

UniToken通過融合連續(xù)和離散視覺表征,有效緩解了以往方法中“任務干擾”和“表示割裂”的問題,為多模態(tài)統(tǒng)一建模提供了新的范式。



為了便于社區(qū)內(nèi)研究者們復現(xiàn)與進一步開發(fā),UniToken團隊已將代碼與模型全部開源。



任務背景:統(tǒng)一建模的挑戰(zhàn)

在傳統(tǒng)圖文理解或圖像生成模型中,其視覺編碼的底層特性差異較大。

譬如圖文理解模型(如LLaVA、Qwen-VL等)要求從圖像中抽取高層語義,從而進一步結(jié)合文本進行協(xié)同理解;而圖像生成模型(如DALL-E、Stable Diffusion等)則要求保留充分的底層細節(jié)以高保真圖像的生成。

由此,開發(fā)理解生成一體化的多模態(tài)大模型面臨著以下幾大難題:

視覺編碼割裂:理解任務偏好具有高層語義的連續(xù)視覺特征(如CLIP),而生成任務依賴保留底層細節(jié)的離散視覺特征(如VQ-GAN編碼的codebook);

聯(lián)合訓練干擾:理解與生成任務差異而帶來的沖突性使得在統(tǒng)一模型中訓練時難以兼顧兩個任務的性能,存在“一個優(yōu)化,另一個退化”的現(xiàn)象。

為了應對上述挑戰(zhàn),領域內(nèi)的相關工作通常采取兩類范式:以VILA-U等為代表的工作通過結(jié)合圖像重建與圖文對比學習的訓練目標,來提升離散視覺編碼的語義豐富度;以Janus等為代表的工作通過為理解和生成任務分別定制相應的視覺編碼器與預測頭,來實現(xiàn)兩個任務之間的解耦。

然而,前者在理解任務上目前依舊難以與連續(xù)視覺編碼驅(qū)動的多模態(tài)大模型匹敵;后者則在應對更復雜的多模任務(例如多輪圖像編輯等)時面臨嚴重的上下文切換開銷及單邊信息缺失等問題。

UniToken:統(tǒng)一視覺表示,融合兩種世界
核心設計:連續(xù)+離散雙編碼器



不同于Janus的多任務解耦的設計思路,UniToken為所有下游任務均提供一套完備的視覺信息,促使多模態(tài)大模型以指令驅(qū)動的形式從中吸收相應的知識。

具體而言,UniToken采取統(tǒng)一的雙邊視覺編碼器,其中將VQ-GAN的離散編碼與SigLIP的連續(xù)表征以下述方式進行拼接,從而得到一套兼?zhèn)涓邔诱Z義與底層細節(jié)的視覺編碼:

[BOS][BOI]{離散圖像token}[SEP]{連續(xù)圖像embedding}[EOI]{文本}[EOS]

多階段訓練策略

為了協(xié)調(diào)理解與生成任務的特性,UniToken采用三階段訓練流程:

階段一:視覺語義空間對齊:

基于Chameleon作為基座,本階段旨在為LLM接入SigLIP的連續(xù)視覺編碼。為此,在訓練時凍結(jié)LLM,僅訓練SigLIP ViT和Adapter,使其輸出與語言空間對齊。

階段二:多任務聯(lián)合訓練:

基于第一階段對齊后的雙邊編碼器所提供的完備視覺信息,本階段在大規(guī)模圖文理解與圖像生成數(shù)據(jù)集上聯(lián)合訓練,通過控制數(shù)據(jù)配比(10M:10M)以均衡提升模型理解與生成任務的性能。

階段三:指令強化微調(diào):

通過測試發(fā)現(xiàn),第二階段訓練后的模型在指令跟隨、布局圖像生成等方面的表現(xiàn)均有待加強,故在本階段進一步引入高質(zhì)量多模態(tài)對話(423K)與精細化圖像生成數(shù)據(jù)(100K),進一步增強模型對復雜指令的跟隨能力。

細粒度視覺增強

得益于保存了雙邊視覺編碼的完備性,UniToken可無縫銜接現(xiàn)有的細粒度視覺增強技術。

具體而言,UniToken在連續(xù)視覺編碼側(cè)引入兩項增強策略:

AnyRes:將高分辨率圖像劃分為多個子圖,分別提取特征后進行相應空間位置的拼接,以提升對圖像的細粒度感知;

ViT端到端微調(diào):在模型的全訓練流程中,動態(tài)微調(diào)連續(xù)視覺編碼器的權重,結(jié)合精細的學習率控制策略以避免模型崩潰,進而適應廣泛的任務場景。

實驗結(jié)果:超越SOTA,多模態(tài)統(tǒng)一的“優(yōu)等生”

在多個主流多模態(tài)基準(圖文理解+圖像生成)上,UniToken均取得了媲美甚至領先于領域內(nèi)專用模型的性能:





與此同時,研究者們對于訓練策略及視覺編碼的影響進行了進一步深入的消融分析:



  • 在大規(guī)模數(shù)據(jù)場景下(>15M),1:1的理解+生成數(shù)據(jù)比例能夠兼顧理解與生成任務的性能



  • 在應對理解與生成的任務沖突時,統(tǒng)一的連續(xù)+離散的視覺編碼相較于僅采用離散編碼的方案具有較強的魯棒性。

總結(jié):邁向通用理解生成一體化的多模態(tài)大模型

從發(fā)展趨勢上來看,目前圖文理解模型在通用性上遠遠領先于圖像生成模型。

而Gemini-2.0-Flash與GPT-4o在指令跟隨的圖像生成方面的驚艷表現(xiàn),帶來了通用圖像生成模型未來的曙光。

在這樣的時代背景下,UniToken僅是初步的嘗試,而其信息完備的特性也為進一步挖掘其更深層次的潛力提供了更多信心:

模型規(guī)模擴展:借助更大的語言模型,進一步探索統(tǒng)一模型在理解與生成上的“涌現(xiàn)能力”;

數(shù)據(jù)規(guī)模擴展:引入更大規(guī)模的訓練數(shù)據(jù)(如Janus-Pro使用的近2億樣本),推動模型性能極限;

任務類型擴展:從傳統(tǒng)的理解與生成拓展至圖像編輯、故事生成等圖文交錯的任務,追逐通用生成能力的上限。

論文鏈接:
https://arxiv.org/pdf/2504.04423

代碼地址:
https://github.com/SxJyJay/UniToken

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中國小將爆冷掀翻火箭 斯諾克世錦賽上演逆襲神話

中國小將爆冷掀翻火箭 斯諾克世錦賽上演逆襲神話

優(yōu)雅的小魚
2025-04-27 06:55:05
波音將不再為中國造飛機,還要停止售后服務?波音為何如此囂張?

波音將不再為中國造飛機,還要停止售后服務?波音為何如此囂張?

翻開歷史和現(xiàn)實
2025-04-26 18:13:14
?見證歷史!戈登今日絕殺是季后賽歷史上首個壓哨扣籃絕殺

?見證歷史!戈登今日絕殺是季后賽歷史上首個壓哨扣籃絕殺

直播吧
2025-04-27 10:09:08
拜仁無緣提前3輪奪冠 或7天后加冕 31歲凱恩留憾:生涯首冠戰(zhàn)停賽

拜仁無緣提前3輪奪冠 或7天后加冕 31歲凱恩留憾:生涯首冠戰(zhàn)停賽

我愛英超
2025-04-26 23:29:25
網(wǎng)友拼接出武漢猝死男孩的悲苦命運

網(wǎng)友拼接出武漢猝死男孩的悲苦命運

大張的自留地
2025-04-26 08:55:53
84分鐘扳平+加時絕殺!巴薩賽季3殺皇馬,32次問鼎國王杯歷史第1

84分鐘扳平+加時絕殺!巴薩賽季3殺皇馬,32次問鼎國王杯歷史第1

我愛英超
2025-04-27 06:58:54
54歲吳奇隆在泉州,癟嘴嚴重身高不足170,細節(jié)曝光真實婚姻狀況

54歲吳奇隆在泉州,癟嘴嚴重身高不足170,細節(jié)曝光真實婚姻狀況

顧蔡衛(wèi)
2025-04-25 22:33:03
火箭賽后沖突!追夢嘲諷:去做美甲吧 格林比槍存被追罰可能性

火箭賽后沖突!追夢嘲諷:去做美甲吧 格林比槍存被追罰可能性

醉臥浮生
2025-04-27 11:50:02
“明知道寒酸,還怪女兒虛榮”,母親準備的春游午餐,讓網(wǎng)友破防

“明知道寒酸,還怪女兒虛榮”,母親準備的春游午餐,讓網(wǎng)友破防

振華觀史
2025-04-27 09:38:07
蘋果加速移走生產(chǎn)線遭中國阻撓,銷美iPhone將全「印度制造」

蘋果加速移走生產(chǎn)線遭中國阻撓,銷美iPhone將全「印度制造」

阿鳧愛吐槽
2025-04-26 11:38:08
呂迪格因向場內(nèi)扔瓶子被罰下,染紅后仍試圖攻擊裁判但被制止

呂迪格因向場內(nèi)扔瓶子被罰下,染紅后仍試圖攻擊裁判但被制止

懂球帝
2025-04-27 07:20:22
朱立倫大動作后,賴清德站出來放話,島內(nèi)民調(diào)出爐,賴滿意度驚人

朱立倫大動作后,賴清德站出來放話,島內(nèi)民調(diào)出爐,賴滿意度驚人

基斯默默
2025-04-27 09:43:23
全球最大拉鏈制造商YKK研發(fā)自驅(qū)動拉鏈系統(tǒng):內(nèi)置電機,一鍵遙控

全球最大拉鏈制造商YKK研發(fā)自驅(qū)動拉鏈系統(tǒng):內(nèi)置電機,一鍵遙控

IT之家
2025-04-26 08:05:09
祖巴茨抱住發(fā)狂的戈登讓后者逃過一劫,戈登最終上演絕殺

祖巴茨抱住發(fā)狂的戈登讓后者逃過一劫,戈登最終上演絕殺

雷速體育
2025-04-27 09:16:13
男子被打身亡后續(xù)!市長院長去年辭職,姐姐舉報,保護傘浮出水面

男子被打身亡后續(xù)!市長院長去年辭職,姐姐舉報,保護傘浮出水面

吭哧有力
2025-04-26 10:21:40
十萬少婦瘋搶的“高潮針”,到底讓誰“高潮”!

十萬少婦瘋搶的“高潮針”,到底讓誰“高潮”!

新動察
2025-04-26 16:18:09
官宣!“二套轉(zhuǎn)首套”可享受住房貸款利息個稅專項扣除

官宣!“二套轉(zhuǎn)首套”可享受住房貸款利息個稅專項扣除

第一財經(jīng)資訊
2025-04-27 11:25:10
106歲東江縱隊老戰(zhàn)士、四川省僑聯(lián)名譽主席邱林逝世

106歲東江縱隊老戰(zhàn)士、四川省僑聯(lián)名譽主席邱林逝世

澎湃新聞
2025-04-27 10:12:26
全民雙休要來?網(wǎng)傳五一后逐步落地雙休!看似不經(jīng)意,實則布大局

全民雙休要來?網(wǎng)傳五一后逐步落地雙休!看似不經(jīng)意,實則布大局

火山詩話
2025-04-27 08:31:39
發(fā)現(xiàn)一個悲哀的現(xiàn)象:特別長壽的老人,幾乎都是子女用生命在托舉

發(fā)現(xiàn)一個悲哀的現(xiàn)象:特別長壽的老人,幾乎都是子女用生命在托舉

婉秋聊育兒
2025-04-26 05:24:04
2025-04-27 12:16:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
10381文章數(shù) 176116關注度
往期回顧 全部

科技要聞

賈躍亭:FF市值到百億美元能基本還完債務

頭條要聞

特朗普與馬克龍被指再次上演"握手之戰(zhàn)" 美媒披露畫面

頭條要聞

特朗普與馬克龍被指再次上演"握手之戰(zhàn)" 美媒披露畫面

體育要聞

裝死一個賽季,卡皇掀翻了棺材板

娛樂要聞

甜馨簽樂華出道惹爭議 維護爸媽被質(zhì)疑

財經(jīng)要聞

商務部等6部門:下調(diào)離境退稅起退點

汽車要聞

上海車展采訪外國友人 他們最愛的都是什么車?

態(tài)度原創(chuàng)

藝術
家居
本地
房產(chǎn)
公開課

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

家居要聞

明亮溫馨 質(zhì)感且奢華

本地新聞

云游湖北 | 漢川文旅新體驗:千年陶藝邂逅湖光

房產(chǎn)要聞

教育理念再進階!解碼新世界星輝如何構筑「家校社成長生態(tài)圈」!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 闸北区| 个旧市| 乾安县| 永善县| 星座| 界首市| 临高县| 吉木乃县| 颍上县| 三原县| 顺昌县| 兴安县| 盐山县| 颍上县| 黑河市| 安达市| 仪陇县| 叶城县| 阿勒泰市| 石嘴山市| 大名县| 井陉县| 宜城市| 昭苏县| 济南市| 嘉祥县| 阳朔县| 古田县| 五原县| 达拉特旗| 米脂县| 阿坝| 瓦房店市| 北碚区| 尉犁县| 南溪县| 阜康市| 奎屯市| 澎湖县| 永济市| 大港区|