99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

<tt id="sszwb"><sup id="sszwb"></sup></tt>

<abbr id="sszwb"></abbr>

<wbr id="sszwb"><span id="sszwb"></span></wbr>

<pre id="sszwb"></pre>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

UniToken：多模態“全能選手”，一次編碼搞定圖文理解與圖像生成

2025-04-25 14:45:51　來源: 量子位

北京舉報

0

分享至

UniToken團隊投稿
量子位 | 公眾號 QbitAI

首次在統一框架內實現理解與生成的“雙優表現”，打破了多模態統一建模的僵局！

復旦大學和美團的研究者們提出了UniToken——一種創新的統一視覺編碼方案，在一個框架內兼顧了圖文理解與圖像生成任務，并在多個權威評測中取得了領先的性能表現。

UniToken通過融合連續和離散視覺表征，有效緩解了以往方法中“任務干擾”和“表示割裂”的問題，為多模態統一建模提供了新的范式。

為了便于社區內研究者們復現與進一步開發，UniToken團隊已將代碼與模型全部開源。

任務背景：統一建模的挑戰

在傳統圖文理解或圖像生成模型中，其視覺編碼的底層特性差異較大。

譬如圖文理解模型（如LLaVA、Qwen-VL等）要求從圖像中抽取高層語義，從而進一步結合文本進行協同理解；而圖像生成模型（如DALL-E、Stable Diffusion等）則要求保留充分的底層細節以高保真圖像的生成。

由此，開發理解生成一體化的多模態大模型面臨著以下幾大難題：

視覺編碼割裂：理解任務偏好具有高層語義的連續視覺特征（如CLIP），而生成任務依賴保留底層細節的離散視覺特征（如VQ-GAN編碼的codebook）；

聯合訓練干擾：理解與生成任務差異而帶來的沖突性使得在統一模型中訓練時難以兼顧兩個任務的性能，存在“一個優化，另一個退化”的現象。

為了應對上述挑戰，領域內的相關工作通常采取兩類范式：以VILA-U等為代表的工作通過結合圖像重建與圖文對比學習的訓練目標，來提升離散視覺編碼的語義豐富度；以Janus等為代表的工作通過為理解和生成任務分別定制相應的視覺編碼器與預測頭，來實現兩個任務之間的解耦。

然而，前者在理解任務上目前依舊難以與連續視覺編碼驅動的多模態大模型匹敵；后者則在應對更復雜的多模任務（例如多輪圖像編輯等）時面臨嚴重的上下文切換開銷及單邊信息缺失等問題。

UniToken：統一視覺表示，融合兩種世界

核心設計：連續+離散雙編碼器

不同于Janus的多任務解耦的設計思路，UniToken為所有下游任務均提供一套完備的視覺信息，促使多模態大模型以指令驅動的形式從中吸收相應的知識。

具體而言，UniToken采取統一的雙邊視覺編碼器，其中將VQ-GAN的離散編碼與SigLIP的連續表征以下述方式進行拼接，從而得到一套兼備高層語義與底層細節的視覺編碼：

[BOS][BOI]{離散圖像token}[SEP]{連續圖像embedding}[EOI]{文本}[EOS]

多階段訓練策略

為了協調理解與生成任務的特性，UniToken采用三階段訓練流程：

階段一：視覺語義空間對齊：

基于Chameleon作為基座，本階段旨在為LLM接入SigLIP的連續視覺編碼。為此，在訓練時凍結LLM，僅訓練SigLIP ViT和Adapter，使其輸出與語言空間對齊。

階段二：多任務聯合訓練：

基于第一階段對齊后的雙邊編碼器所提供的完備視覺信息，本階段在大規模圖文理解與圖像生成數據集上聯合訓練，通過控制數據配比（10M:10M）以均衡提升模型理解與生成任務的性能。

階段三：指令強化微調：

通過測試發現，第二階段訓練后的模型在指令跟隨、布局圖像生成等方面的表現均有待加強，故在本階段進一步引入高質量多模態對話（423K）與精細化圖像生成數據（100K），進一步增強模型對復雜指令的跟隨能力。

細粒度視覺增強

得益于保存了雙邊視覺編碼的完備性，UniToken可無縫銜接現有的細粒度視覺增強技術。

具體而言，UniToken在連續視覺編碼側引入兩項增強策略：

AnyRes：將高分辨率圖像劃分為多個子圖，分別提取特征后進行相應空間位置的拼接，以提升對圖像的細粒度感知；

ViT端到端微調：在模型的全訓練流程中，動態微調連續視覺編碼器的權重，結合精細的學習率控制策略以避免模型崩潰，進而適應廣泛的任務場景。

實驗結果：超越SOTA，多模態統一的“優等生”

在多個主流多模態基準（圖文理解+圖像生成）上，UniToken均取得了媲美甚至領先于領域內專用模型的性能：

與此同時，研究者們對于訓練策略及視覺編碼的影響進行了進一步深入的消融分析：

在大規模數據場景下（>15M），1:1的理解+生成數據比例能夠兼顧理解與生成任務的性能

在應對理解與生成的任務沖突時，統一的連續+離散的視覺編碼相較于僅采用離散編碼的方案具有較強的魯棒性。

總結：邁向通用理解生成一體化的多模態大模型

從發展趨勢上來看，目前圖文理解模型在通用性上遠遠領先于圖像生成模型。

而Gemini-2.0-Flash與GPT-4o在指令跟隨的圖像生成方面的驚艷表現，帶來了通用圖像生成模型未來的曙光。

在這樣的時代背景下，UniToken僅是初步的嘗試，而其信息完備的特性也為進一步挖掘其更深層次的潛力提供了更多信心：

模型規模擴展：借助更大的語言模型，進一步探索統一模型在理解與生成上的“涌現能力”；

數據規模擴展：引入更大規模的訓練數據（如Janus-Pro使用的近2億樣本），推動模型性能極限；

任務類型擴展：從傳統的理解與生成拓展至圖像編輯、故事生成等圖文交錯的任務，追逐通用生成能力的上限。

論文鏈接：
https://arxiv.org/pdf/2504.04423
代碼地址：
https://github.com/SxJyJay/UniToken

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

UniReal登場：統一圖像生成與編輯，還學到真實世界動態變化規律

機器之心Pro 2024-12-20 15:14:55
0 跟貼 0
英偉達AI奧賽奪冠，1.5B數學碾壓DeepSeek-R1！代碼全系開源，陶哲軒點贊

新智元 2025-04-25 18:09:40
2 跟貼 2

OpenAI圖像生成模型API發布，Token計價，一張圖花掉1.4元

機器之心Pro 2025-04-24 11:02:01
10 跟貼 10

挖掘DiT位置解耦特性,Personalize Anything免訓練個性化圖像生成

機器之心Pro 2025-03-25 14:45:37
0 跟貼 0
一手實測！文心X1/4.5 Turbo推理和多模態雙雙變強，成本降了6成

量子位 2025-04-25 17:45:49
0 跟貼 0

時隔6年，OpenAI又要開源大模型！輕量版Deep Research深夜上線，免費可用

智東西 2025-04-25 19:28:11
0 跟貼 0

AI輔助編碼帶來思維方式轉變：從人寫代碼到人審代碼

量子位 2025-04-18 17:04:43
0 跟貼 0
30天造出通用超級智能體！百度心響App全量上線免費用，親測驚艷

機器之心Pro 2025-04-25 19:44:57
0 跟貼 0

大模型何以擅長小樣本學習？ICLR 2025這項研究給出詳細分析

機器之心Pro 2025-04-25 18:44:12
1 跟貼 1
DeepSeek開口說話了反應超神無限打斷只要兩行代碼15分鐘

量子位 2025-03-07 14:20:34
0 跟貼 0
蘋果AI部門被曝重大調整：Siri、秘密機器人項目接連換帥

智東西 2025-04-25 19:28:11
0 跟貼 0
人人都能做開發者！連小學生都能輕松上手的0代碼開發平臺來了

量子位 2025-04-15 11:59:12
0 跟貼 0
復旦&微軟開源StableAnimator: 首個端到端ID一致性人類視頻生成

機器之心Pro 2025-03-19 17:41:41
40 跟貼 40
北大團隊引領3D生成與對齊革新：OctGPT打破擴散模型壟斷

量子位 2025-04-25 15:41:58
0 跟貼 0
三角梅咋能長這么大，主要是不差錢，要是缺錢早就賣了！

滑稽達人秀場 2025-04-24 09:55:59
1632 跟貼 1632
這一幕太震撼！塔克拉瑪干沙漠 7.38萬畝土地開發建設現場

范竹視頻 2025-04-25 11:37:50
9498 跟貼 9498
波音總裁回應：波音不會繼續為不接收飛機的客戶制造飛機！

翻開歷史和現實 2025-04-24 21:48:17
4806 跟貼 4806
俄軍70枚導彈打向基輔等地市中心！是今年最大規模的空襲

項鵬飛 2025-04-24 20:38:13
6938 跟貼 6938
很多說美國衰落了？真實數據可能超乎想象！知己知彼！百戰不殆！

三叔胡侃 2025-04-21 13:17:26
1 跟貼 1
街霸2：兩大春麗爭奪江湖地位，空擒加高質量走位上演視覺盛宴！

凌風游戲達人 2025-04-25 19:03:51
0 跟貼 0
僅僅出場五分鐘的高達卻給觀眾帶來史詩級的視覺盛宴

影帝俠 2025-04-23 14:51:42
4 跟貼 4
劉國梁辭任，弟子們表現兩極分化，陳夢、樊振東態度引球迷爭議

阿矗論古今 2025-04-24 20:42:56
21 跟貼 21
動漫角色跨次元互動？騰訊開源AnimeGamer打破常規，開啟無限互動

帶你學AI 2025-04-24 08:35:34
5 跟貼 5
何小鵬車展上試乘蔚來螢火蟲，跟李斌說定價太便宜了！

老趙觀天下 2025-04-24 22:00:23
4033 跟貼 4033
震撼！宿遷人民果然是大強子的后盾，外賣市場全都變成了一片紅

火山詩話 2025-04-25 09:44:38
39 跟貼 39
科學家為何要以人類為標準尋找外星人？外星人一定是“人”嗎？

宇宙時空 2025-04-25 16:28:50
1 跟貼 1
KDD'25 | 生成式拍賣：感知排列外部性的整頁優化機制

量子位 2024-12-28 22:01:41
0 跟貼 0
上海一男子維修電時被電擊彈幾米遠躺地，男子直呼臉色變紫了！

爆料視頻 2025-04-25 09:37:48
786 跟貼 786
藝術家思維如量子躍遷編織多維宇宙的詩性代碼

無我2002 2025-04-21 08:30:00
0 跟貼 0
產婦出院回家不方便爬樓老公預訂吊車直接送回家

星辰視頻 2025-04-25 16:47:26
949 跟貼 949
美國民調數據釋放新信號

你的雷達站 2025-04-24 04:00:43
0 跟貼 0
董大姐為什么那么痛恨海歸，答案讓人哭笑不得

師說新知 2025-04-25 13:14:24
0 跟貼 0
按這個指令入睡，你會越睡越好看

張德芬空間 2025-04-25 17:06:35
0 跟貼 0
燈光秀展示“藍色的眼淚”，“眼淚”落下時非常驚艷，網友：真是一場視覺盛宴

青州融媒 2025-04-23 09:49:49
0 跟貼 0
雷軍人設不保，讓員工工作12小時創造996制度，不以為恥反以為榮

漢史趣聞 2025-04-25 09:05:54
229 跟貼 229
超光速傳輸的科學奇跡，什么是量子糾纏？

穿越科學號 2025-04-25 19:06:02
4 跟貼 4
兒子悄悄考上北大媽媽驚成靜止畫面,下一秒笑開花

大象新聞 2025-04-25 13:27:51
580 跟貼 580
餐廳老板出餐時遇孩子亂跑，死死捏住火鍋躲讓：2個孩子沒事，自己被燙傷

星視頻 2025-04-24 20:55:07
988 跟貼 988
無語！泡了幾年的中藥酒海龍海馬全部都是塑料

薪火視點 2025-04-25 07:53:00
947 跟貼 947
600萬粉絲網紅"迅猛龍"擬被復旦錄取開心捂嘴大笑

封面新聞 2025-04-25 16:05:18
586 跟貼 586

反轉！維尼修斯拒絕續約：要求皇馬3000萬年薪，向C羅看齊

反轉！維尼修斯拒絕續約：要求皇馬3000萬年薪，向C羅看齊

葉青足球世界

2025-04-24 19:18:26

震驚！網傳一小區通知保安，只允許京東外賣進入，直言助力京東…

震驚！網傳一小區通知保安，只允許京東外賣進入，直言助力京東…

明月雜談

2025-04-24 15:09:41

網友：燒窗簾是典型的仙人跳手法，普通人多加注意……

網友：燒窗簾是典型的仙人跳手法，普通人多加注意……

小人物看盡人間百態

2025-04-22 14:45:55

我每次回婆家過年都丟首飾，今年我戴了假手鐲，成功揪出兇手

我每次回婆家過年都丟首飾，今年我戴了假手鐲，成功揪出兇手

林林故事揭秘

2025-04-22 17:50:38

特朗普再次回應加拿大：我在管理這個國家，而不是我在管理加拿大

特朗普再次回應加拿大：我在管理這個國家，而不是我在管理加拿大

風華講史

2025-04-24 21:05:03

賺走中國女人600億！被官媒揭穿的“防曬衣”，滿滿的都是套路

賺走中國女人600億！被官媒揭穿的“防曬衣”，滿滿的都是套路

史行途

2025-03-13 09:36:30

專家表示：不在乎失去美國市場，中國5000年大部分時間沒有美國！

專家表示：不在乎失去美國市場，中國5000年大部分時間沒有美國！

翻開歷史和現實

2025-04-15 11:01:12

除了楊瀚森，還有一名中國球員被NBA看中！22歲登陸NBA一點不晚

除了楊瀚森，還有一名中國球員被NBA看中！22歲登陸NBA一點不晚

弄月公子

2025-04-25 07:59:02

波音給中國回信了！要求中方接收飛機，還聲稱要再給中國一個機會

波音給中國回信了！要求中方接收飛機，還聲稱要再給中國一個機會

林子說事

2025-04-25 13:03:20

42萬人逃離山東，22萬人拋棄吉林！人口大遷徙中誰是最后贏家？

42萬人逃離山東，22萬人拋棄吉林！人口大遷徙中誰是最后贏家？

通文知史

2025-04-25 08:05:03

王楚欽飛成都一身名牌超12萬：1個包包近9萬，鞋子2萬，短袖超1萬

王楚欽飛成都一身名牌超12萬：1個包包近9萬，鞋子2萬，短袖超1萬

二哥聊球

2025-04-25 12:16:15

印巴接觸線發生交火！巴軍殲10C緊急升空，印軍無人機抵到邊境！

印巴接觸線發生交火！巴軍殲10C緊急升空，印軍無人機抵到邊境！

頭條爆料007

2025-04-25 18:00:31

外交部回應美方堅稱中美正在談判

外交部回應美方堅稱中美正在談判

財聯社

2025-04-25 15:32:04

男子酒后騎自行車被查酒駕，反問:我騎自行車喝酒怎么了?

男子酒后騎自行車被查酒駕，反問:我騎自行車喝酒怎么了?

張曉磊

2025-04-22 08:09:55

“特使”黃仁勛抵京，特朗普要給自己找臺階下，中方態度已有變化

“特使”黃仁勛抵京，特朗普要給自己找臺階下，中方態度已有變化

紅色鑒史官

2025-04-24 18:55:03

退休后才發現：同事、同學、朋友，只不過是你人生中的過客而已，你最重要的，只有你自己！

退休后才發現：同事、同學、朋友，只不過是你人生中的過客而已，你最重要的，只有你自己！

我是娛有理

2025-04-22 07:01:11

續航1937km！零自燃終身質保，限時一口價7.98萬，還要啥比亞迪？

續航1937km！零自燃終身質保，限時一口價7.98萬，還要啥比亞迪？

隔壁說車老王

2025-04-24 08:30:55

萊昂納德：隊友不僅僅只是指著我讓我防守，還在防守端激勵著我

萊昂納德：隊友不僅僅只是指著我讓我防守，還在防守端激勵著我

懂球帝

2025-04-25 14:12:14

中央定調！2025年養老金調整，1954~1959年的人有福了！多漲錢嗎

中央定調！2025年養老金調整，1954~1959年的人有福了！多漲錢嗎

社保小達人

2025-02-04 11:00:02

顧客買魚要求不宰殺被扔秤砣，武漢涉事魚販被行拘12天

顧客買魚要求不宰殺被扔秤砣，武漢涉事魚販被行拘12天

現代快報

2025-04-24 17:41:10

追蹤人工智能動態

10373文章數 176116關注度

往期回顧全部

科技要聞

文心模型再降價80%，李彥宏：我打下了價格

頭條要聞

35歲程序員長期熬夜加班致腦干出血昏迷15天本人發聲

頭條要聞

35歲程序員長期熬夜加班致腦干出血昏迷15天本人發聲

體育要聞

?跑得最快的院長來啦！蘇炳添擔任暨大體育學院院長

娛樂要聞

王菲被諷刺為愚婦張柏芝最終還是贏了

財經要聞

政治局會議傳遞積極信號機構熱議6大看點

汽車要聞

"下一代純電寶馬"提前體驗用代碼編譯駕駛樂趣

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

數碼

藝術

親子

本地

公開課

數碼要聞

英特爾Panther Lake處理器首個SKU年底前推出其余需待明年

藝術要聞

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

親子要聞

來自二胎家庭的反轉，果然，人和人還是剛認識的時候好，網友：每一個二胎都躲不過姐姐的“教育”

本地新聞

云游湖北 | 漢川文旅新體驗：千年陶藝邂逅湖光

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
全球十大恐怖禁區有哪些？
李彥宏：百度離破產30天

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：铜山县| 秦皇岛市| 措美县| 古交市| 宜兴市| 密山市| 贺兰县| 松溪县| 合江县| 红桥区| 大连市| 临安市| 嘉祥县| 绥芬河市| 博白县| 大荔县| 东丽区| 湾仔区| 甘德县| 大埔县| 桂平市| 武隆县| 定陶县| 平阴县| 芦溪县| 京山县| 淮安市| 泸州市| 黔南| 浦县| 克什克腾旗| 中牟县| 巴楚县| 屏南县| 尼勒克县| 新邵县| 余江县| 隆回县| 沙湾县| 上犹县| 临泉县|

<strong id="9yi85"><strong id="9yi85"></strong></strong>

<abbr id="9yi85"></abbr>
<nobr id="9yi85"><legend id="9yi85"></legend></nobr>

<acronym id="9yi85"></acronym>

<strike id="9yi85"><source id="9yi85"></source></strike>