網易首頁 > 網易號 > 正文申請入駐

OpenAI沒說的秘密，Meta全揭了？華人一作GPT-4o同款技術，爆打擴散王者

2025-04-27 18:21:54　來源: 新智元

北京舉報

分享至

新智元報道

編輯：KingHZ

【新智元導讀】自回歸模型，首次生成2048×2048分辨率圖像！來自Meta、西北大學、新加坡國立大學等機構的研究人員，專門為多模態大語言模型（MLLMs）設計的TokenShuffle，顯著減少了計算中的視覺Token數量，提升效率并支持高分辨率圖像合成。

自回歸模型的新突破：首次生成2048×2048分辨率圖像！

來自Meta、西北大學、新加坡國立大學等機構的研究人員，提出了TokenShuffle，為多模態大語言模型（MLLMs）設計的即插即用操作，顯著減少了計算中的視覺token數量，提高效率并促進高分辨率圖像合成。

圖1：采用新技術的27億參數自回歸模型生成的高分辨率圖像

除了實現超高分辨率圖像生成外，生成質量也非常出色。

基于27億參數的Llama模型，新方法顯著超越同類自回歸模型，甚至優于強擴散模型：

在GenEval基準測試中，獲得0.62的綜合得分，

在GenAI-Bench上，取得0.77的VQAScore，創造了新的技術標桿。

此外，大規模人類評估，也驗證了該方法的有效性。

鏈接：https://arxiv.org/abs/2504.17789

與傳統方法逐個學習和生成每個視覺token不同，新方法在局部窗口內按順序處理和生成一組token，如圖2所示。

圖2：Token-Shuffle流程

Token-Shuffle包括：

token-shuffle操作，用于在Transformer輸入階段合并局部空間內的視覺token，

以及token-unshuffle操作，用于在推理階段還原視覺token。

該方法顯著減少了計算中所需的視覺token數量，同時保持了高質量的生成效果。

而且，Token-Shuffle展現的效能與效率，揭示了其在賦能多模態大語言模型（MLLMs）實現高分辨率、高保真圖像生成方面的巨大潛力，為超越基于擴散的方法開辟了新路徑。

GPT-4o沒說的秘密：自回歸圖像生成

在語言生成領域，自回歸（Autoregression）模型稱霸多日。

在圖像合成，自回歸的應用雖日益增多，但普遍被認為遜色于擴散模型。

這一局限主要源于AR模型需要處理大量圖像token，嚴重制約了訓練/推理效率以及圖像分辨率。

比如，，讓OpenAI的GPU都「融化」了。

但遺憾的是，OpenAI并沒有公開背后的技術原理。

GPT-4o生成的第一視角機器人打字圖

這次，來自Meta等機構的研究者，發現在多模態大語言模型（MLLMs）中，視覺詞表存在維度冗余：視覺編碼器輸出的低維視覺特征，被直接映射到高維語言詞表空間。

研究者提出了一種簡單而新穎的Transformer圖像token壓縮方法：Token-Shuffle。

他們設計了兩項關鍵操作：

token混洗（token-shuffle）：沿通道維度合并空間局部token，用來減少輸入token數；
token解混（token-unshuffle）：在Transformer塊后解構推斷token，用來恢復輸出空間結構。

在輸入準備階段，通過一個MLP模塊將空間上相鄰的token進行融合，形成一個壓縮后的token，同時保留局部的關鍵信息。

對于打亂窗口大小為s的情況，token數量會按s的平方減少，從而大幅降低Transformer的運算量。

圖3：視覺詞匯維度冗余的示意圖。左側：通過兩個MLP操作將視覺token的秩降低r倍。右側：不同r值下的預訓練損失（對數刻度困惑度）

在經過Transformer層處理后，token-unshuffle操作重新還原出原本的空間排列過程。這一階段同樣借助了輕量級的MLP模塊。

本質上，新方法在訓練和推理過程中并未真正減少序列長度，而是在Transformer計算過程中，有效減少了token數量，從而加速計算。

圖4直觀地展示了新方法在效率上的提升。

圖4：Token-Shuffle能夠實現計算效率的二次提升

通過在Transformer計算期間壓縮token序列，Token-Shuffle實現了高效的高分辨率圖像生成，包括支持2048×2048分辨率的圖像。

重要的是，這種方法無需對Transformer架構本身進行修改，也不引入輔助損失函數或需要額外預訓練的編碼器。

此外，該方法還集成了一個針對自回歸生成專門調整的無分類器引導（Classifier-Free Guidance，CFG）調度器。

不同于傳統的固定引導強度，新的CFG調度器在推理過程中逐步調整引導力度，減少早期token生成的偽影問題，并進一步提升文本與圖像的對齊效果。

研究者探索了幾種CFG調度策略，相關結果展示在圖5中。

根據視覺質量和人類評估的反饋，默認采用「半線性」（half-linear）調度器，以獲得更好的生成效果。

圖5：不同CFG調度器的比較，CFG尺度從1單調增加到7.5

右側結果顯示，相較于在所有視覺token上使用固定7.5的CFG值，采用CFG調度器能夠同時提升圖像的美學質量和文本對齊效果。

不同無分類器引導（CFG）尺度下的生成圖像示例

自回歸的歷史性突破

該方法通過與文本提示聯合訓練，無需額外預訓練文本編碼器，就能讓MLLMs在下一個token預測框架下，支持超高分辨率圖像合成，同時保持高效訓練推理。

這是自回歸模型首次實現2048×2048分辨率的文生圖。

在GenAI基準測試中，27億參數Llama模型在困難提示下取得0.77綜合得分，較AR模型LlamaGen提升0.18，超越擴散模型LDM達0.15。

大規模人工評估也證實新方法在文本對齊度、視覺缺陷率和美學質量上的全面優勢。

在MLLMs高效生成高分辨率圖像領域，Token-Shuffle有望成為基準設計方案。

消融實驗等更多內容和細節，參閱原論文。

模型訓練：3步曲

實驗使用2.7B Llama模型，維度為3072，由20個自回歸Transformer模塊組成。

模型的預訓練被分為3個階段，從低分辨率到高分辨率圖像生成。

首先，研究者使用512×512分辨率的圖像進行訓練，在此階段不使用Token-Shuffle操作，因為此時視覺token的數量并不大。在這一階段，他們訓練了約50億個token，使用4K的序列長度、512的全局批量大小和總共211K步。

接下來，研究者將圖像分辨率提升到1024×1024，并引入Token-Shuffle操作，減少視覺token數量，提高計算效率。在這一階段，他們將訓練token數量擴展到2TB。

最后，研究者使用之前訓練的checkpoint，將分辨率進一步提升至2048×2048，訓練約300億個token，初始學習率設為4e?5。

他們引入了z-loss，用于穩定高分辨率圖像生成的訓練。

原文圖11：在2048×2048分辨率下訓練時的平均損失（左）和梯度范數（右）。在大約20K次迭代后出現訓練不穩定現象

在不同階段，研究者對所有模型進行了微調，學習率為4e?6，使用1500張精選的高美學質量圖像進行展示。

默認情況下，除非另有說明，可視化和評估是基于1024×1024分辨率和2大小的token-shuffle窗口的微調結果。

量化評估：又快又好

表1中的結果突顯了Token-Shuffle的強大性能。

與其他自回歸模型相比，新方法在「基本」(basic)提示上整體得分超越LlamaGen 0.14分，在「高難度」（hard）提示上超越0.18分。

與擴散基準相比，新方法在「高難度」提示上超越DALL-E 3 0.7分。

表1：在GenAI-Bench上的圖像生成VQAScore評估。「?」表示圖像是通過Llama3重寫提示生成的，保證訓練與推理的一致性

除了表1中報告的VQAScore結果外，研究者還進行了額外的自動評估GenEval，并在表2中報告了詳細的評估結果。

實驗結果表明，除了高分辨率外，Token-Shuffle作為一個純自回歸模型，能夠呈現出令人滿意的生成質量。

表2：在GenEval基準測試上的評估。

人類評估

盡管自動化評估指標提供了無偏的評估，但最近的研究所指出它們可能并不能完全捕捉到人類偏好。

為此，研究者還在GenAI-Bench提示集上進行了大規模的人類評估，將新模型Token-Shuffle與LlamaGen、LuminamGPT和LDM進行了比較，分別代表了自回歸模型、MLLM和擴散模型。

在人類評估中，重點關注三個關鍵指標：

文本對齊，評估圖像與文本提示的匹配準確度；
視覺缺陷，檢查邏輯一致性，避免出現不完整的身體或多余的肢體等問題；
視覺外觀，評估圖像的美學質量。

存在視覺缺陷與結構錯誤的生成圖像示例（紅色圓圈標記處）

圖6展示了結果，新模型在所有評估方面始終優于基于自回歸的模型LlamaGen和LuminamGPT。

這表明，即使在大幅減少token數量以提高效率的情況下，Token-Shuffle也能有效地保留美學細節，并且能夠緊密遵循文本引導，前提是進行了充分的訓練。

在生成結果（無論是視覺外觀還是文本對齊）上，研究者展示了基于自回歸的多模態大語言模型（AR-based MLLMs）能夠與擴散模型相媲美或更勝一籌。

然而，研究者觀察到，Token-Shuffle在視覺缺陷方面略遜于LDM。

圖6：人類評估結果｜在文本對齊、視覺缺陷和視覺外觀方面等方面，比較了Token-Shuffle與無文本的自回歸模型LlamaGen、帶文本的自回歸模型Lumina-mGPT以及基于擴散的模型LDM的表現

可視化示例

研究者將Token-Shuffle與其他模型進行了視覺效果對比，包括兩種基于擴散的模型LDM和Pixart-LCM，以及一種自回歸模型LlamaGen。

圖7展示了可視化例子。

雖然所有模型的生成效果都不錯，但Token-Shuffle在文本對齊方面表現得更加出色。

與自回歸模型LlamaGen相比，Token-Shuffle在相同推理開銷下實現了更高的分辨率，帶來了更好的視覺質量和文本對齊效果。

與擴散模型相比，自回歸模型Token-Shuffle在生成性能上表現出競爭力，同時還能支持高分辨率輸出。

圖7：與其他開源的基于擴散模型和基于自回歸模型的視覺效果對比

一作簡介

馬旭（Xu Ma）

他是美國東北大學工程學院的博士研究生。

在此之前，他在美國德克薩斯大學北部分校計算機科學與工程系工作了兩年。

在南京林業大學信息科學與技術學院，他獲得了學士和碩士學位。

他的研究興趣包括：模型效率、多模態大語言模型（LLM）、生成式人工智能（Generative AI）。

在博士學習期間，他獲得了一些獎項，包括ICME'20最佳學生論文獎、SEC'19最佳論文獎、NeurIPS'22杰出審稿人獎和CVPR'23杰出審稿人獎。

參考資料：

https://www.marktechpost.com/2025/04/25/meta-ai-introduces-token-shuffle-a-simple-ai-approach-to-reducing-image-tokens-in-transformers/

https://arxiv.org/abs/2504.17789

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

GPT-4o偷偷升級，變身聊天鬼才！新版STEM智力飆升，生圖卻慘遭削弱？

新智元 2025-04-27 12:45:45
1 跟貼 1
AI視覺圖靈時代來了！字節OmniHuman，一張圖配上音頻生成視頻

機器之心Pro 2025-02-05 17:10:00
0 跟貼 0

英偉達華人硬核AI神器，「描述一切」秒變細節狂魔！僅3B逆襲GPT-4o

新智元 2025-04-27 09:35:21
11 跟貼 11

圖像編輯開源新SOTA，來自階躍！大模型行業正步入「多模態時間」

量子位 2025-04-28 11:56:29
0 跟貼 0
這屆出題太難了！新基準讓多模態模型集體自閉，GPT-4o都是零分

機器之心Pro 2025-02-18 14:02:59
0 跟貼 0

聊天機器人有時候會“胡說八道”，GPT等模型的“幻覺率”有多高？

醫咖會 2025-02-02 19:05:14
1 跟貼 1

除了Ilya、Karpathy，離職OpenAI的大牛們，竟然創立了這么多公司

機器之心Pro 2025-04-28 14:45:01
0 跟貼 0
Gemini-2.0奪冠！全球首個幾何推理專項評測出爐，淘天集團出品

量子位 2025-04-28 12:04:42
1 跟貼 1

AI教父站到了OpenAI對立面

虎嗅APP 2025-04-28 06:38:10
34 跟貼 34
華人博士用ChatGPT治病，比醫生靠譜？OpenAI聯創點贊

新智元 2025-04-28 12:56:57
1 跟貼 1
人形機器人上麻將桌！北京創企攻克30分鐘自主對戰難題

智東西 2025-04-27 20:18:10
18 跟貼 18
OpenAI“黑幫”席卷美國硅谷

智東西 2025-04-28 17:49:22
0 跟貼 0
全棧AI基礎設施支撐，跑出全球首個開放使用視頻生成DiT模型

量子位 2025-04-28 11:13:01
0 跟貼 0
如果GPT-4還只是阿米巴原蟲，未來的霸王龍會是什么樣？

量子位 2025-02-28 13:32:13
0 跟貼 0
不用等R2了！第三方給新版DeepSeek V3添加深度思考

量子位 2025-04-28 17:23:03
0 跟貼 0
Transformer2要做「活」的AI模型，動態調整權重，像章魚適應環境

機器之心Pro 2025-01-15 15:44:46
1 跟貼 1
Liquid AI推出液態邊緣模型Hyena Edge，實測效率均超Transformer

DeepTech深科技 2025-04-28 18:06:51
0 跟貼 0
首次引入強化學習！火山引擎Q-Insight讓畫質理解邁向深度思考

機器之心Pro 2025-04-08 10:44:59
2 跟貼 2
OpenAI放大招：免費開放ChatGPT搜索，無需注冊

每日經濟新聞 2025-02-06 10:49:09
0 跟貼 0
谷歌DeepMind CEO談AGI愿景：十年內成為現實，因安全問題徹夜難眠

智東西 2025-04-28 18:53:27
0 跟貼 0
機器人竟能讀懂人類心聲，準確率高達90%

DeepTech深科技 2025-04-28 18:29:13
0 跟貼 0
五人團隊、兩周時間：他們正用AI做連載動畫 | 早期項目

36氪 2025-04-28 18:05:07
0 跟貼 0
傳統MVP模型不成立了，AI時代要更多預測剛需場景

量子位 2025-04-22 14:14:16
0 跟貼 0
美國精英的傲慢病該治了，貝森特強盜邏輯，滑稽無腦發言被嘲

躬耕牛 2025-04-27 16:20:04
1 跟貼 1
200 億美元！xAI被曝正進行史上第二大初創融資；“AI教父”辛頓領頭反對OpenAI重組丨全球科技早參

每日經濟新聞 2025-04-28 07:58:08
1 跟貼 1
朝鮮證實出兵俄羅斯協助收復庫爾斯克

新華社 2025-04-28 09:38:52
33098 跟貼 33098
盤點幾款充滿暴力與優雅的古董槍械欣賞百年前的視覺沖擊

軍迷探索館 2025-04-26 17:18:09
1 跟貼 1
世界橋梁技術巔峰：揭秘中國工程師建造超級巨型橋梁的秘密

全球見聞筆記 2025-04-28 07:55:26
1 跟貼 1
核電開閘！國常會核準10臺新機組，拉動超2000億投資，新項目花落誰家？

澎湃新聞 2025-04-27 19:20:31
13576 跟貼 13576
【元宇宙】Meta 再次裁減 VR 和增強現實部門員工

七元宇宙 2025-04-26 06:06:07
0 跟貼 0
中考數學信息卷子，過程寫的符合邏輯才能得滿分哦

三樂大掌柜 2025-04-25 15:52:33
1 跟貼 1
街霸2：兩大春麗爭奪江湖地位，空擒加高質量走位上演視覺盛宴！

凌風游戲達人 2025-04-25 19:03:51
0 跟貼 0
從'讓步論'到強盜邏輯：特朗普言論如何傷害大烏的抗爭

幸福的自由主義者 2025-04-28 03:03:55
0 跟貼 0
兒子衣服小了，今天夫妻倆帶他去買兩套，兒子穿上挺合適

大慶在農村 2025-04-28 09:20:46
463 跟貼 463
罕見公開！094核潛艇首曝參數，戰略威懾力震撼全球

彬彬唐 2025-04-27 06:15:00
0 跟貼 0
英超奪冠！6萬人齊唱永不獨行，利物浦數人含淚

葉青足球世界 2025-04-28 06:30:09
1927 跟貼 1927
車匪路霸！男子服務區修自家車，卻遭修車工囂張喊話：敢修試試！

奇思妙想草葉君 2025-04-27 23:35:53
31 跟貼 31
工期延長至四年，唯有北洋共餐，美媒：托萊多號回歸戰斗序列

時光流轉追夢人 2025-04-26 21:04:34
0 跟貼 0
字節Seed團隊PHD-Transformer突破預訓練長度擴展!破解KV緩存膨脹

機器之心Pro 2025-04-28 14:59:02
1 跟貼 1
字節重開游戲局

中國企業家雜志 2025-04-28 14:07:35
3 跟貼 3

新智元

AI產業主平臺領航智能+時代

12610文章數 66022關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

家居

手機

旅游

教育

唇皰疹和口腔潰瘍是"同伙"嗎？

家居要聞

手機 / 數碼

房產 / 家居

OpenAI沒說的秘密，Meta全揭了？華人一作GPT-4o同款技術，爆打擴散王者

大廠圍獵AI人才：部分實習生日薪可達2000

老漢入院十多分鐘無醫救后去世 衛健局:有責任 沒能力

老漢入院十多分鐘無醫救后去世 衛健局:有責任 沒能力

“我們欠球迷一個冠軍慶典，現在可以狂歡了”

黃渤青島做東請客 桌上全人情世故

事關穩就業、穩經濟！四部門聯合發聲

日產中國，重新起跑

態度原創

唇皰疹和口腔潰瘍是"同伙"嗎？

慢度設計 溫暖與沉靜的體驗

非洲手機之王 傳音2025年Q1凈利潤大降70%

熱聞|清明假期將至，熱門目的地有哪些?

高考地理中的“地球心臟”——烏蘭湖

老漢入院十多分鐘無醫救后去世衛健局:有責任沒能力

老漢入院十多分鐘無醫救后去世衛健局:有責任沒能力

黃渤青島做東請客桌上全人情世故

慢度設計溫暖與沉靜的體驗

非洲手機之王傳音2025年Q1凈利潤大降70%