99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

OpenAI沒說的秘密,Meta全揭了?華人一作GPT-4o同款技術,爆打擴散王者

0
分享至


新智元報道

編輯:KingHZ

【新智元導讀】自回歸模型,首次生成2048×2048分辨率圖像!來自Meta、西北大學、新加坡國立大學等機構的研究人員,專門為多模態大語言模型(MLLMs)設計的TokenShuffle,顯著減少了計算中的視覺Token數量,提升效率并支持高分辨率圖像合成。

自回歸模型的新突破:首次生成2048×2048分辨率圖像!

來自Meta、西北大學、新加坡國立大學等機構的研究人員,提出了TokenShuffle,為多模態大語言模型(MLLMs)設計的即插即用操作,顯著減少了計算中的視覺token數量,提高效率并促進高分辨率圖像合成。


圖1:采用新技術的27億參數自回歸模型生成的高分辨率圖像

除了實現超高分辨率圖像生成外,生成質量也非常出色。

基于27億參數的Llama模型,新方法顯著超越同類自回歸模型,甚至優于強擴散模型:

在GenEval基準測試中,獲得0.62的綜合得分,

在GenAI-Bench上,取得0.77的VQAScore,創造了新的技術標桿。

此外,大規模人類評估,也驗證了該方法的有效性。


鏈接:https://arxiv.org/abs/2504.17789

與傳統方法逐個學習和生成每個視覺token不同,新方法在局部窗口內按順序處理和生成一組token,如圖2所示。


圖2:Token-Shuffle流程

Token-Shuffle包括:

token-shuffle操作,用于在Transformer輸入階段合并局部空間內的視覺token,

以及token-unshuffle操作,用于在推理階段還原視覺token。

該方法顯著減少了計算中所需的視覺token數量,同時保持了高質量的生成效果。

而且,Token-Shuffle展現的效能與效率,揭示了其在賦能多模態大語言模型(MLLMs)實現高分辨率、高保真圖像生成方面的巨大潛力,為超越基于擴散的方法開辟了新路徑。

GPT-4o沒說的秘密:自回歸圖像生成

在語言生成領域,自回歸(Autoregression)模型稱霸多日。

在圖像合成,自回歸的應用雖日益增多,但普遍被認為遜色于擴散模型。

這一局限主要源于AR模型需要處理大量圖像token,嚴重制約了訓練/推理效率以及圖像分辨率。

比如,,讓OpenAI的GPU都「融化」了。

但遺憾的是,OpenAI并沒有公開背后的技術原理。


GPT-4o生成的第一視角機器人打字圖

這次,來自Meta等機構的研究者,發現在多模態大語言模型(MLLMs)中,視覺詞表存在維度冗余:視覺編碼器輸出的低維視覺特征,被直接映射到高維語言詞表空間。

研究者提出了一種簡單而新穎的Transformer圖像token壓縮方法:Token-Shuffle。

他們設計了兩項關鍵操作:

  1. token混洗(token-shuffle):沿通道維度合并空間局部token,用來減少輸入token數;

  2. token解混(token-unshuffle):在Transformer塊后解構推斷token,用來恢復輸出空間結構。

在輸入準備階段,通過一個MLP模塊將空間上相鄰的token進行融合,形成一個壓縮后的token,同時保留局部的關鍵信息。

對于打亂窗口大小為s的情況,token數量會按s的平方減少,從而大幅降低Transformer的運算量。


圖3:視覺詞匯維度冗余的示意圖。左側:通過兩個MLP操作將視覺token的秩降低r倍。右側:不同r值下的預訓練損失(對數刻度困惑度)

在經過Transformer層處理后,token-unshuffle操作重新還原出原本的空間排列過程。這一階段同樣借助了輕量級的MLP模塊。

本質上,新方法在訓練和推理過程中并未真正減少序列長度,而是在Transformer計算過程中,有效減少了token數量,從而加速計算

圖4直觀地展示了新方法在效率上的提升。


圖4:Token-Shuffle能夠實現計算效率的二次提升

通過在Transformer計算期間壓縮token序列,Token-Shuffle實現了高效的高分辨率圖像生成,包括支持2048×2048分辨率的圖像。

重要的是,這種方法無需對Transformer架構本身進行修改,也不引入輔助損失函數或需要額外預訓練的編碼器。

此外,該方法還集成了一個針對自回歸生成專門調整的無分類器引導(Classifier-Free Guidance,CFG)調度器。

不同于傳統的固定引導強度,新的CFG調度器在推理過程中逐步調整引導力度,減少早期token生成的偽影問題,并進一步提升文本與圖像的對齊效果。

研究者探索了幾種CFG調度策略,相關結果展示在圖5中。

根據視覺質量和人類評估的反饋,默認采用「半線性」(half-linear)調度器,以獲得更好的生成效果。


圖5:不同CFG調度器的比較,CFG尺度從1單調增加到7.5

右側結果顯示,相較于在所有視覺token上使用固定7.5的CFG值,采用CFG調度器能夠同時提升圖像的美學質量和文本對齊效果。


不同無分類器引導(CFG)尺度下的生成圖像示例

自回歸的歷史性突破

該方法通過與文本提示聯合訓練,無需額外預訓練文本編碼器,就能讓MLLMs在下一個token預測框架下,支持超高分辨率圖像合成,同時保持高效訓練推理。

這是自回歸模型首次實現2048×2048分辨率的文生圖

在GenAI基準測試中,27億參數Llama模型在困難提示下取得0.77綜合得分,較AR模型LlamaGen提升0.18,超越擴散模型LDM達0.15。

大規模人工評估也證實新方法在文本對齊度、視覺缺陷率和美學質量上的全面優勢。

在MLLMs高效生成高分辨率圖像領域,Token-Shuffle有望成為基準設計方案。

消融實驗等更多內容和細節,參閱原論文。

模型訓練:3步曲

實驗使用2.7B Llama模型,維度為3072,由20個自回歸Transformer模塊組成。

模型的預訓練被分為3個階段,從低分辨率到高分辨率圖像生成。

首先,研究者使用512×512分辨率的圖像進行訓練,在此階段不使用Token-Shuffle操作,因為此時視覺token的數量并不大。在這一階段,他們訓練了約50億個token,使用4K的序列長度、512的全局批量大小和總共211K步。

接下來,研究者將圖像分辨率提升到1024×1024,并引入Token-Shuffle操作,減少視覺token數量,提高計算效率。在這一階段,他們將訓練token數量擴展到2TB

最后,研究者使用之前訓練的checkpoint,將分辨率進一步提升至2048×2048,訓練約300億個token,初始學習率設為4e?5。

他們引入了z-loss,用于穩定高分辨率圖像生成的訓練。


原文圖11:在2048×2048分辨率下訓練時的平均損失(左)和梯度范數(右)。在大約20K次迭代后出現訓練不穩定現象

在不同階段,研究者對所有模型進行了微調,學習率為4e?6,使用1500張精選的高美學質量圖像進行展示。

默認情況下,除非另有說明,可視化和評估是基于1024×1024分辨率和2大小的token-shuffle窗口的微調結果。

量化評估:又快又好

表1中的結果突顯了Token-Shuffle的強大性能。

與其他自回歸模型相比,新方法在「基本」(basic)提示上整體得分超越LlamaGen 0.14分,在「高難度」(hard)提示上超越0.18分。

與擴散基準相比,新方法在「高難度」提示上超越DALL-E 3 0.7分。


表1:在GenAI-Bench上的圖像生成VQAScore評估。「?」表示圖像是通過Llama3重寫提示生成的,保證訓練與推理的一致性

除了表1中報告的VQAScore結果外,研究者還進行了額外的自動評估GenEval,并在表2中報告了詳細的評估結果。

實驗結果表明,除了高分辨率外,Token-Shuffle作為一個純自回歸模型,能夠呈現出令人滿意的生成質量。


表2:在GenEval基準測試上的評估。

人類評估

盡管自動化評估指標提供了無偏的評估,但最近的研究所指出它們可能并不能完全捕捉到人類偏好。

為此,研究者還在GenAI-Bench提示集上進行了大規模的人類評估,將新模型Token-Shuffle與LlamaGen、LuminamGPT和LDM進行了比較,分別代表了自回歸模型、MLLM和擴散模型

在人類評估中,重點關注三個關鍵指標:

  1. 文本對齊,評估圖像與文本提示的匹配準確度;

  2. 視覺缺陷,檢查邏輯一致性,避免出現不完整的身體或多余的肢體等問題;

  3. 視覺外觀,評估圖像的美學質量。


存在視覺缺陷與結構錯誤的生成圖像示例(紅色圓圈標記處)

圖6展示了結果,新模型在所有評估方面始終優于基于自回歸的模型LlamaGen和LuminamGPT。

這表明,即使在大幅減少token數量以提高效率的情況下,Token-Shuffle也能有效地保留美學細節,并且能夠緊密遵循文本引導,前提是進行了充分的訓練。

在生成結果(無論是視覺外觀還是文本對齊)上,研究者展示了基于自回歸的多模態大語言模型(AR-based MLLMs)能夠與擴散模型相媲美或更勝一籌

然而,研究者觀察到,Token-Shuffle在視覺缺陷方面略遜于LDM。


圖6:人類評估結果|在文本對齊、視覺缺陷和視覺外觀方面等方面,比較了Token-Shuffle與無文本的自回歸模型LlamaGen、帶文本的自回歸模型Lumina-mGPT以及基于擴散的模型LDM的表現

可視化示例

研究者將Token-Shuffle與其他模型進行了視覺效果對比,包括兩種基于擴散的模型LDM和Pixart-LCM,以及一種自回歸模型LlamaGen。

圖7展示了可視化例子。

雖然所有模型的生成效果都不錯,但Token-Shuffle在文本對齊方面表現得更加出色。

與自回歸模型LlamaGen相比,Token-Shuffle在相同推理開銷下實現了更高的分辨率,帶來了更好的視覺質量和文本對齊效果。

與擴散模型相比,自回歸模型Token-Shuffle在生成性能上表現出競爭力,同時還能支持高分辨率輸出。


圖7:與其他開源的基于擴散模型和基于自回歸模型的視覺效果對比

一作簡介

馬旭(Xu Ma)



他是美國東北大學工程學院的博士研究生。

在此之前,他在美國德克薩斯大學北部分校計算機科學與工程系工作了兩年。

在南京林業大學信息科學與技術學院, 他獲得了學士和碩士學位。

他的研究興趣包括:模型效率、多模態大語言模型(LLM)、生成式人工智能(Generative AI)。

在博士學習期間,他獲得了一些獎項,包括ICME'20最佳學生論文獎、SEC'19最佳論文獎、NeurIPS'22杰出審稿人獎和CVPR'23杰出審稿人獎。

參考資料:

https://www.marktechpost.com/2025/04/25/meta-ai-introduces-token-shuffle-a-simple-ai-approach-to-reducing-image-tokens-in-transformers/

https://arxiv.org/abs/2504.17789

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
懷孕藍貓被砍斷四肢虐殺,事發地監控三個可查,網友曝虐貓人線索

懷孕藍貓被砍斷四肢虐殺,事發地監控三個可查,網友曝虐貓人線索

小噎論事
2025-04-27 11:59:26
圍棋規則的戰場:解讀中國拒絕參加新一屆LG杯背后的博弈

圍棋規則的戰場:解讀中國拒絕參加新一屆LG杯背后的博弈

王老師聊圍棋
2025-04-28 17:05:09
董子健新戲惹群嘲,“京圈太子”的身份,都掩蓋不住演技差的短板

董子健新戲惹群嘲,“京圈太子”的身份,都掩蓋不住演技差的短板

老閆侃史
2025-04-28 17:00:03
石破茂攜手妻子抵達越南!日本第一夫人穿碎花裙,盡顯東方韻味美

石破茂攜手妻子抵達越南!日本第一夫人穿碎花裙,盡顯東方韻味美

二月侃事
2025-04-28 09:41:03
上海博物館年齡歧視如此嚴重,歪風邪氣何處來?

上海博物館年齡歧視如此嚴重,歪風邪氣何處來?

平祥生活日志
2025-04-28 13:35:08
佟大為老婆關悅的臉好嚇人,腫成了奶白饅頭,臉上打了多少針呀?

佟大為老婆關悅的臉好嚇人,腫成了奶白饅頭,臉上打了多少針呀?

新語愛八卦
2025-04-26 18:32:47
“一絲不掛”新舞蹈?惹爭議,被摸下體更不害臊,金星質疑是對的

“一絲不掛”新舞蹈?惹爭議,被摸下體更不害臊,金星質疑是對的

吃魚思故淵
2024-05-16 21:48:21
劉亦菲最新自拍照:沒有P掉白發和皺紋,37歲的她徹底放飛,治愈萬千網友

劉亦菲最新自拍照:沒有P掉白發和皺紋,37歲的她徹底放飛,治愈萬千網友

感覺會火
2025-04-26 12:07:05
62歲甄子丹在家設宴,為汪詩詩慶生,臉部皮肉下垂,看起來好顯老

62歲甄子丹在家設宴,為汪詩詩慶生,臉部皮肉下垂,看起來好顯老

小咪侃娛圈
2025-04-28 09:20:21
香港富豪李兆基今日出殯李澤楷霍震霆霍啟剛郭晶晶賭王四太都來了

香港富豪李兆基今日出殯李澤楷霍震霆霍啟剛郭晶晶賭王四太都來了

小椰的奶奶
2025-04-28 14:22:12
上海市紀委監委公開通報五起違反中央八項規定精神典型問題

上海市紀委監委公開通報五起違反中央八項規定精神典型問題

魯中晨報
2025-04-28 18:16:11
美國客戶要求半價清庫存,溫州老板怒拒:我們中國人的脊梁要正!

美國客戶要求半價清庫存,溫州老板怒拒:我們中國人的脊梁要正!

振華觀史
2025-04-17 17:02:17
震驚!160游客被旅行大巴遺棄,內幕令人難以置信!

震驚!160游客被旅行大巴遺棄,內幕令人難以置信!

魔都姐姐雜談
2025-04-28 11:36:07
李勇已任內蒙古烏蘭察布市委副書記,曾在中央編辦任職

李勇已任內蒙古烏蘭察布市委副書記,曾在中央編辦任職

澎湃新聞
2025-04-28 10:18:27
足球報:蓉城面對前五球隊不敗,戰申花是爭冠格局第一個關鍵點

足球報:蓉城面對前五球隊不敗,戰申花是爭冠格局第一個關鍵點

直播吧
2025-04-28 12:30:10
涉及川沙!地鐵26號線巨環!“上海中城”概念提出!

涉及川沙!地鐵26號線巨環!“上海中城”概念提出!

川沙微生活
2025-04-28 12:34:04
湖北女子取到15萬假鈔,銀行卻拒不承認,女子的做法讓銀行后悔

湖北女子取到15萬假鈔,銀行卻拒不承認,女子的做法讓銀行后悔

紅豆講堂
2025-04-14 10:04:36
廣西南寧,排了半個小時隊,劉畔宏一到強制清場,誰給的權利?

廣西南寧,排了半個小時隊,劉畔宏一到強制清場,誰給的權利?

大歪歪
2025-04-28 15:34:31
拆遷要全面停了?2025年已明確了:樓齡20年的房子全部都這樣處理

拆遷要全面停了?2025年已明確了:樓齡20年的房子全部都這樣處理

巢客HOME
2025-04-19 20:03:22
重大利好!社保406大幅買進15股,還被套牢了,全都是龍頭

重大利好!社保406大幅買進15股,還被套牢了,全都是龍頭

鵬哥投研
2025-04-28 10:27:32
2025-04-28 19:20:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12610文章數 66022關注度
往期回顧 全部

科技要聞

大廠圍獵AI人才:部分實習生日薪可達2000

頭條要聞

老漢入院十多分鐘無醫救后去世 衛健局:有責任 沒能力

頭條要聞

老漢入院十多分鐘無醫救后去世 衛健局:有責任 沒能力

體育要聞

“我們欠球迷一個冠軍慶典,現在可以狂歡了”

娛樂要聞

黃渤青島做東請客 桌上全人情世故

財經要聞

事關穩就業、穩經濟!四部門聯合發聲

汽車要聞

日產中國,重新起跑

態度原創

健康
家居
手機
旅游
教育

唇皰疹和口腔潰瘍是"同伙"嗎?

家居要聞

慢度設計 溫暖與沉靜的體驗

手機要聞

非洲手機之王 傳音2025年Q1凈利潤大降70%

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

教育要聞

高考地理中的“地球心臟”——烏蘭湖

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 茶陵县| 墨玉县| 乐山市| 政和县| 宿松县| 封丘县| 齐河县| 临邑县| 镇平县| 开阳县| 独山县| 贵州省| 柘荣县| 永德县| 北碚区| 巧家县| 嘉鱼县| 镇赉县| 洮南市| 新平| 中江县| 荥阳市| 山阴县| 类乌齐县| 县级市| 广宁县| 繁峙县| 黔西县| 六枝特区| 湘乡市| 西和县| 武城县| 荔波县| 绩溪县| 颍上县| 元朗区| 岱山县| 天柱县| 新平| 翁牛特旗| 隆安县|