99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

ILLUME+:華為諾亞探索新GPT-4o架構,理解生成一體模型

0
分享至




近年來,基于大語言模型(LLM)的多模態任務處理能力取得了顯著進展,特別是在將視覺信息融入語言模型方面。像 QwenVL 和 InternVL 這樣的模型已經展示了在視覺理解方面的卓越表現,而以擴散模型為代表的文本到圖像生成技術也不斷突破,推動了統一多模態大語言模型(MLLM)的發展。這些技術的進步使得視覺理解和生成能力的無縫集成成為可能,進一步推進了視覺和語義深度融合下的人工通用智能(AGI)的探索。

新一代 GPT-4o 作為理解生成一體的模型,其強大的能力已經令人矚目。它不僅在語義理解和圖像生成方面展現出極高的準確性和流暢性,還特別擅長上下文感知生成(context-aware generation)和圖像編輯(image editing)任務。無論是在進行高精度的圖像生成,還是在復雜的圖像編輯任務中,GPT-4o 都能動態理解和生成符合上下文需求的內容,極大地增強了模型的實用性和靈活性。這使得 GPT-4o 能夠在多模態任務中更加高效地完成多種復雜場景下的理解與生成工作。

最近,華為諾亞盤古研究團隊聯合香港大學推出了ILLUME+,這款模型是 ILLUME 的升級版本,采用了雙重視覺聯合詞表(DualViTok)和擴散解碼器的創新設計,顯著提升了語義理解和高保真圖像生成能力。與當前現有的統一模型不同,ILLUME + 能夠在圖像理解、生成和編輯三大能力上達到優異的表現,解決了傳統模型在圖像紋理保持和語義對齊方面的難題。



  • 鏈接:https://arxiv.org/abs/2504.01934
  • 項目地址:https://illume-unified-mllm.github.io/



ILLUME + 在處理多模態任務時,展現出強大的上下文感知能力和語義深層交互能力,能夠更準確地理解和生成視覺與語言的關系。它的創新架構通過雙視覺聯合詞表(DualViTok)將語義信息與圖像細節同時保留,為圖像編輯和生成任務提供了更加精細的控制能力。此外,擴散解碼器的引入,不僅提升了生成圖像的質量,還使得超分辨率圖像生成變得更加高效,避免了傳統自回歸模型在高分辨率生成時的計算瓶頸。

而這正是目前行業所需要的一種能夠同時滿足理解、生成和編輯需求的統一架構。與新一代 GPT-4o 架構相比,ILLUME + 采用了類似的其官網中暗示的 Token→ [Transformer]→ [Diffusion]→ pixel 的結構,在語義理解和上下文感知生成能力上達到新的高度。我們認為,ILLUME + 所展示的架構,正是未來統一大語言模型發展的方向。



隨著我們對該架構的深入研究,ILLUME + 的 3B 模型在多模態理解、生成與編輯的基準測試中均展現出了卓越的性能(比肩 7B)。ILLUME + 的優勢不僅體現在單一任務的出色表現,更在于它能夠靈活適應多樣的應用場景,推動著多模態大語言模型向著更加智能化、可擴展的方向邁進。

ILLUME+ 關鍵技術點與模型架構

1. 雙重視覺聯合詞表(DualViTok)

ILLUME + 的核心創新之一是雙重視覺聯合詞表(DualViTok),該詞表通過兩條分支設計,分別處理圖像的語義信息和細節紋理。具體來說,語義分支利用預訓練的文本對齊視覺編碼器(如 QwenViT)提取高層次的語義特征,這些特征被量化為離散標記,并通過輕量級解碼器進行重建。同時,像素分支則通過 MoVQGAN 類似的架構進行像素級的細節重建,保證圖像細節的高保真度。



2. 擴散解碼器(Diffusion Decoder)

為進一步提升生成圖像的質量,ILLUME + 引入了擴散解碼器。該解碼器使用擴散模型進行圖像生成,顯著提高了圖像的細節和魯棒性。擴散解碼器還能夠進行高效的超分辨率生成,緩解了傳統自回歸生成方法在高分辨率生成時的 token 數目急劇增長帶來的推理速度瓶頸。通過這種設計,ILLUME + 能夠生成高分辨率圖像(最高可達 1024×1024),同時有效提高了圖像的細節和質量。

3. 連續輸入、離散輸出的 MLLM 架構

ILLUME + 采用了統一的多模態大語言模型(MLLM),該模型能夠同時生成文本和圖像,并通過共同的預測頭來進行聯合建模。ILLUME + 采用連續輸入、離散輸出的機制。在輸入端,直接使用視覺連接器連接離散化層前的視覺特征到 LLM 中。輸出端仍然保留統一輸出頭,以自回歸的形式預測文本 token 與視覺 token。這種機制確保了圖像輸入時不會因量化過程丟失細粒度信息,保證了模型在視覺理解任務中展現了更好的穩定性和細致的語義處理能力。在生成圖像時,ILLUME + 采用生成語義 token 后再生成紋理 token 的方式(Coarse-to-fine Unified Image Representation),由于圖像語義表征更容易和文本對齊,這種先語義再紋理的序列化方式,加速了文本和圖像細節紋理信息的對齊,從而提升生成圖像的高保真度和語義一致性。

4. 支持任意分辨率的漸進式訓練策略

ILLUME + 采用漸進式的訓練策略,從而使得詞表、MLLM 和 Diffusion decoder 三個模塊均支持動態分辨率的訓練與推理。訓練流程包括五個階段,逐步增強模型能力,確保穩定性和最終性能。下圖展示了我們的五個訓練階段的打開參數和每個階段的數據分布情況。





Dual Vision Tokenizer Training:訓練雙重視覺標記化器,通過重建語義和像素信息,逐步增加輸入分辨率,先訓練固定 256 分辨率,再訓練固定 512,最后訓練 512×512 以內的任意分辨率,確保模型在不同分辨率下的穩定訓練。該階段采用了 63M 訓練數據,包括自然圖像,美學圖像,人物肖像,文檔圖表類和學科類圖片數據。

Diffusion Decoder Training(擴散解碼器優化):進一步優化圖像生成質量,通過擴散模型提升生成細節,并進行圖像超分辨率輸出,解決自回歸方法的生成高分辨率速度瓶頸。訓練時,我們凍結視覺詞表中的編碼器和詞表的權重,打開 Diffusion 的參數進行訓練。為支持高分辨率,訓練分為兩個子階段,即先訓練像素數量在 512×512 左右的分辨率,再訓練像素數量在 1024×1024 左右的分辨率。該階段采用了 10M 與訓練視覺詞表相同分布的數據。

MLLM Stage 1: Visual Embedding Initialization:初始化 MLLM 中新增的視覺詞表與視覺連接器,優化圖像重建和描述任務,固定分辨率為 256×256,以獲得良好的視覺表示。

MLLM Stage 2: Unified Image-Text Alignment:通過多模態數據訓練,打開視覺適配器和語言模型,增強圖像與文本的語義對齊,先訓練分辨率 256×256,再提升至 512×512。

MLLM Stage 3: Supervised Fine-tuning:使用復雜的多任務數據進行微調,支持任意分辨率圖像輸入,以及高達 11 種不同長寬比的圖像生成,最高像素達到 1024×1024。

ILLUME+(3B) 實驗結果

實驗設置

在實驗中,ILLUME + 使用 Qwen2.5(3B)作為基礎大語言模型(LLM)。其 encoder 采用了預訓練的 QwenVIT 語義編碼器和基于 MoVQGAN 的像素編碼器架構。流程上打通了昇騰訓練與推理。訓練過程中,使用了 256 Ascend NPUs。其中,視覺詞表和 Diffusion 訓練 3+3 天;3B 的 MLLM 模型,經過三個階段的訓練,總訓練時間約為 13 天。

多分辨率文生圖可視化



多功能圖像編輯可視化



(注:這其中的很多任務比如 ghibli style 和 ID 保持的編輯并未特意制作過數據,但是竟然都能泛化出來,很神奇)

圖像理解可視化



與 SOTA 模型的比較

多模態理解:在多模態理解任務中,ILLUME + 在常用的基準測試(如 POPE、MMBench、SEED 等)上表現優秀,尤其在文檔相關任務中展現了優異的性能。盡管是 3B 模型,ILLUME + 在這些任務上與現有的 7B 模型如 Janus-Pro-7B 和 ILLUME-7B 相當,特別是在文檔理解任務中,得益于雙重編碼器設計,模型在保留強大理解能力方面取得了顯著優勢。



多模態圖像生成:在多模態圖像生成方面,ILLUME + 在 MJHQ-30K、GenAI-bench 和 GenEval 基準測試中取得了顯著成績。在 MJHQ-30K 的 FID 分數為 6.00,達到了最先進的生成質量和多樣性,在復雜文本描述生成方面獲得了很好的準確度。



多模態圖像編輯:在圖像編輯任務中,ILLUME + 在 Emu Edit 基準測試中優于專門的圖像編輯模型,特別是在 CLIP-T 評分上,表明其強大的理解能力增強了對編輯指令的解釋能力,實現了更加精確的修改。DualViTok 設計有效提高了與原始圖像的一致性,特別是在紋理信息處理上。



Tokenizer 的圖像重建:在 ImageNet 50k 驗證集上,DualViTok 在不同分辨率下的重建效果超越了多種現有的視覺標記化器,尤其在 256×256 分辨率下,展現了最優的性能。特別是在 384×384 分辨率下,DualViTok 相較于 VILA-U 有了顯著的提升,突出了其在處理不同輸入分辨率時的靈活性和高效性。



更多的 Ablation Study 可參看具體論文

結語

ILLUME + 通過創新的 DualViTok 保留圖像中的語義和細節紋理,并結合擴散解碼器提升圖像生成質量,實現了任意分辨率。憑借統一的粗到細圖像表示和動態視覺分辨率的漸進訓練過程,ILLUME + 僅用 3B 參數便能處理靈活分辨率的視覺輸入和輸出,并在多模態理解、生成和編輯任務中表現出色,在 context-aware 生成和泛化上表現出了令人意外的水平。

作者表示將會嘗試更大的模型,并且嘗試更多原生圖像 - 文本交織預訓練的效果,讓 ILLUME + 能夠真正在視覺任務上完成大一統。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
女兒女婿要送母親去養老院,母親直接把房子賣了,女兒后悔莫及

女兒女婿要送母親去養老院,母親直接把房子賣了,女兒后悔莫及

木子言故事
2025-04-06 21:44:16
看不到他的丁 丁,這可怎么辦啊?

性學研究僧
2025-03-25 19:26:27

王思聰新女友!是所有女友中最好看的!或打破王校長“情感魔咒”

王思聰新女友!是所有女友中最好看的!或打破王校長“情感魔咒”

觀察鑒娛
2025-04-07 11:04:23
17萬次攻擊!美國為何瘋狂“狙擊”哈爾濱亞冬會?

17萬次攻擊!美國為何瘋狂“狙擊”哈爾濱亞冬會?

大象新聞
2025-04-07 07:09:06
主角片酬5000萬,日票房505萬,《獵狐行動》票房崩塌打了誰的臉

主角片酬5000萬,日票房505萬,《獵狐行動》票房崩塌打了誰的臉

靠譜電影君
2025-04-06 22:15:10
信任危機的中國,一群烏合之眾的糊弄

信任危機的中國,一群烏合之眾的糊弄

每日一見
2025-03-26 13:06:47
小米澄清:目前SU7車型的投保服務平穩正常,網傳信息嚴重失實

小米澄清:目前SU7車型的投保服務平穩正常,網傳信息嚴重失實

界面新聞
2025-04-07 20:17:10
發現一個普遍現象,拿出10萬現金的家庭很少,但路上10多萬的車子遍地都是

發現一個普遍現象,拿出10萬現金的家庭很少,但路上10多萬的車子遍地都是

覺叔說
2025-04-05 21:38:13
親媽變人肉榨汁機?大S每月轉賬曝光 網友:這媽喝女兒血上癮!

親媽變人肉榨汁機?大S每月轉賬曝光 網友:這媽喝女兒血上癮!

椰青美食分享
2025-04-07 11:33:28
三觀炸裂!奧運冠軍公開炮轟76歲恩師:披著羊皮的狼,逼我吃藥!

三觀炸裂!奧運冠軍公開炮轟76歲恩師:披著羊皮的狼,逼我吃藥!

拳擊時空
2025-03-25 06:48:33
??湖人季后賽形勢分析:只需一勝就能鎖定前六,沖擊第二要看"別人臉色"

??湖人季后賽形勢分析:只需一勝就能鎖定前六,沖擊第二要看"別人臉色"

雷速體育
2025-04-07 14:29:09
緬甸首富兒子在香港慶生,與一群名流戶外喝酒,林恬兒霍思緯都在

緬甸首富兒子在香港慶生,與一群名流戶外喝酒,林恬兒霍思緯都在

樹娃
2025-04-04 11:32:30
美國發現一個“秘密”:每次對華加征關稅,中國就去找非洲,為何

美國發現一個“秘密”:每次對華加征關稅,中國就去找非洲,為何

奇點使者
2025-03-24 17:10:08
鄧小平孫子和毛新宇身份相似,卻因美國國籍受議論,邵華親自澄清

鄧小平孫子和毛新宇身份相似,卻因美國國籍受議論,邵華親自澄清

紅色記憶錄
2023-09-11 10:20:31
伊能靜回應與秦昊各玩過各的:我們沒有離婚只是各自過各自的生活

伊能靜回應與秦昊各玩過各的:我們沒有離婚只是各自過各自的生活

西瓜愛娛娛
2025-04-06 11:22:11
多地物業降費:“好房子”該有好服務 | 新京報社論

多地物業降費:“好房子”該有好服務 | 新京報社論

新京報評論
2025-04-06 23:07:57
朝鮮公開毛岸英犧牲真相:內容簡短卻很炸裂,真正兇手不是美國人

朝鮮公開毛岸英犧牲真相:內容簡短卻很炸裂,真正兇手不是美國人

南書房
2024-07-29 18:53:04
伍戈做了一張圖:關稅的盡頭是什么?

伍戈做了一張圖:關稅的盡頭是什么?

金石隨筆
2025-04-07 00:42:33
穆帥談捏鼻子事件:一張圖勝過萬語千言,相信好萊塢的人也看到了

穆帥談捏鼻子事件:一張圖勝過萬語千言,相信好萊塢的人也看到了

直播吧
2025-04-07 09:41:32
特朗普:若不是因為關稅 中國早已同意TikTok交易

特朗普:若不是因為關稅 中國早已同意TikTok交易

風華講史
2025-04-07 10:46:12
2025-04-08 02:07:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10324文章數 142284關注度
往期回顧 全部

科技要聞

Llama 4發布36小時差評如潮!匿名員工爆料

頭條要聞

外媒稱中方實際未對美方征收67%的關稅 外交部回應

頭條要聞

外媒稱中方實際未對美方征收67%的關稅 外交部回應

體育要聞

刷屏中文互聯網,甲亢哥是怎么火的?

娛樂要聞

汪小菲身旁的朋友,對馬筱梅的評價

財經要聞

美股巨震!特朗普關稅,又有新變化?

汽車要聞

途昂Pro的五套組合拳打完 看清油車的自我救贖

態度原創

時尚
房產
旅游
本地
公開課

這條裙子太好看了,可以從20歲穿到60歲

房產要聞

生猛!三亞開始巨量拆遷!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

本地新聞

我在新昌當女主|大佛寺氛圍感拉滿 古偶頂流機位GET

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 永胜县| 上思县| 岳西县| 会泽县| 四平市| 怀集县| 介休市| 扎囊县| 鞍山市| 长丰县| 龙胜| 湘潭市| 昌平区| 武隆县| 浮梁县| 荔浦县| 运城市| 四会市| 连山| 新龙县| 温州市| 田东县| 和硕县| 西乌珠穆沁旗| 县级市| 崇礼县| 三明市| 邹平县| 砚山县| 新平| 长岭县| 韶山市| 新田县| 镇安县| 灵宝市| 三明市| 承德县| 新乐市| 盐池县| 泸州市| 恭城|