99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

CLIP被淘汰了?LeCun謝賽寧新作,多模態訓練無需語言監督更強!

0
分享至


新智元報道

編輯:犀牛

【新智元導讀】LeCun謝賽寧等研究人員通過新模型Web-SSL驗證了SSL在多模態任務中的潛力,證明其在擴展模型和數據規模后,能媲美甚至超越CLIP。這項研究為無語言監督的視覺預訓練開辟新方向,并計劃開源模型以推動社區探索。

最近AI圈最火的模型非GPT-4o莫屬,各種風格圖片持續火爆全網。

如此強悍的圖片生成能力,得益于GPT-4o本身是一個原生多模態模型。

從最新發布的LLM來看,多模態已經成為絕對的主流。

在多模態領域,視覺表征學習正沿著兩條采用不同訓練方法的路徑發展。

其中語言監督方法,如對比語言-圖像預訓練(CLIP),利用成對的圖像-文本數據來學習富含語言語義的表示。

自監督學習(SSL)方法則僅從圖像中學習,不依賴語言。

在剛剛發布的一項研究中,楊立昆、謝賽寧等研究人員探討了一個基本問題:語言監督對于多模態建模的視覺表征預訓練是否必須?


論文地址:https://arxiv.org/pdf/2504.01017

研究團隊表示,他們并非試圖取代語言監督方法,而是希望理解視覺自監督方法在多模態應用上的內在能力和局限性。

盡管SSL模型在傳統視覺任務(如分類和分割)上表現優于語言監督模型,但在最近的多模態大語言模型(MLLMs)中,它們的應用卻較少。

部分原因是這兩種方法在視覺問答(VQA)任務中的性能差距(圖1),特別是在光學字符識別(OCR)和圖表解讀任務中。

除了方法上的差異,兩者在數據規模和分布上也存在不同(圖1)。

CLIP模型通常在網絡上收集的數十億級圖像-文本對上進行訓練,而SSL方法則使用百萬級數據集,如ImageNet,或具有類似ImageNet分布的數億規模數據。


圖1結果表明,通過適當擴展模型和數據規模,視覺SSL能夠在所有評估領域(甚至包括OCR和圖表任務)中匹配語言監督模型的性能

作為本文共同一作的David Fan興奮的表示,他們的研究表明,即便在OCR/Chart VQA上,視覺SSL也能具有競爭力!

正如他們新推出的完全在網頁圖像上訓練、沒有任何語言監督的Web-SSL模型系列(1B-7B參數)所展示的。


為了進行公平比較,研究團隊在數十億級規模網絡數據上訓練SSL模型,與最先進的CLIP模型相同。

在評估方面,主要使用VQA作為框架,采用了Cambrian-1提出的評估套件,該套件評估了16個任務,涵蓋4個不同的VQA類別:通用、知識、OCR和圖表、以及Vision-Centric。

研究團隊使用上述設置訓練了一系列參數從1B到7B的視覺SSL模型Web-SSL,以便在相同設置下與CLIP進行直接且受控的比較。

通過實證研究,研究團隊得出了以下幾點見解:

  • 視覺SSL在廣泛的VQA任務中能夠達到甚至超越語言監督方法進行視覺預訓練,甚至在與語言相關的任務(如OCR和圖表理解)上也是如此(圖3)。

  • 視覺SSL在模型容量(圖3)和數據規模(圖4)上的擴展性良好,表明SSL具有巨大的開發潛力。

  • 視覺SSL在提升VQA性能的同時,仍能保持在分類和分割等傳統視覺任務上的競爭力。

  • 在包含更多文本的圖像上進行訓練尤其能有效提升OCR和圖表任務的性能。探索數據構成是一個有前景的方向。

研究人員計劃開源Web-SSL視覺模型,希望激勵更廣泛的社區在多模態時代充分釋放視覺SSL的潛力。

視覺SSL 1.0到2.0

研究人員介紹了本文的實驗設置。相比之前的研究,他們做了以下擴展:

(1) 把數據集規模擴展到十億級別;

(2) 把模型參數規模擴展到超過1B;

(3) 除了用經典的視覺基準測試(比如ImageNet-1k和ADE20k)來評估模型外,還加入了開放式的VQA任務。


這些變化能在大規模上研究視覺SSL,觀察到之前小規模實驗看不到的規模效應趨勢

擴展視覺SSL

研究團隊探討了視覺SSL模型在模型規模和數據規模上的擴展表現,這些模型只用MC-2B的圖片數據來訓練。

  • 擴展模型規模:研究團隊把模型規模從10億參數增加到70億參數,同時保持訓練數據固定為20å„„å¼µMC-2B圖片。他們用現成的訓練代碼和方法配方,不因模型大小不同而調整配方,以控制其他變量的影響。

  • 擴展看到的數據量:研究團隊把焦點轉向固定模型規模下增加總數據量,分析訓練時看到的圖片數量從10億增加到80億時,性能如何變化。

擴展模型規模

擴展模型規模的目的有兩個:一是找出在這種新數據模式下視覺SSL的性能上限,二是看看大模型會不會表現出一些獨特的行為。

為此,研究團隊用20億張無標簽的MC-2B圖片(224×224分辨率)預訓練了DINOv2 ViT模型,參數從10億到70億不等。沒有用高分辨率適配,以便能和CLIP公平比較。

研究團隊把這些模型稱為Web-DINO。為了對比,他們還用同樣數據訓練了相同規模的CLIP模型。

他們用VQA評估每個模型,結果展示在圖3中。

研究團隊表示,據他們所知,這是首次僅用視覺自監督訓練的視覺編碼器,在VQA上達到與語言監督編碼器相當的性能——甚至在傳統上高度依賴文字的OCR & 圖表類別上也是如此。

Web-DINO在平均VQA、OCR & 圖表、以及Vision-Centric VQA上的表現,隨著模型規模增加幾乎呈對數線性提升,但在通用和知識類VQA的提升幅度較小。

相比之下,CLIP在所有VQA類別的表現到30億參數后基本飽和。

這說明,小規模CLIP模型可能更擅長利用數據,但這種優勢在大規模CLIP模型上基本消失。

Web-DINO隨著模型規模增加持續提升,也表明視覺SSL能從更大的模型規模中獲益,超過70億參數的擴展是個有前景的方向。

在具體類別上,隨著模型規模增加,DINO在Vision-Centric VQA上越來越超過CLIP,在OCR & 圖表和平均VQA上也基本追平差距(圖3)。

到了50億參數及以上,DINO的平均VQA表現甚至超過CLIP,盡管它只用圖片訓練,沒有語言監督。

這表明,僅用視覺訓練的模型在CLIP分布的圖片上也能發展出強大的視覺特征,媲美語言監督的視覺編碼器。


Web-DINO模型在所有類別上都展現出新的「擴展行為」,尤其在OCR & 圖表和Vision-Centric領域,CLIP模型的擴展收益有限,性能在中等規模時就飽和了

擴展所見數據量

研究團隊研究了增加看到的數據量會怎樣影響性能,在MC-2B的10億到80億張圖片上訓練Web-DINO ViT-7B模型。

如圖4所示,通用和知識類VQA性能隨著看到的數據量增加逐步提升,分別在40億和20億張時飽和。

Vision-Centric VQA 性能從10億到20億張時提升明顯,超過20億張后飽和。

相比之下,OCR & 圖表是唯一隨著數據量增加持續提升的類別。

這說明,模型看到更多數據后,學到的表征越來越適合文字相關任務,同時其他能力也沒明顯下降。

另外,和同規模的CLIP模型(ViT-7B)相比,Web-DINO在相同數據量下的平均VQA表現始終更強(圖 4)。

尤其在看到80億張樣本后,Web-DINO在OCR & 圖表VQA任務上追平了CLIP的表現差距。

這進一步證明,視覺SSL模型可能比語言監督模型有更好的擴展潛力。


隨著訓練數據從10億增至80億張圖片,Web-DINO-7B在OCR和圖表任務中持續提升,而通用和視覺任務在20億張后收益遞減。總體上,Web-DINO在平均性能上穩步提高,并始終優于同規模的CLIP模型

Web-SSL系列模型

研究團隊在表3里展示了他們的視覺編碼器跟經典視覺編碼器對比所取得的最佳結果,涉及VQA和經典視覺任務。

Web-DINO在VQA和經典視覺任務上都能超越現成的MetaCLIP。

即便數據量比SigLIP和SigLIP2少5倍,也沒語言監督,Web-DINO在VQA上的表現還是能跟它們打平手。

總體來看,Web-DINO在傳統視覺基準測試中碾壓了所有現成的語言監督CLIP模型。

雖然研究人員最好的Web-DINO模型有70億參數,但結果表明,CLIP模型在中等規模的模型和數據量后就飽和了,而視覺SSL的性能隨著模型和數據規模的增加會逐步提升。

Web-DINO在所有VQA類別中也超過了現成的視覺SSL方法,包括DINOv2,在傳統視覺基準上也很有競爭力。


Web-DINO ViT-7B在沒有語言監督的情況下,在VQA任務上與CLIP模型表現相當,在傳統視覺任務上超過了它們

研究人員還額外對Web-DINO微調了2萬步,分別測試了378和518分辨率,以便跟更高分辨率的現成SigLIP和DINO版本對比。

從224到378再到518分辨率,Web-DINO在平均VQA表現上穩步提升,尤其在OCR和圖表任務上有明顯進步。

經典視覺任務的表現隨著分辨率提高略有提升。在384分辨率下,Web-DINO稍微落后于SigLIP;到了518分辨率,差距基本被抹平。

結果表明,Web-DINO可能還能從進一步的高分辨率適配中獲益。

作者介紹

David Fan


David Fan是Meta FAIR的高級研究工程師,研究方向是自監督學習和視頻表征。

曾在亞馬遜Prime Video擔任應用科學家,從事視頻理解和多模態表征學習的研究,重點關注自監督方法。

此前,他在普林斯頓大學以優異成績(Magna Cum Laude)獲得計算機科學理學工程學士學位,導師是Jia Deng教授。

Shengbang Tong


Peter Tong(Shengbang Tong,童晟邦)是NYU Courant CS的一名博士生,導師是Yann LeCun教授和謝賽寧教授。研究興趣是世界模型、無監督/自監督學習、生成模型和多模態模型。

此前,他在加州大學伯克利分校主修計算機科學、應用數學(榮譽)和統計學(榮譽)。并曾是伯克利人工智能實驗室(BAIR)的研究員,導師是馬毅教授和Jacob Steinhardt教授。

參考資料:

https://x.com/DavidJFan/status/1907448092204380630

https://arxiv.org/abs/2504.01017

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
美對華加稅104%,中方奉陪到底,日媒發現不妙:中國或在拋售美債

美對華加稅104%,中方奉陪到底,日媒發現不妙:中國或在拋售美債

曉風說
2025-04-10 16:22:36
大反轉!上海地鐵猥褻事件男女主認識,自導自演劇本,女方被刑拘

大反轉!上海地鐵猥褻事件男女主認識,自導自演劇本,女方被刑拘

水晶的視界
2025-04-11 04:27:12
詩琳通公主現身北師大!陪同的于校長火了,氣質出眾還是學術女神

詩琳通公主現身北師大!陪同的于校長火了,氣質出眾還是學術女神

小俎娛樂
2025-04-10 20:45:06
沈陽美國領事館定于5月20日在沈陽拍賣美國二手家具家電

沈陽美國領事館定于5月20日在沈陽拍賣美國二手家具家電

遼沈音信
2025-04-10 22:02:03
NASA候任局長稱計劃“優先”將美宇航員送上火星,美反華議員不干了,又扯中國……

NASA候任局長稱計劃“優先”將美宇航員送上火星,美反華議員不干了,又扯中國……

環球網資訊
2025-04-10 19:51:16
拍視頻“表白同性”博流量!成都警方通報:兩人被采取刑事強制措施

拍視頻“表白同性”博流量!成都警方通報:兩人被采取刑事強制措施

封面新聞
2025-04-10 20:53:07
今晚,又崩了!

今晚,又崩了!

中國基金報
2025-04-11 00:15:26
深圳火鍋店持刀致2死后續:雙方是雇傭關系,知情人曝行兇原因!

深圳火鍋店持刀致2死后續:雙方是雇傭關系,知情人曝行兇原因!

古希臘掌管松餅的神
2025-04-10 19:17:40
小楊哥,正式向抖音宣戰!

小楊哥,正式向抖音宣戰!

營銷報
2025-04-09 12:02:06
東盟承諾不對美國關稅采取報復性措施

東盟承諾不對美國關稅采取報復性措施

財聯社
2025-04-10 14:05:08
中國留學生自殺未遂,簽證被吊銷,面臨遣返回國

中國留學生自殺未遂,簽證被吊銷,面臨遣返回國

大洛杉磯LA
2025-04-11 01:15:43
吳亦凡沖上熱搜,監獄近況曝光?網友:別太離譜了!

吳亦凡沖上熱搜,監獄近況曝光?網友:別太離譜了!

聽風聽你
2025-04-09 20:03:39
西部強強對話!ESPN預測明日湖人勝率為56.1%,火箭勝率為43.9%

西部強強對話!ESPN預測明日湖人勝率為56.1%,火箭勝率為43.9%

雷速體育
2025-04-11 10:03:09
反擊了,但可能只是開始……

反擊了,但可能只是開始……

新浪財經
2025-04-04 20:57:17
外交部回應美國對中國船只征收港口停靠費

外交部回應美國對中國船只征收港口停靠費

國際在線
2025-04-10 16:40:55
上海路邊偶遇朱珠,真人很一般,個不高但說話很溫柔

上海路邊偶遇朱珠,真人很一般,個不高但說話很溫柔

小鹿姐姐情感說
2025-04-11 01:12:38
Jennie出道后最大尺度!「上半身全光」只遮兩點 被贊世界級Icon

Jennie出道后最大尺度!「上半身全光」只遮兩點 被贊世界級Icon

ETtoday星光云
2025-04-09 11:17:11
女演員肖妍倪成植物人后蘇醒,曾因過度勞累突發心臟驟停

女演員肖妍倪成植物人后蘇醒,曾因過度勞累突發心臟驟停

素素娛樂
2025-04-09 11:00:49
火箭明日戰湖人!申京&范弗里特&小賈巴里出戰成疑 泰特缺席

火箭明日戰湖人!申京&范弗里特&小賈巴里出戰成疑 泰特缺席

直播吧
2025-04-11 08:49:15
生于1982年,趙丹擬任縣委書記

生于1982年,趙丹擬任縣委書記

魯中晨報
2025-04-10 21:35:03
2025-04-11 10:19:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12504文章數 66010關注度
往期回顧 全部

科技要聞

連夜包機!蘋果急運600噸印度產iPhone回美

頭條要聞

美對華加稅125% 美企業主遭滅頂之災:幾個月內或崩盤

體育要聞

趙勇任中國女排主教練 楊昊加盟教練組

娛樂要聞

甜馨簽樂華出道惹爭議 維護爸媽被質疑

財經要聞

專家提議重啟樓市應對美國關稅戰

汽車要聞

11萬即搭載激光雷達 零跑B10上市售9.98萬起

態度原創

房產
時尚
家居
數碼
旅游

房產要聞

官宣6月!地鐵12號線沖刺開通,白云金沙洲終于等來破局

初夏最時髦的30種背心搭配,太好看了!

家居要聞

追夢駐境 一步一景

數碼要聞

蘋果折疊 iPhone / iPad專利曝光:創新鉸鏈設計,延長柔性屏壽命

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 沐川县| 剑川县| 紫阳县| 吴忠市| 宁阳县| 武义县| 喀喇| 麻江县| 郯城县| 秦皇岛市| 江西省| 获嘉县| 青州市| 天水市| 遂溪县| 灌云县| 中阳县| 莱阳市| 宁远县| 松滋市| 黎平县| 蓬安县| 荥经县| 长宁县| 泗洪县| 德保县| 昌乐县| 桦川县| 达拉特旗| 长春市| 武宁县| 金沙县| 安阳县| 讷河市| 鸡泽县| 旬邑县| 偃师市| 手游| 姚安县| 遂宁市| 抚州市|