99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

CLIP被淘汰了?LeCun謝賽寧新作,多模態訓練無需語言監督更強!

0
分享至


新智元報道

編輯:犀牛

【新智元導讀】LeCun謝賽寧等研究人員通過新模型Web-SSL驗證了SSL在多模態任務中的潛力,證明其在擴展模型和數據規模后,能媲美甚至超越CLIP。這項研究為無語言監督的視覺預訓練開辟新方向,并計劃開源模型以推動社區探索。

最近AI圈最火的模型非GPT-4o莫屬,各種風格圖片持續火爆全網。

如此強悍的圖片生成能力,得益于GPT-4o本身是一個原生多模態模型。

從最新發布的LLM來看,多模態已經成為絕對的主流。

在多模態領域,視覺表征學習正沿著兩條采用不同訓練方法的路徑發展。

其中語言監督方法,如對比語言-圖像預訓練(CLIP),利用成對的圖像-文本數據來學習富含語言語義的表示。

自監督學習(SSL)方法則僅從圖像中學習,不依賴語言。

在剛剛發布的一項研究中,楊立昆、謝賽寧等研究人員探討了一個基本問題:語言監督對于多模態建模的視覺表征預訓練是否必須?


論文地址:https://arxiv.org/pdf/2504.01017

研究團隊表示,他們并非試圖取代語言監督方法,而是希望理解視覺自監督方法在多模態應用上的內在能力和局限性。

盡管SSL模型在傳統視覺任務(如分類和分割)上表現優于語言監督模型,但在最近的多模態大語言模型(MLLMs)中,它們的應用卻較少。

部分原因是這兩種方法在視覺問答(VQA)任務中的性能差距(圖1),特別是在光學字符識別(OCR)和圖表解讀任務中。

除了方法上的差異,兩者在數據規模和分布上也存在不同(圖1)。

CLIP模型通常在網絡上收集的數十億級圖像-文本對上進行訓練,而SSL方法則使用百萬級數據集,如ImageNet,或具有類似ImageNet分布的數億規模數據。


圖1結果表明,通過適當擴展模型和數據規模,視覺SSL能夠在所有評估領域(甚至包括OCR和圖表任務)中匹配語言監督模型的性能

作為本文共同一作的David Fan興奮的表示,他們的研究表明,即便在OCR/Chart VQA上,視覺SSL也能具有競爭力!

正如他們新推出的完全在網頁圖像上訓練、沒有任何語言監督的Web-SSL模型系列(1B-7B參數)所展示的。


為了進行公平比較,研究團隊在數十億級規模網絡數據上訓練SSL模型,與最先進的CLIP模型相同。

在評估方面,主要使用VQA作為框架,采用了Cambrian-1提出的評估套件,該套件評估了16個任務,涵蓋4個不同的VQA類別:通用、知識、OCR和圖表、以及Vision-Centric。

研究團隊使用上述設置訓練了一系列參數從1B到7B的視覺SSL模型Web-SSL,以便在相同設置下與CLIP進行直接且受控的比較。

通過實證研究,研究團隊得出了以下幾點見解:

  • 視覺SSL在廣泛的VQA任務中能夠達到甚至超越語言監督方法進行視覺預訓練,甚至在與語言相關的任務(如OCR和圖表理解)上也是如此(圖3)。

  • 視覺SSL在模型容量(圖3)和數據規模(圖4)上的擴展性良好,表明SSL具有巨大的開發潛力。

  • 視覺SSL在提升VQA性能的同時,仍能保持在分類和分割等傳統視覺任務上的競爭力。

  • 在包含更多文本的圖像上進行訓練尤其能有效提升OCR和圖表任務的性能。探索數據構成是一個有前景的方向。

研究人員計劃開源Web-SSL視覺模型,希望激勵更廣泛的社區在多模態時代充分釋放視覺SSL的潛力。

視覺SSL 1.0到2.0

研究人員介紹了本文的實驗設置。相比之前的研究,他們做了以下擴展:

(1) 把數據集規模擴展到十億級別;

(2) 把模型參數規模擴展到超過1B;

(3) 除了用經典的視覺基準測試(比如ImageNet-1k和ADE20k)來評估模型外,還加入了開放式的VQA任務。


這些變化能在大規模上研究視覺SSL,觀察到之前小規模實驗看不到的規模效應趨勢

擴展視覺SSL

研究團隊探討了視覺SSL模型在模型規模和數據規模上的擴展表現,這些模型只用MC-2B的圖片數據來訓練。

  • 擴展模型規模:研究團隊把模型規模從10億參數增加到70億參數,同時保持訓練數據固定為20億張MC-2B圖片。他們用現成的訓練代碼和方法配方,不因模型大小不同而調整配方,以控制其他變量的影響。

  • 擴展看到的數據量:研究團隊把焦點轉向固定模型規模下增加總數據量,分析訓練時看到的圖片數量從10億增加到80億時,性能如何變化。

擴展模型規模

擴展模型規模的目的有兩個:一是找出在這種新數據模式下視覺SSL的性能上限,二是看看大模型會不會表現出一些獨特的行為。

為此,研究團隊用20億張無標簽的MC-2B圖片(224×224分辨率)預訓練了DINOv2 ViT模型,參數從10億到70億不等。沒有用高分辨率適配,以便能和CLIP公平比較。

研究團隊把這些模型稱為Web-DINO。為了對比,他們還用同樣數據訓練了相同規模的CLIP模型。

他們用VQA評估每個模型,結果展示在圖3中。

研究團隊表示,據他們所知,這是首次僅用視覺自監督訓練的視覺編碼器,在VQA上達到與語言監督編碼器相當的性能——甚至在傳統上高度依賴文字的OCR & 圖表類別上也是如此。

Web-DINO在平均VQA、OCR & 圖表、以及Vision-Centric VQA上的表現,隨著模型規模增加幾乎呈對數線性提升,但在通用和知識類VQA的提升幅度較小。

相比之下,CLIP在所有VQA類別的表現到30億參數后基本飽和。

這說明,小規模CLIP模型可能更擅長利用數據,但這種優勢在大規模CLIP模型上基本消失。

Web-DINO隨著模型規模增加持續提升,也表明視覺SSL能從更大的模型規模中獲益,超過70億參數的擴展是個有前景的方向。

在具體類別上,隨著模型規模增加,DINO在Vision-Centric VQA上越來越超過CLIP,在OCR & 圖表和平均VQA上也基本追平差距(圖3)。

到了50億參數及以上,DINO的平均VQA表現甚至超過CLIP,盡管它只用圖片訓練,沒有語言監督。

這表明,僅用視覺訓練的模型在CLIP分布的圖片上也能發展出強大的視覺特征,媲美語言監督的視覺編碼器。


Web-DINO模型在所有類別上都展現出新的「擴展行為」,尤其在OCR & 圖表和Vision-Centric領域,CLIP模型的擴展收益有限,性能在中等規模時就飽和了

擴展所見數據量

研究團隊研究了增加看到的數據量會怎樣影響性能,在MC-2B的10億到80億張圖片上訓練Web-DINO ViT-7B模型。

如圖4所示,通用和知識類VQA性能隨著看到的數據量增加逐步提升,分別在40億和20億張時飽和。

Vision-Centric VQA 性能從10億到20億張時提升明顯,超過20億張后飽和。

相比之下,OCR & 圖表是唯一隨著數據量增加持續提升的類別。

這說明,模型看到更多數據后,學到的表征越來越適合文字相關任務,同時其他能力也沒明顯下降。

另外,和同規模的CLIP模型(ViT-7B)相比,Web-DINO在相同數據量下的平均VQA表現始終更強(圖 4)。

尤其在看到80億張樣本后,Web-DINO在OCR & 圖表VQA任務上追平了CLIP的表現差距。

這進一步證明,視覺SSL模型可能比語言監督模型有更好的擴展潛力。


隨著訓練數據從10億增至80億張圖片,Web-DINO-7B在OCR和圖表任務中持續提升,而通用和視覺任務在20億張后收益遞減。總體上,Web-DINO在平均性能上穩步提高,并始終優于同規模的CLIP模型

Web-SSL系列模型

研究團隊在表3里展示了他們的視覺編碼器跟經典視覺編碼器對比所取得的最佳結果,涉及VQA和經典視覺任務。

Web-DINO在VQA和經典視覺任務上都能超越現成的MetaCLIP。

即便數據量比SigLIP和SigLIP2少5倍,也沒語言監督,Web-DINO在VQA上的表現還是能跟它們打平手。

總體來看,Web-DINO在傳統視覺基準測試中碾壓了所有現成的語言監督CLIP模型。

雖然研究人員最好的Web-DINO模型有70億參數,但結果表明,CLIP模型在中等規模的模型和數據量后就飽和了,而視覺SSL的性能隨著模型和數據規模的增加會逐步提升。

Web-DINO在所有VQA類別中也超過了現成的視覺SSL方法,包括DINOv2,在傳統視覺基準上也很有競爭力。


Web-DINO ViT-7B在沒有語言監督的情況下,在VQA任務上與CLIP模型表現相當,在傳統視覺任務上超過了它們

研究人員還額外對Web-DINO微調了2萬步,分別測試了378和518分辨率,以便跟更高分辨率的現成SigLIP和DINO版本對比。

從224到378再到518分辨率,Web-DINO在平均VQA表現上穩步提升,尤其在OCR和圖表任務上有明顯進步。

經典視覺任務的表現隨著分辨率提高略有提升。在384分辨率下,Web-DINO稍微落后于SigLIP;到了518分辨率,差距基本被抹平。

結果表明,Web-DINO可能還能從進一步的高分辨率適配中獲益。

作者介紹

David Fan


David Fan是Meta FAIR的高級研究工程師,研究方向是自監督學習和視頻表征。

曾在亞馬遜Prime Video擔任應用科學家,從事視頻理解和多模態表征學習的研究,重點關注自監督方法。

此前,他在普林斯頓大學以優異成績(Magna Cum Laude)獲得計算機科學理學工程學士學位,導師是Jia Deng教授。

Shengbang Tong


Peter Tong(Shengbang Tong,童晟邦)是NYU Courant CS的一名博士生,導師是Yann LeCun教授和謝賽寧教授。研究興趣是世界模型、無監督/自監督學習、生成模型和多模態模型。

此前,他在加州大學伯克利分校主修計算機科學、應用數學(榮譽)和統計學(榮譽)。并曾是伯克利人工智能實驗室(BAIR)的研究員,導師是馬毅教授和Jacob Steinhardt教授。

參考資料:

https://x.com/DavidJFan/status/1907448092204380630

https://arxiv.org/abs/2504.01017

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
昆明大火后續:死者是一家祖孫8扣人,從事修電動車,現場曝光

昆明大火后續:死者是一家祖孫8扣人,從事修電動車,現場曝光

小人物看盡人間百態
2025-04-14 23:34:25
高速路口,果斷擊斃!

高速路口,果斷擊斃!

微聚新余
2025-04-14 19:40:26
300423,重大資產重組,明起停牌!

300423,重大資產重組,明起停牌!

證券時報e公司
2025-04-14 22:31:02
江蘇65歲阿姨感染艾滋病,查明原因,醫生:這個細節被忽視了

江蘇65歲阿姨感染艾滋病,查明原因,醫生:這個細節被忽視了

黃家湖的憂傷
2025-03-31 17:26:16
錢小豪“毀滅史”,他的故事比你想得更惡劣

錢小豪“毀滅史”,他的故事比你想得更惡劣

陳意小可愛
2025-04-12 18:43:38
告訴大家一個壞消息:上海深圳已出現3大怪象,值得每個人深思

告訴大家一個壞消息:上海深圳已出現3大怪象,值得每個人深思

小熊侃史
2025-01-01 07:15:03
深圳春和府252套房源拿證,備案均價2.9萬/平

深圳春和府252套房源拿證,備案均價2.9萬/平

樂居財經官方
2025-04-14 15:57:13
美戰機被擊落!特朗普下令3國15萬軍隊集結

美戰機被擊落!特朗普下令3國15萬軍隊集結

小丸說故事
2025-04-14 21:58:50
劉震云:凡是讓你顧全大局的,你肯定不在大局里;凡是讓你不惜..

劉震云:凡是讓你顧全大局的,你肯定不在大局里;凡是讓你不惜..

清風拂心
2025-01-13 14:30:03
陳治珍主任:脾胃一通,鼻竅自通!鼻炎孩子,這個豆子要多吃!

陳治珍主任:脾胃一通,鼻竅自通!鼻炎孩子,這個豆子要多吃!

大明愛養生
2025-04-13 10:32:38
警告!未來三年,這些車型或將被淘汰,快來看看你的車在列嗎?

警告!未來三年,這些車型或將被淘汰,快來看看你的車在列嗎?

飯桶來講事
2025-04-13 00:15:15
剛剛宣布,10.3萬億元!

剛剛宣布,10.3萬億元!

大眾證券報
2025-04-14 11:05:36
51:48!美參議院否決了,特朗普關稅剛落地,后院打響反制第一槍

51:48!美參議院否決了,特朗普關稅剛落地,后院打響反制第一槍

楊門灼見
2025-04-14 13:40:46
快船124-119勇士!無解的不是贏球,是庫里評價哈登,他憋了太久

快船124-119勇士!無解的不是贏球,是庫里評價哈登,他憋了太久

巴叔GO聊體育
2025-04-14 11:19:51
兩歲女童跟爺爺玩一天,回家后娃拉“血尿”,醫生卻說不用治

兩歲女童跟爺爺玩一天,回家后娃拉“血尿”,醫生卻說不用治

菁媽育兒
2025-04-14 12:20:20
比“椰汁擦乳”還黃,又一擦邊直播間被封了!

比“椰汁擦乳”還黃,又一擦邊直播間被封了!

品牌觀察官
2025-04-14 19:39:49
個稅退稅要小心了!沒想到稅局竟這樣查個稅!抓緊自查!

個稅退稅要小心了!沒想到稅局竟這樣查個稅!抓緊自查!

曉風說
2025-04-14 17:03:19
俄羅斯對白宮做出表態,若美對中國動手,俄方會做中方最堅實后盾

俄羅斯對白宮做出表態,若美對中國動手,俄方會做中方最堅實后盾

特特農村生活
2025-04-14 19:18:33
真正的亞洲第一聯賽:中超新賽季觀眾人數遠超日本,重回第一!

真正的亞洲第一聯賽:中超新賽季觀眾人數遠超日本,重回第一!

邱澤云
2025-04-14 23:08:38
一舉揪出4條“大魚”!特朗普火速派人訪華

一舉揪出4條“大魚”!特朗普火速派人訪華

精英出鞘官方
2025-04-13 12:00:09
2025-04-15 02:08:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12527文章數 66013關注度
往期回顧 全部

科技要聞

多款熱門芯片暫停報價 華強北多檔口歇業

頭條要聞

任教31年被解聘教師:同情況只剩我一個仍是"編制外"

頭條要聞

任教31年被解聘教師:同情況只剩我一個仍是"編制外"

體育要聞

他演過周星馳電影,62歲還要拿世界冠軍

娛樂要聞

專訪 | 王安宇:角色是為觀眾服務的

財經要聞

通過人民幣貶值應對關稅?

汽車要聞

B級車要集體失眠? 吉利銀河星耀8"全都要"

態度原創

家居
房產
數碼
游戲
時尚

家居要聞

時間靜止 老房子的新生活

房產要聞

教育理想落地!9年制華師附與未來方洲正式簽約,定義“未來教育”新高度

數碼要聞

消息稱iPadOS 19將升級多任務及窗口管理,體驗更像macOS系統

LPL黑馬戰隊誕生!FPX爆冷擊敗JDG打破不敗金身!Care卡薩丁收割

金價暴漲!但還是想擁有朱珠的這條金項鏈,太好看了

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 长兴县| 临漳县| 伊川县| 右玉县| 鄂伦春自治旗| 华亭县| 淅川县| 龙川县| 兴义市| 武清区| 礼泉县| 孝义市| 广灵县| 五家渠市| 沛县| 河间市| 巩留县| 浦县| 淮安市| 邯郸市| 白朗县| 神农架林区| 司法| 贵阳市| 漳浦县| 刚察县| 合江县| 肥西县| 伊吾县| 涟源市| 武川县| 布拖县| 调兵山市| 边坝县| 绥芬河市| 碌曲县| 祁门县| 志丹县| 诏安县| 博野县| 伊川县|