æ–°æ™ºå…ƒå ±é“
編輯:犀牛
ã€æ–°æ™ºå…ƒå°Žè®€ã€‘LeCunè¬è³½å¯§ç‰ç ”究人員通éŽæ–°æ¨¡åž‹Web-SSLé©—è‰äº†SSL在多模態任務ä¸çš„潛力,è‰æ˜Žå…¶åœ¨æ“´å±•æ¨¡åž‹å’Œæ•¸æ“šè¦æ¨¡åŽï¼Œèƒ½åª²ç¾Žç”šè‡³è¶…越CLIPã€‚é€™é …ç ”ç©¶ç‚ºç„¡èªžè¨€ç›£ç£çš„視覺é 訓練開辟新方å‘,并計劃開æºæ¨¡åž‹ä»¥æŽ¨å‹•ç¤¾å€æŽ¢ç´¢ã€‚
最近AI圈最ç«çš„模型éžGPT-4o莫屬,å„ç¨®é¢¨æ ¼åœ–ç‰‡æŒçºŒç«çˆ†å…¨ç¶²ã€‚
如æ¤å¼·æ‚的圖片生æˆèƒ½åŠ›ï¼Œå¾—益于GPT-4o本身是一個原生多模態模型。
從最新發布的LLM來看,多模態已經æˆç‚ºçµ•å°çš„主æµã€‚
åœ¨å¤šæ¨¡æ…‹é ˜åŸŸï¼Œè¦–è¦ºè¡¨å¾å¸ç¿’æ£æ²¿è‘—å…©æ¢é‡‡ç”¨ä¸åŒè¨“練方法的路徑發展。
å…¶ä¸èªžè¨€ç›£ç£æ–¹æ³•ï¼Œå¦‚å°æ¯”語言-圖åƒé 訓練(CLIP),利用æˆå°çš„圖åƒ-文本數據來å¸ç¿’富å«èªžè¨€èªžç¾©çš„表示。
自監ç£å¸ç¿’(SSL)方法則僅從圖åƒä¸å¸ç¿’,ä¸ä¾è³´èªžè¨€ã€‚
åœ¨å‰›å‰›ç™¼å¸ƒçš„ä¸€é …ç ”ç©¶ä¸ï¼Œæ¥Šç«‹æ˜†ã€è¬è³½å¯§ç‰ç ”究人員探討了一個基本å•é¡Œï¼šèªžè¨€ç›£ç£å°äºŽå¤šæ¨¡æ…‹å»ºæ¨¡çš„視覺表å¾é 訓練是å¦å¿…é ˆï¼Ÿ
論文地å€ï¼šhttps://arxiv.org/pdf/2504.01017
ç ”ç©¶åœ˜éšŠè¡¨ç¤ºï¼Œä»–å€‘å¹¶éžè©¦åœ–å–代語言監ç£æ–¹æ³•ï¼Œè€Œæ˜¯å¸Œæœ›ç†è§£è¦–覺自監ç£æ–¹æ³•åœ¨å¤šæ¨¡æ…‹æ‡‰ç”¨ä¸Šçš„內在能力和局é™æ€§ã€‚
盡管SSL模型在傳統視覺任務(如分類和分割)上表ç¾å„ªäºŽèªžè¨€ç›£ç£æ¨¡åž‹ï¼Œä½†åœ¨æœ€è¿‘的多模態大語言模型(MLLMs)ä¸ï¼Œå®ƒå€‘的應用å»è¼ƒå°‘。
éƒ¨åˆ†åŽŸå› æ˜¯é€™å…©ç¨®æ–¹æ³•åœ¨è¦–è¦ºå•ç”(VQA)任務ä¸çš„性能差è·ï¼ˆåœ–1),特別是在光å¸å—符è˜åˆ¥ï¼ˆOCR)和圖表解讀任務ä¸ã€‚
除了方法上的差異,兩者在數據è¦æ¨¡å’Œåˆ†å¸ƒä¸Šä¹Ÿå˜åœ¨ä¸åŒï¼ˆåœ–1)。
CLIP模型通常在網絡上收集的數å億級圖åƒ-文本å°ä¸Šé€²è¡Œè¨“練,而SSL方法則使用百è¬ç´šæ•¸æ“šé›†ï¼Œå¦‚ImageNet,或具有類似ImageNet分布的數億è¦æ¨¡æ•¸æ“šã€‚
圖1çµæžœè¡¨æ˜Žï¼Œé€šéŽé©ç•¶æ“´å±•æ¨¡åž‹å’Œæ•¸æ“šè¦æ¨¡ï¼Œè¦–覺SSLèƒ½å¤ åœ¨æ‰€æœ‰è©•ä¼°é ˜åŸŸï¼ˆç”šè‡³åŒ…æ‹¬OCR和圖表任務)ä¸åŒ¹é…語言監ç£æ¨¡åž‹çš„性能
作為本文共åŒä¸€ä½œçš„David Fanèˆˆå¥®çš„è¡¨ç¤ºï¼Œä»–å€‘çš„ç ”ç©¶è¡¨æ˜Žï¼Œå³ä¾¿åœ¨OCR/Chart VQA上,視覺SSL也能具有競çˆåŠ›ï¼
æ£å¦‚他們新推出的完全在網é 圖åƒä¸Šè¨“ç·´ã€æ²’有任何語言監ç£çš„Web-SSL模型系列(1B-7Båƒæ•¸)所展示的。
ç‚ºäº†é€²è¡Œå…¬å¹³æ¯”è¼ƒï¼Œç ”ç©¶åœ˜éšŠåœ¨æ•¸åå„„ç´šè¦æ¨¡ç¶²çµ¡æ•¸æ“šä¸Šè¨“ç·´SSL模型,與最先進的CLIP模型相åŒã€‚
在評估方é¢ï¼Œä¸»è¦ä½¿ç”¨VQA作為框架,采用了Cambrian-1æ出的評估套件,該套件評估了16個任務,涵蓋4個ä¸åŒçš„VQA類別:通用ã€çŸ¥è˜ã€OCR和圖表ã€ä»¥åŠVision-Centric。
ç ”ç©¶åœ˜éšŠä½¿ç”¨ä¸Šè¿°è¨ç½®è¨“練了一系列åƒæ•¸å¾ž1B到7B的視覺SSL模型Web-SSL,以便在相åŒè¨ç½®ä¸‹èˆ‡CLIP進行直接且å—控的比較。
通éŽå¯¦è‰ç ”ç©¶ï¼Œç ”ç©¶åœ˜éšŠå¾—å‡ºäº†ä»¥ä¸‹å¹¾é»žè¦‹è§£ï¼š
視覺SSL在廣泛的VQA任務ä¸èƒ½å¤ é”到甚至超越語言監ç£æ–¹æ³•é€²è¡Œè¦–覺é 訓練,甚至在與語言相關的任務(如OCR和圖表ç†è§£ï¼‰ä¸Šä¹Ÿæ˜¯å¦‚æ¤ï¼ˆåœ–3)。
視覺SSL在模型容é‡ï¼ˆåœ–3)和數據è¦æ¨¡ï¼ˆåœ–4)上的擴展性良好,表明SSL具有巨大的開發潛力。
視覺SSL在æå‡VQA性能的åŒæ™‚,ä»èƒ½ä¿æŒåœ¨åˆ†é¡žå’Œåˆ†å‰²ç‰å‚³çµ±è¦–覺任務上的競çˆåŠ›ã€‚
在包å«æ›´å¤šæ–‡æœ¬çš„圖åƒä¸Šé€²è¡Œè¨“練尤其能有效æå‡OCR和圖表任務的性能。探索數據構æˆæ˜¯ä¸€å€‹æœ‰å‰æ™¯çš„æ–¹å‘。
ç ”ç©¶äººå“¡è¨ˆåŠƒé–‹æºWeb-SSL視覺模型,希望激勵更廣泛的社å€åœ¨å¤šæ¨¡æ…‹æ™‚代充分釋放視覺SSL的潛力。
視覺SSL 1.0到2.0
ç ”ç©¶äººå“¡ä»‹ç´¹äº†æœ¬æ–‡çš„å¯¦é©—è¨ç½®ã€‚相比之å‰çš„ç ”ç©¶ï¼Œä»–å€‘åšäº†ä»¥ä¸‹æ“´å±•ï¼š
(1) 把數據集è¦æ¨¡æ“´å±•åˆ°å億級別;
(2) 把模型åƒæ•¸è¦æ¨¡æ“´å±•åˆ°è¶…éŽ1Bï¼›
(3) 除了用經典的視覺基準測試(比如ImageNet-1kå’ŒADE20kï¼‰ä¾†è©•ä¼°æ¨¡åž‹å¤–ï¼Œé‚„åŠ å…¥äº†é–‹æ”¾å¼çš„VQA任務。
這些變化能在大è¦æ¨¡ä¸Šç ”究視覺SSL,觀察到之å‰å°è¦æ¨¡å¯¦é©—看ä¸åˆ°çš„è¦æ¨¡æ•ˆæ‡‰è¶¨å‹¢
擴展視覺SSL
ç ”ç©¶åœ˜éšŠæŽ¢è¨Žäº†è¦–è¦ºSSL模型在模型è¦æ¨¡å’Œæ•¸æ“šè¦æ¨¡ä¸Šçš„擴展表ç¾ï¼Œé€™äº›æ¨¡åž‹åªç”¨MC-2B的圖片數據來訓練。
擴展模型è¦æ¨¡ï¼šç ”究團隊把模型è¦æ¨¡å¾ž10å„„åƒæ•¸å¢žåŠ 到70å„„åƒæ•¸ï¼ŒåŒæ™‚ä¿æŒè¨“練數據固定為20å„„å¼µMC-2B圖片。他們用ç¾æˆçš„訓練代碼和方法é…方,ä¸å› 模型大å°ä¸åŒè€Œèª¿æ•´é…方,以控制其他變é‡çš„影響。
擴展看到的數據é‡ï¼šç ”究團隊把焦點轉å‘固定模型è¦æ¨¡ä¸‹å¢žåŠ 總數據é‡ï¼Œåˆ†æžè¨“練時看到的圖片數é‡å¾ž10å„„å¢žåŠ åˆ°80億時,性能如何變化。
擴展模型è¦æ¨¡
擴展模型è¦æ¨¡çš„目的有兩個:一是找出在這種新數據模å¼ä¸‹è¦–覺SSL的性能上é™ï¼ŒäºŒæ˜¯çœ‹çœ‹å¤§æ¨¡åž‹æœƒä¸æœƒè¡¨ç¾å‡ºä¸€äº›ç¨ç‰¹çš„行為。
為æ¤ï¼Œç ”究團隊用20億張無標簽的MC-2B圖片(224×224分辨率)é 訓練了DINOv2 ViT模型,åƒæ•¸å¾ž10億到70å„„ä¸ç‰ã€‚沒有用高分辨率é©é…,以便能和CLIP公平比較。
ç ”ç©¶åœ˜éšŠæŠŠé€™äº›æ¨¡åž‹ç¨±ç‚ºWeb-DINO。為了å°æ¯”,他們還用åŒæ¨£æ•¸æ“šè¨“練了相åŒè¦æ¨¡çš„CLIP模型。
他們用VQAè©•ä¼°æ¯å€‹æ¨¡åž‹ï¼Œçµæžœå±•ç¤ºåœ¨åœ–3ä¸ã€‚
ç ”ç©¶åœ˜éšŠè¡¨ç¤ºï¼Œæ“šä»–å€‘æ‰€çŸ¥ï¼Œé€™æ˜¯é¦–æ¬¡åƒ…ç”¨è¦–è¦ºè‡ªç›£ç£è¨“練的視覺編碼器,在VQA上é”到與語言監ç£ç·¨ç¢¼å™¨ç›¸ç•¶çš„性能——甚至在傳統上高度ä¾è³´æ–‡å—çš„OCR & 圖表類別上也是如æ¤ã€‚
Web-DINO在平å‡VQAã€OCR & 圖表ã€ä»¥åŠVision-Centric VQA上的表ç¾ï¼Œéš¨è‘—模型è¦æ¨¡å¢žåŠ 幾乎呈å°æ•¸ç·šæ€§æå‡ï¼Œä½†åœ¨é€šç”¨å’ŒçŸ¥è˜é¡žVQAçš„æå‡å¹…度較å°ã€‚
相比之下,CLIP在所有VQA類別的表ç¾åˆ°30å„„åƒæ•¸åŽåŸºæœ¬é£½å’Œã€‚
這說明,å°è¦æ¨¡CLIP模型å¯èƒ½æ›´æ“…長利用數據,但這種優勢在大è¦æ¨¡CLIP模型上基本消失。
Web-DINO隨著模型è¦æ¨¡å¢žåŠ æŒçºŒæå‡ï¼Œä¹Ÿè¡¨æ˜Žè¦–覺SSL能從更大的模型è¦æ¨¡ä¸ç²ç›Šï¼Œè¶…éŽ70å„„åƒæ•¸çš„擴展是個有å‰æ™¯çš„æ–¹å‘。
在具體類別上,隨著模型è¦æ¨¡å¢žåŠ ,DINO在Vision-Centric VQA上越來越超éŽCLIP,在OCR & 圖表和平å‡VQA上也基本追平差è·ï¼ˆåœ–3)。
到了50å„„åƒæ•¸åŠä»¥ä¸Šï¼ŒDINOçš„å¹³å‡VQA表ç¾ç”šè‡³è¶…éŽCLIP,盡管它åªç”¨åœ–片訓練,沒有語言監ç£ã€‚
這表明,僅用視覺訓練的模型在CLIP分布的圖片上也能發展出強大的視覺特å¾ï¼Œåª²ç¾Žèªžè¨€ç›£ç£çš„視覺編碼器。
Web-DINO模型在所有類別上都展ç¾å‡ºæ–°çš„「擴展行為ã€ï¼Œå°¤å…¶åœ¨OCR & 圖表和Vision-Centricé ˜åŸŸï¼ŒCLIP模型的擴展收益有é™ï¼Œæ€§èƒ½åœ¨ä¸ç‰è¦æ¨¡æ™‚就飽和了
擴展所見數據é‡
ç ”ç©¶åœ˜éšŠç ”ç©¶äº†å¢žåŠ çœ‹åˆ°çš„æ•¸æ“šé‡æœƒæ€Žæ¨£å½±éŸ¿æ€§èƒ½ï¼Œåœ¨MC-2Bçš„10億到80億張圖片上訓練Web-DINO ViT-7B模型。
如圖4所示,通用和知è˜é¡žVQA性能隨著看到的數據é‡å¢žåŠ é€æ¥æå‡ï¼Œåˆ†åˆ¥åœ¨40å„„å’Œ20億張時飽和。
Vision-Centric VQA 性能從10億到20億張時æå‡æ˜Žé¡¯ï¼Œè¶…éŽ20å„„å¼µåŽé£½å’Œã€‚
相比之下,OCR & 圖表是唯一隨著數據é‡å¢žåŠ æŒçºŒæå‡çš„類別。
這說明,模型看到更多數據åŽï¼Œå¸åˆ°çš„表å¾è¶Šä¾†è¶Šé©åˆæ–‡å—相關任務,åŒæ™‚其他能力也沒明顯下é™ã€‚
å¦å¤–,和åŒè¦æ¨¡çš„CLIP模型(ViT-7B)相比,Web-DINO在相åŒæ•¸æ“šé‡ä¸‹çš„å¹³å‡VQA表ç¾å§‹çµ‚更強(圖 4)。
尤其在看到80億張樣本åŽï¼ŒWeb-DINO在OCR & 圖表VQA任務上追平了CLIP的表ç¾å·®è·ã€‚
這進一æ¥è‰æ˜Žï¼Œè¦–覺SSL模型å¯èƒ½æ¯”語言監ç£æ¨¡åž‹æœ‰æ›´å¥½çš„擴展潛力。
隨著訓練數據從10億增至80億張圖片,Web-DINO-7B在OCR和圖表任務ä¸æŒçºŒæå‡ï¼Œè€Œé€šç”¨å’Œè¦–覺任務在20å„„å¼µåŽæ”¶ç›Šéžæ¸›ã€‚總體上,Web-DINO在平å‡æ€§èƒ½ä¸Šç©©æ¥æ高,并始終優于åŒè¦æ¨¡çš„CLIP模型
Web-SSL系列模型
ç ”ç©¶åœ˜éšŠåœ¨è¡¨3里展示了他們的視覺編碼器跟經典視覺編碼器å°æ¯”所å–得的最佳çµæžœï¼Œæ¶‰åŠVQA和經典視覺任務。
Web-DINO在VQA和經典視覺任務上都能超越ç¾æˆçš„MetaCLIP。
å³ä¾¿æ•¸æ“šé‡æ¯”SigLIPå’ŒSigLIP2å°‘5å€ï¼Œä¹Ÿæ²’語言監ç£ï¼ŒWeb-DINO在VQA上的表ç¾é‚„是能跟它們打平手。
總體來看,Web-DINO在傳統視覺基準測試ä¸ç¢¾å£“了所有ç¾æˆçš„語言監ç£CLIP模型。
é›–ç„¶ç ”ç©¶äººå“¡æœ€å¥½çš„Web-DINO模型有70å„„åƒæ•¸ï¼Œä½†çµæžœè¡¨æ˜Žï¼ŒCLIP模型在ä¸ç‰è¦æ¨¡çš„模型和數據é‡åŽå°±é£½å’Œäº†ï¼Œè€Œè¦–覺SSL的性能隨著模型和數據è¦æ¨¡çš„å¢žåŠ æœƒé€æ¥æå‡ã€‚
Web-DINO在所有VQA類別ä¸ä¹Ÿè¶…éŽäº†ç¾æˆçš„視覺SSL方法,包括DINOv2,在傳統視覺基準上也很有競çˆåŠ›ã€‚
Web-DINO ViT-7B在沒有語言監ç£çš„情æ³ä¸‹ï¼Œåœ¨VQA任務上與CLIP模型表ç¾ç›¸ç•¶ï¼Œåœ¨å‚³çµ±è¦–覺任務上超éŽäº†å®ƒå€‘
ç ”ç©¶äººå“¡é‚„é¡å¤–å°Web-DINO微調了2è¬æ¥ï¼Œåˆ†åˆ¥æ¸¬è©¦äº†378å’Œ518分辨率,以便跟更高分辨率的ç¾æˆSigLIPå’ŒDINO版本å°æ¯”。
從224到378å†åˆ°518分辨率,Web-DINO在平å‡VQA表ç¾ä¸Šç©©æ¥æå‡ï¼Œå°¤å…¶åœ¨OCR和圖表任務上有明顯進æ¥ã€‚
經典視覺任務的表ç¾éš¨è‘—分辨率æ高略有æå‡ã€‚在384分辨率下,Web-DINOç¨å¾®è½åŽäºŽSigLIP;到了518分辨率,差è·åŸºæœ¬è¢«æŠ¹å¹³ã€‚
çµæžœè¡¨æ˜Žï¼ŒWeb-DINOå¯èƒ½é‚„能從進一æ¥çš„高分辨率é©é…ä¸ç²ç›Šã€‚
作者介紹
David Fan
David Fan是Meta FAIRçš„é«˜ç´šç ”ç©¶å·¥ç¨‹å¸«ï¼Œç ”ç©¶æ–¹å‘是自監ç£å¸ç¿’å’Œè¦–é »è¡¨å¾ã€‚
曾在亞馬éœPrime Video擔任應用科å¸å®¶ï¼Œå¾žäº‹è¦–é »ç†è§£å’Œå¤šæ¨¡æ…‹è¡¨å¾å¸ç¿’çš„ç ”ç©¶ï¼Œé‡é»žé—œæ³¨è‡ªç›£ç£æ–¹æ³•ã€‚
æ¤å‰ï¼Œä»–åœ¨æ™®æž—æ–¯é “å¤§å¸ä»¥å„ªç•°æˆç¸¾ï¼ˆMagna Cum Laude)ç²å¾—計算機科å¸ç†å¸å·¥ç¨‹å¸å£«å¸ä½ï¼Œå°Žå¸«æ˜¯Jia Deng教授。
Shengbang Tong
Peter Tong(Shengbang Tong,童晟邦)是NYU Courant CS的一ååšå£«ç”Ÿï¼Œå°Žå¸«æ˜¯Yann LeCun教授和è¬è³½å¯§æ•™æŽˆã€‚ç ”ç©¶èˆˆè¶£æ˜¯ä¸–ç•Œæ¨¡åž‹ã€ç„¡ç›£ç£/自監ç£å¸ç¿’ã€ç”Ÿæˆæ¨¡åž‹å’Œå¤šæ¨¡æ…‹æ¨¡åž‹ã€‚
æ¤å‰ï¼Œä»–åœ¨åŠ å·žå¤§å¸ä¼¯å…‹åˆ©åˆ†æ ¡ä¸»ä¿®è¨ˆç®—機科å¸ã€æ‡‰ç”¨æ•¸å¸ï¼ˆæ¦®è½ï¼‰å’Œçµ±è¨ˆå¸ï¼ˆæ¦®è½ï¼‰ã€‚并曾是伯克利人工智能實驗室(BAIRï¼‰çš„ç ”ç©¶å“¡ï¼Œå°Žå¸«æ˜¯é¦¬æ¯…æ•™æŽˆå’ŒJacob Steinhardt教授。
åƒè€ƒè³‡æ–™ï¼š
https://x.com/DavidJFan/status/1907448092204380630
https://arxiv.org/abs/2504.01017
特別è²æ˜Žï¼šä»¥ä¸Šå…§å®¹(å¦‚æœ‰åœ–ç‰‡æˆ–è¦–é »äº¦åŒ…æ‹¬åœ¨å…§)為自媒體平臺“網易號â€ç”¨æˆ¶ä¸Šå‚³å¹¶ç™¼å¸ƒï¼Œæœ¬å¹³è‡ºåƒ…æ供信æ¯å˜å„²æœå‹™ã€‚
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.