ç¶²æ˜“é¦–é > ç¶²æ˜“è™Ÿ > æ£æ–‡ ç”³è«‹å…¥é§

CLIPè¢«æ·˜æ±°äº†ï¼ŸLeCunè¬è³½å¯§æ–°ä½œï¼Œå¤šæ¨¡æ…‹è¨“ç·´ç„¡éœ€èªžè¨€ç›£ç£æ›´å¼·ï¼

2025-04-07 13:11:02ã€€ä¾†æº: æ–°æ™ºå…ƒ

åŒ—äº¬ èˆ‰å ±

åˆ†äº«è‡³

æ–°æ™ºå…ƒå ±é“

ç·¨è¼¯ï¼šçŠ€ç‰›

ã€æ–°æ™ºå…ƒå°Žè®€ã€‘LeCunè¬è³½å¯§ç‰ç ”ç©¶äººå“¡é€šéŽæ–°æ¨¡åž‹Web-SSLé©—è‰äº†SSLåœ¨å¤šæ¨¡æ…‹ä»»å‹™ä¸çš„æ½›åŠ›ï¼Œè‰æ˜Žå…¶åœ¨æ“´å±•æ¨¡åž‹å’Œæ•¸æ“šè¦æ¨¡åŽï¼Œèƒ½åª²ç¾Žç”šè‡³è¶…è¶ŠCLIPã€‚é€™é …ç ”ç©¶ç‚ºç„¡èªžè¨€ç›£ç£çš„è¦–è¦ºé è¨“ç·´é–‹è¾Ÿæ–°æ–¹å‘ï¼Œå¹¶è¨ˆåŠƒé–‹æºæ¨¡åž‹ä»¥æŽ¨å‹•ç¤¾å€æŽ¢ç´¢ã€‚

æœ€è¿‘AIåœˆæœ€ç«çš„æ¨¡åž‹éžGPT-4oèŽ«å±¬ï¼Œå„ç¨®é¢¨æ ¼åœ–ç‰‡æŒçºŒç«çˆ†å…¨ç¶²ã€‚

å¦‚æ¤å¼·æ‚çš„åœ–ç‰‡ç”Ÿæˆèƒ½åŠ›ï¼Œå¾—ç›ŠäºŽGPT-4oæœ¬èº«æ˜¯ä¸€å€‹åŽŸç”Ÿå¤šæ¨¡æ…‹æ¨¡åž‹ã€‚

å¾žæœ€æ–°ç™¼å¸ƒçš„LLMä¾†çœ‹ï¼Œå¤šæ¨¡æ…‹å·²ç¶“æˆç‚ºçµ•å°çš„ä¸»æµã€‚

åœ¨å¤šæ¨¡æ…‹é ˜åŸŸï¼Œè¦–è¦ºè¡¨å¾å¸ç¿’æ£æ²¿è‘—å…©æ¢é‡‡ç”¨ä¸åŒè¨“ç·´æ–¹æ³•çš„è·¯å¾‘ç™¼å±•ã€‚

å…¶ä¸èªžè¨€ç›£ç£æ–¹æ³•ï¼Œå¦‚å°æ¯”èªžè¨€-åœ–åƒé è¨“ç·´ï¼ˆCLIPï¼‰ï¼Œåˆ©ç”¨æˆå°çš„åœ–åƒ-æ–‡æœ¬æ•¸æ“šä¾†å¸ç¿’å¯Œå«èªžè¨€èªžç¾©çš„è¡¨ç¤ºã€‚

è‡ªç›£ç£å¸ç¿’ï¼ˆSSLï¼‰æ–¹æ³•å‰‡åƒ…å¾žåœ–åƒä¸å¸ç¿’ï¼Œä¸ä¾è³´èªžè¨€ã€‚

åœ¨å‰›å‰›ç™¼å¸ƒçš„ä¸€é …ç ”ç©¶ä¸ï¼Œæ¥Šç«‹æ˜†ã€è¬è³½å¯§ç‰ç ”ç©¶äººå“¡æŽ¢è¨Žäº†ä¸€å€‹åŸºæœ¬å•é¡Œï¼šèªžè¨€ç›£ç£å°äºŽå¤šæ¨¡æ…‹å»ºæ¨¡çš„è¦–è¦ºè¡¨å¾é è¨“ç·´æ˜¯å¦å¿…é ˆï¼Ÿ

è«–æ–‡åœ°å€ï¼šhttps://arxiv.org/pdf/2504.01017

ç ”ç©¶åœ˜éšŠè¡¨ç¤ºï¼Œä»–å€‘å¹¶éžè©¦åœ–å–ä»£èªžè¨€ç›£ç£æ–¹æ³•ï¼Œè€Œæ˜¯å¸Œæœ›ç†è§£è¦–è¦ºè‡ªç›£ç£æ–¹æ³•åœ¨å¤šæ¨¡æ…‹æ‡‰ç”¨ä¸Šçš„å…§åœ¨èƒ½åŠ›å’Œå±€é™æ€§ã€‚

ç›¡ç®¡SSLæ¨¡åž‹åœ¨å‚³çµ±è¦–è¦ºä»»å‹™ï¼ˆå¦‚åˆ†é¡žå’Œåˆ†å‰²ï¼‰ä¸Šè¡¨ç¾å„ªäºŽèªžè¨€ç›£ç£æ¨¡åž‹ï¼Œä½†åœ¨æœ€è¿‘çš„å¤šæ¨¡æ…‹å¤§èªžè¨€æ¨¡åž‹ï¼ˆMLLMsï¼‰ä¸ï¼Œå®ƒå€‘çš„æ‡‰ç”¨å»è¼ƒå°‘ã€‚

éƒ¨åˆ†åŽŸå› æ˜¯é€™å…©ç¨®æ–¹æ³•åœ¨è¦–è¦ºå•ç”ï¼ˆVQAï¼‰ä»»å‹™ä¸çš„æ€§èƒ½å·®è·ï¼ˆåœ–1ï¼‰ï¼Œç‰¹åˆ¥æ˜¯åœ¨å…‰å¸å—ç¬¦è˜åˆ¥ï¼ˆOCRï¼‰å’Œåœ–è¡¨è§£è®€ä»»å‹™ä¸ã€‚

é™¤äº†æ–¹æ³•ä¸Šçš„å·®ç•°ï¼Œå…©è€…åœ¨æ•¸æ“šè¦æ¨¡å’Œåˆ†å¸ƒä¸Šä¹Ÿå˜åœ¨ä¸åŒï¼ˆåœ–1ï¼‰ã€‚

CLIPæ¨¡åž‹é€šå¸¸åœ¨ç¶²çµ¡ä¸Šæ”¶é›†çš„æ•¸åå„„ç´šåœ–åƒ-æ–‡æœ¬å°ä¸Šé€²è¡Œè¨“ç·´ï¼Œè€ŒSSLæ–¹æ³•å‰‡ä½¿ç”¨ç™¾è¬ç´šæ•¸æ“šé›†ï¼Œå¦‚ImageNetï¼Œæˆ–å…·æœ‰é¡žä¼¼ImageNetåˆ†å¸ƒçš„æ•¸å„„è¦æ¨¡æ•¸æ“šã€‚

åœ–1çµæžœè¡¨æ˜Žï¼Œé€šéŽé©ç•¶æ“´å±•æ¨¡åž‹å’Œæ•¸æ“šè¦æ¨¡ï¼Œè¦–è¦ºSSLèƒ½å¤ åœ¨æ‰€æœ‰è©•ä¼°é ˜åŸŸï¼ˆç”šè‡³åŒ…æ‹¬OCRå’Œåœ–è¡¨ä»»å‹™ï¼‰ä¸åŒ¹é…èªžè¨€ç›£ç£æ¨¡åž‹çš„æ€§èƒ½

ä½œç‚ºæœ¬æ–‡å…±åŒä¸€ä½œçš„David Fanèˆˆå¥®çš„è¡¨ç¤ºï¼Œä»–å€‘çš„ç ”ç©¶è¡¨æ˜Žï¼Œå³ä¾¿åœ¨OCR/Chart VQAä¸Šï¼Œè¦–è¦ºSSLä¹Ÿèƒ½å…·æœ‰ç«¶çˆåŠ›ï¼

æ£å¦‚ä»–å€‘æ–°æŽ¨å‡ºçš„å®Œå…¨åœ¨ç¶²é åœ–åƒä¸Šè¨“ç·´ã€æ²’æœ‰ä»»ä½•èªžè¨€ç›£ç£çš„Web-SSLæ¨¡åž‹ç³»åˆ—(1B-7Båƒæ•¸)æ‰€å±•ç¤ºçš„ã€‚

ç‚ºäº†é€²è¡Œå…¬å¹³æ¯”è¼ƒï¼Œç ”ç©¶åœ˜éšŠåœ¨æ•¸åå„„ç´šè¦æ¨¡ç¶²çµ¡æ•¸æ“šä¸Šè¨“ç·´SSLæ¨¡åž‹ï¼Œèˆ‡æœ€å…ˆé€²çš„CLIPæ¨¡åž‹ç›¸åŒã€‚

åœ¨è©•ä¼°æ–¹é¢ï¼Œä¸»è¦ä½¿ç”¨VQAä½œç‚ºæ¡†æž¶ï¼Œé‡‡ç”¨äº†Cambrian-1æå‡ºçš„è©•ä¼°å¥—ä»¶ï¼Œè©²å¥—ä»¶è©•ä¼°äº†16å€‹ä»»å‹™ï¼Œæ¶µè“‹4å€‹ä¸åŒçš„VQAé¡žåˆ¥ï¼šé€šç”¨ã€çŸ¥è˜ã€OCRå’Œåœ–è¡¨ã€ä»¥åŠVision-Centricã€‚

ç ”ç©¶åœ˜éšŠä½¿ç”¨ä¸Šè¿°è¨ç½®è¨“ç·´äº†ä¸€ç³»åˆ—åƒæ•¸å¾ž1Båˆ°7Bçš„è¦–è¦ºSSLæ¨¡åž‹Web-SSLï¼Œä»¥ä¾¿åœ¨ç›¸åŒè¨ç½®ä¸‹èˆ‡CLIPé€²è¡Œç›´æŽ¥ä¸”å—æŽ§çš„æ¯”è¼ƒã€‚

é€šéŽå¯¦è‰ç ”ç©¶ï¼Œç ”ç©¶åœ˜éšŠå¾—å‡ºäº†ä»¥ä¸‹å¹¾é»žè¦‹è§£ï¼š

è¦–è¦ºSSLåœ¨å»£æ³›çš„VQAä»»å‹™ä¸èƒ½å¤ é”åˆ°ç”šè‡³è¶…è¶Šèªžè¨€ç›£ç£æ–¹æ³•é€²è¡Œè¦–è¦ºé è¨“ç·´ï¼Œç”šè‡³åœ¨èˆ‡èªžè¨€ç›¸é—œçš„ä»»å‹™ï¼ˆå¦‚OCRå’Œåœ–è¡¨ç†è§£ï¼‰ä¸Šä¹Ÿæ˜¯å¦‚æ¤ï¼ˆåœ–3ï¼‰ã€‚
è¦–è¦ºSSLåœ¨æ¨¡åž‹å®¹é‡ï¼ˆåœ–3ï¼‰å’Œæ•¸æ“šè¦æ¨¡ï¼ˆåœ–4ï¼‰ä¸Šçš„æ“´å±•æ€§è‰¯å¥½ï¼Œè¡¨æ˜ŽSSLå…·æœ‰å·¨å¤§çš„é–‹ç™¼æ½›åŠ›ã€‚
è¦–è¦ºSSLåœ¨æå‡VQAæ€§èƒ½çš„åŒæ™‚ï¼Œä»èƒ½ä¿æŒåœ¨åˆ†é¡žå’Œåˆ†å‰²ç‰å‚³çµ±è¦–è¦ºä»»å‹™ä¸Šçš„ç«¶çˆåŠ›ã€‚
åœ¨åŒ…å«æ›´å¤šæ–‡æœ¬çš„åœ–åƒä¸Šé€²è¡Œè¨“ç·´å°¤å…¶èƒ½æœ‰æ•ˆæå‡OCRå’Œåœ–è¡¨ä»»å‹™çš„æ€§èƒ½ã€‚æŽ¢ç´¢æ•¸æ“šæ§‹æˆæ˜¯ä¸€å€‹æœ‰å‰æ™¯çš„æ–¹å‘ã€‚

ç ”ç©¶äººå“¡è¨ˆåŠƒé–‹æºWeb-SSLè¦–è¦ºæ¨¡åž‹ï¼Œå¸Œæœ›æ¿€å‹µæ›´å»£æ³›çš„ç¤¾å€åœ¨å¤šæ¨¡æ…‹æ™‚ä»£å……åˆ†é‡‹æ”¾è¦–è¦ºSSLçš„æ½›åŠ›ã€‚

è¦–è¦ºSSL 1.0åˆ°2.0

ç ”ç©¶äººå“¡ä»‹ç´¹äº†æœ¬æ–‡çš„å¯¦é©—è¨ç½®ã€‚ç›¸æ¯”ä¹‹å‰çš„ç ”ç©¶ï¼Œä»–å€‘åšäº†ä»¥ä¸‹æ“´å±•ï¼š

(1) æŠŠæ•¸æ“šé›†è¦æ¨¡æ“´å±•åˆ°åå„„ç´šåˆ¥ï¼›

(2) æŠŠæ¨¡åž‹åƒæ•¸è¦æ¨¡æ“´å±•åˆ°è¶…éŽ1Bï¼›

(3) é™¤äº†ç”¨ç¶“å…¸çš„è¦–è¦ºåŸºæº–æ¸¬è©¦ï¼ˆæ¯”å¦‚ImageNet-1kå’ŒADE20kï¼‰ä¾†è©•ä¼°æ¨¡åž‹å¤–ï¼Œé‚„åŠ å…¥äº†é–‹æ”¾å¼çš„VQAä»»å‹™ã€‚

é€™äº›è®ŠåŒ–èƒ½åœ¨å¤§è¦æ¨¡ä¸Šç ”ç©¶è¦–è¦ºSSLï¼Œè§€å¯Ÿåˆ°ä¹‹å‰å°è¦æ¨¡å¯¦é©—çœ‹ä¸åˆ°çš„è¦æ¨¡æ•ˆæ‡‰è¶¨å‹¢

æ“´å±•è¦–è¦ºSSL

ç ”ç©¶åœ˜éšŠæŽ¢è¨Žäº†è¦–è¦ºSSLæ¨¡åž‹åœ¨æ¨¡åž‹è¦æ¨¡å’Œæ•¸æ“šè¦æ¨¡ä¸Šçš„æ“´å±•è¡¨ç¾ï¼Œé€™äº›æ¨¡åž‹åªç”¨MC-2Bçš„åœ–ç‰‡æ•¸æ“šä¾†è¨“ç·´ã€‚

æ“´å±•æ¨¡åž‹è¦æ¨¡ï¼šç ”ç©¶åœ˜éšŠæŠŠæ¨¡åž‹è¦æ¨¡å¾ž10å„„åƒæ•¸å¢žåŠ åˆ°70å„„åƒæ•¸ï¼ŒåŒæ™‚ä¿æŒè¨“ç·´æ•¸æ“šå›ºå®šç‚º20å„„å¼µMC-2Båœ–ç‰‡ã€‚ä»–å€‘ç”¨ç¾æˆçš„è¨“ç·´ä»£ç¢¼å’Œæ–¹æ³•é…æ–¹ï¼Œä¸å› æ¨¡åž‹å¤§å°ä¸åŒè€Œèª¿æ•´é…æ–¹ï¼Œä»¥æŽ§åˆ¶å…¶ä»–è®Šé‡çš„å½±éŸ¿ã€‚
æ“´å±•çœ‹åˆ°çš„æ•¸æ“šé‡ï¼šç ”ç©¶åœ˜éšŠæŠŠç„¦é»žè½‰å‘å›ºå®šæ¨¡åž‹è¦æ¨¡ä¸‹å¢žåŠ ç¸½æ•¸æ“šé‡ï¼Œåˆ†æžè¨“ç·´æ™‚çœ‹åˆ°çš„åœ–ç‰‡æ•¸é‡å¾ž10å„„å¢žåŠ åˆ°80å„„æ™‚ï¼Œæ€§èƒ½å¦‚ä½•è®ŠåŒ–ã€‚

æ“´å±•æ¨¡åž‹è¦æ¨¡

æ“´å±•æ¨¡åž‹è¦æ¨¡çš„ç›®çš„æœ‰å…©å€‹ï¼šä¸€æ˜¯æ‰¾å‡ºåœ¨é€™ç¨®æ–°æ•¸æ“šæ¨¡å¼ä¸‹è¦–è¦ºSSLçš„æ€§èƒ½ä¸Šé™ï¼ŒäºŒæ˜¯çœ‹çœ‹å¤§æ¨¡åž‹æœƒä¸æœƒè¡¨ç¾å‡ºä¸€äº›ç¨ç‰¹çš„è¡Œç‚ºã€‚

ç‚ºæ¤ï¼Œç ”ç©¶åœ˜éšŠç”¨20å„„å¼µç„¡æ¨™ç°½çš„MC-2Båœ–ç‰‡ï¼ˆ224Ã—224åˆ†è¾¨çŽ‡ï¼‰é è¨“ç·´äº†DINOv2 ViTæ¨¡åž‹ï¼Œåƒæ•¸å¾ž10å„„åˆ°70å„„ä¸ç‰ã€‚æ²’æœ‰ç”¨é«˜åˆ†è¾¨çŽ‡é©é…ï¼Œä»¥ä¾¿èƒ½å’ŒCLIPå…¬å¹³æ¯”è¼ƒã€‚

ç ”ç©¶åœ˜éšŠæŠŠé€™äº›æ¨¡åž‹ç¨±ç‚ºWeb-DINOã€‚ç‚ºäº†å°æ¯”ï¼Œä»–å€‘é‚„ç”¨åŒæ¨£æ•¸æ“šè¨“ç·´äº†ç›¸åŒè¦æ¨¡çš„CLIPæ¨¡åž‹ã€‚

ä»–å€‘ç”¨VQAè©•ä¼°æ¯å€‹æ¨¡åž‹ï¼Œçµæžœå±•ç¤ºåœ¨åœ–3ä¸ã€‚

ç ”ç©¶åœ˜éšŠè¡¨ç¤ºï¼Œæ“šä»–å€‘æ‰€çŸ¥ï¼Œé€™æ˜¯é¦–æ¬¡åƒ…ç”¨è¦–è¦ºè‡ªç›£ç£è¨“ç·´çš„è¦–è¦ºç·¨ç¢¼å™¨ï¼Œåœ¨VQAä¸Šé”åˆ°èˆ‡èªžè¨€ç›£ç£ç·¨ç¢¼å™¨ç›¸ç•¶çš„æ€§èƒ½â€”â€”ç”šè‡³åœ¨å‚³çµ±ä¸Šé«˜åº¦ä¾è³´æ–‡å—çš„OCR & åœ–è¡¨é¡žåˆ¥ä¸Šä¹Ÿæ˜¯å¦‚æ¤ã€‚

Web-DINOåœ¨å¹³å‡VQAã€OCR & åœ–è¡¨ã€ä»¥åŠVision-Centric VQAä¸Šçš„è¡¨ç¾ï¼Œéš¨è‘—æ¨¡åž‹è¦æ¨¡å¢žåŠ å¹¾ä¹Žå‘ˆå°æ•¸ç·šæ€§æå‡ï¼Œä½†åœ¨é€šç”¨å’ŒçŸ¥è˜é¡žVQAçš„æå‡å¹…åº¦è¼ƒå°ã€‚

ç›¸æ¯”ä¹‹ä¸‹ï¼ŒCLIPåœ¨æ‰€æœ‰VQAé¡žåˆ¥çš„è¡¨ç¾åˆ°30å„„åƒæ•¸åŽåŸºæœ¬é£½å’Œã€‚

é€™èªªæ˜Žï¼Œå°è¦æ¨¡CLIPæ¨¡åž‹å¯èƒ½æ›´æ“…é•·åˆ©ç”¨æ•¸æ“šï¼Œä½†é€™ç¨®å„ªå‹¢åœ¨å¤§è¦æ¨¡CLIPæ¨¡åž‹ä¸ŠåŸºæœ¬æ¶ˆå¤±ã€‚

Web-DINOéš¨è‘—æ¨¡åž‹è¦æ¨¡å¢žåŠ æŒçºŒæå‡ï¼Œä¹Ÿè¡¨æ˜Žè¦–è¦ºSSLèƒ½å¾žæ›´å¤§çš„æ¨¡åž‹è¦æ¨¡ä¸ç²ç›Šï¼Œè¶…éŽ70å„„åƒæ•¸çš„æ“´å±•æ˜¯å€‹æœ‰å‰æ™¯çš„æ–¹å‘ã€‚

åœ¨å…·é«”é¡žåˆ¥ä¸Šï¼Œéš¨è‘—æ¨¡åž‹è¦æ¨¡å¢žåŠ ï¼ŒDINOåœ¨Vision-Centric VQAä¸Šè¶Šä¾†è¶Šè¶…éŽCLIPï¼Œåœ¨OCR & åœ–è¡¨å’Œå¹³å‡VQAä¸Šä¹ŸåŸºæœ¬è¿½å¹³å·®è·ï¼ˆåœ–3ï¼‰ã€‚

åˆ°äº†50å„„åƒæ•¸åŠä»¥ä¸Šï¼ŒDINOçš„å¹³å‡VQAè¡¨ç¾ç”šè‡³è¶…éŽCLIPï¼Œç›¡ç®¡å®ƒåªç”¨åœ–ç‰‡è¨“ç·´ï¼Œæ²’æœ‰èªžè¨€ç›£ç£ã€‚

é€™è¡¨æ˜Žï¼Œåƒ…ç”¨è¦–è¦ºè¨“ç·´çš„æ¨¡åž‹åœ¨CLIPåˆ†å¸ƒçš„åœ–ç‰‡ä¸Šä¹Ÿèƒ½ç™¼å±•å‡ºå¼·å¤§çš„è¦–è¦ºç‰¹å¾ï¼Œåª²ç¾Žèªžè¨€ç›£ç£çš„è¦–è¦ºç·¨ç¢¼å™¨ã€‚

Web-DINOæ¨¡åž‹åœ¨æ‰€æœ‰é¡žåˆ¥ä¸Šéƒ½å±•ç¾å‡ºæ–°çš„ã€Œæ“´å±•è¡Œç‚ºã€ï¼Œå°¤å…¶åœ¨OCR & åœ–è¡¨å’ŒVision-Centricé ˜åŸŸï¼ŒCLIPæ¨¡åž‹çš„æ“´å±•æ”¶ç›Šæœ‰é™ï¼Œæ€§èƒ½åœ¨ä¸ç‰è¦æ¨¡æ™‚å°±é£½å’Œäº†

æ“´å±•æ‰€è¦‹æ•¸æ“šé‡

ç ”ç©¶åœ˜éšŠç ”ç©¶äº†å¢žåŠ çœ‹åˆ°çš„æ•¸æ“šé‡æœƒæ€Žæ¨£å½±éŸ¿æ€§èƒ½ï¼Œåœ¨MC-2Bçš„10å„„åˆ°80å„„å¼µåœ–ç‰‡ä¸Šè¨“ç·´Web-DINO ViT-7Bæ¨¡åž‹ã€‚

å¦‚åœ–4æ‰€ç¤ºï¼Œé€šç”¨å’ŒçŸ¥è˜é¡žVQAæ€§èƒ½éš¨è‘—çœ‹åˆ°çš„æ•¸æ“šé‡å¢žåŠ é€æ¥æå‡ï¼Œåˆ†åˆ¥åœ¨40å„„å’Œ20å„„å¼µæ™‚é£½å’Œã€‚

Vision-Centric VQA æ€§èƒ½å¾ž10å„„åˆ°20å„„å¼µæ™‚æå‡æ˜Žé¡¯ï¼Œè¶…éŽ20å„„å¼µåŽé£½å’Œã€‚

ç›¸æ¯”ä¹‹ä¸‹ï¼ŒOCR & åœ–è¡¨æ˜¯å”¯ä¸€éš¨è‘—æ•¸æ“šé‡å¢žåŠ æŒçºŒæå‡çš„é¡žåˆ¥ã€‚

é€™èªªæ˜Žï¼Œæ¨¡åž‹çœ‹åˆ°æ›´å¤šæ•¸æ“šåŽï¼Œå¸åˆ°çš„è¡¨å¾è¶Šä¾†è¶Šé©åˆæ–‡å—ç›¸é—œä»»å‹™ï¼ŒåŒæ™‚å…¶ä»–èƒ½åŠ›ä¹Ÿæ²’æ˜Žé¡¯ä¸‹é™ã€‚

å¦å¤–ï¼Œå’ŒåŒè¦æ¨¡çš„CLIPæ¨¡åž‹ï¼ˆViT-7Bï¼‰ç›¸æ¯”ï¼ŒWeb-DINOåœ¨ç›¸åŒæ•¸æ“šé‡ä¸‹çš„å¹³å‡VQAè¡¨ç¾å§‹çµ‚æ›´å¼·ï¼ˆåœ– 4ï¼‰ã€‚

å°¤å…¶åœ¨çœ‹åˆ°80å„„å¼µæ¨£æœ¬åŽï¼ŒWeb-DINOåœ¨OCR & åœ–è¡¨VQAä»»å‹™ä¸Šè¿½å¹³äº†CLIPçš„è¡¨ç¾å·®è·ã€‚

é€™é€²ä¸€æ¥è‰æ˜Žï¼Œè¦–è¦ºSSLæ¨¡åž‹å¯èƒ½æ¯”èªžè¨€ç›£ç£æ¨¡åž‹æœ‰æ›´å¥½çš„æ“´å±•æ½›åŠ›ã€‚

éš¨è‘—è¨“ç·´æ•¸æ“šå¾ž10å„„å¢žè‡³80å„„å¼µåœ–ç‰‡ï¼ŒWeb-DINO-7Båœ¨OCRå’Œåœ–è¡¨ä»»å‹™ä¸æŒçºŒæå‡ï¼Œè€Œé€šç”¨å’Œè¦–è¦ºä»»å‹™åœ¨20å„„å¼µåŽæ”¶ç›Šéžæ¸›ã€‚ç¸½é«”ä¸Šï¼ŒWeb-DINOåœ¨å¹³å‡æ€§èƒ½ä¸Šç©©æ¥æé«˜ï¼Œå¹¶å§‹çµ‚å„ªäºŽåŒè¦æ¨¡çš„CLIPæ¨¡åž‹

Web-SSLç³»åˆ—æ¨¡åž‹

ç ”ç©¶åœ˜éšŠåœ¨è¡¨3é‡Œå±•ç¤ºäº†ä»–å€‘çš„è¦–è¦ºç·¨ç¢¼å™¨è·Ÿç¶“å…¸è¦–è¦ºç·¨ç¢¼å™¨å°æ¯”æ‰€å–å¾—çš„æœ€ä½³çµæžœï¼Œæ¶‰åŠVQAå’Œç¶“å…¸è¦–è¦ºä»»å‹™ã€‚

Web-DINOåœ¨VQAå’Œç¶“å…¸è¦–è¦ºä»»å‹™ä¸Šéƒ½èƒ½è¶…è¶Šç¾æˆçš„MetaCLIPã€‚

å³ä¾¿æ•¸æ“šé‡æ¯”SigLIPå’ŒSigLIP2å°‘5å€ï¼Œä¹Ÿæ²’èªžè¨€ç›£ç£ï¼ŒWeb-DINOåœ¨VQAä¸Šçš„è¡¨ç¾é‚„æ˜¯èƒ½è·Ÿå®ƒå€‘æ‰“å¹³æ‰‹ã€‚

ç¸½é«”ä¾†çœ‹ï¼ŒWeb-DINOåœ¨å‚³çµ±è¦–è¦ºåŸºæº–æ¸¬è©¦ä¸ç¢¾å£“äº†æ‰€æœ‰ç¾æˆçš„èªžè¨€ç›£ç£CLIPæ¨¡åž‹ã€‚

é›–ç„¶ç ”ç©¶äººå“¡æœ€å¥½çš„Web-DINOæ¨¡åž‹æœ‰70å„„åƒæ•¸ï¼Œä½†çµæžœè¡¨æ˜Žï¼ŒCLIPæ¨¡åž‹åœ¨ä¸ç‰è¦æ¨¡çš„æ¨¡åž‹å’Œæ•¸æ“šé‡åŽå°±é£½å’Œäº†ï¼Œè€Œè¦–è¦ºSSLçš„æ€§èƒ½éš¨è‘—æ¨¡åž‹å’Œæ•¸æ“šè¦æ¨¡çš„å¢žåŠ æœƒé€æ¥æå‡ã€‚

Web-DINOåœ¨æ‰€æœ‰VQAé¡žåˆ¥ä¸ä¹Ÿè¶…éŽäº†ç¾æˆçš„è¦–è¦ºSSLæ–¹æ³•ï¼ŒåŒ…æ‹¬DINOv2ï¼Œåœ¨å‚³çµ±è¦–è¦ºåŸºæº–ä¸Šä¹Ÿå¾ˆæœ‰ç«¶çˆåŠ›ã€‚

Web-DINO ViT-7Båœ¨æ²’æœ‰èªžè¨€ç›£ç£çš„æƒ…æ³ä¸‹ï¼Œåœ¨VQAä»»å‹™ä¸Šèˆ‡CLIPæ¨¡åž‹è¡¨ç¾ç›¸ç•¶ï¼Œåœ¨å‚³çµ±è¦–è¦ºä»»å‹™ä¸Šè¶…éŽäº†å®ƒå€‘

ç ”ç©¶äººå“¡é‚„é¡å¤–å°Web-DINOå¾®èª¿äº†2è¬æ¥ï¼Œåˆ†åˆ¥æ¸¬è©¦äº†378å’Œ518åˆ†è¾¨çŽ‡ï¼Œä»¥ä¾¿è·Ÿæ›´é«˜åˆ†è¾¨çŽ‡çš„ç¾æˆSigLIPå’ŒDINOç‰ˆæœ¬å°æ¯”ã€‚

å¾ž224åˆ°378å†åˆ°518åˆ†è¾¨çŽ‡ï¼ŒWeb-DINOåœ¨å¹³å‡VQAè¡¨ç¾ä¸Šç©©æ¥æå‡ï¼Œå°¤å…¶åœ¨OCRå’Œåœ–è¡¨ä»»å‹™ä¸Šæœ‰æ˜Žé¡¯é€²æ¥ã€‚

ç¶“å…¸è¦–è¦ºä»»å‹™çš„è¡¨ç¾éš¨è‘—åˆ†è¾¨çŽ‡æé«˜ç•¥æœ‰æå‡ã€‚åœ¨384åˆ†è¾¨çŽ‡ä¸‹ï¼ŒWeb-DINOç¨å¾®è½åŽäºŽSigLIPï¼›åˆ°äº†518åˆ†è¾¨çŽ‡ï¼Œå·®è·åŸºæœ¬è¢«æŠ¹å¹³ã€‚

çµæžœè¡¨æ˜Žï¼ŒWeb-DINOå¯èƒ½é‚„èƒ½å¾žé€²ä¸€æ¥çš„é«˜åˆ†è¾¨çŽ‡é©é…ä¸ç²ç›Šã€‚

ä½œè€…ä»‹ç´¹

David Fan

David Fanæ˜¯Meta FAIRçš„é«˜ç´šç ”ç©¶å·¥ç¨‹å¸«ï¼Œç ”ç©¶æ–¹å‘æ˜¯è‡ªç›£ç£å¸ç¿’å’Œè¦–é »è¡¨å¾ã€‚

æ›¾åœ¨äºžé¦¬éœPrime Videoæ“”ä»»æ‡‰ç”¨ç§‘å¸å®¶ï¼Œå¾žäº‹è¦–é »ç†è§£å’Œå¤šæ¨¡æ…‹è¡¨å¾å¸ç¿’çš„ç ”ç©¶ï¼Œé‡é»žé—œæ³¨è‡ªç›£ç£æ–¹æ³•ã€‚

æ¤å‰ï¼Œä»–åœ¨æ™®æž—æ–¯é “å¤§å¸ä»¥å„ªç•°æˆç¸¾ï¼ˆMagna Cum Laudeï¼‰ç²å¾—è¨ˆç®—æ©Ÿç§‘å¸ç†å¸å·¥ç¨‹å¸å£«å¸ä½ï¼Œå°Žå¸«æ˜¯Jia Dengæ•™æŽˆã€‚

Shengbang Tong

Peter Tongï¼ˆShengbang Tongï¼Œç«¥æ™Ÿé‚¦ï¼‰æ˜¯NYU Courant CSçš„ä¸€ååšå£«ç”Ÿï¼Œå°Žå¸«æ˜¯Yann LeCunæ•™æŽˆå’Œè¬è³½å¯§æ•™æŽˆã€‚ç ”ç©¶èˆˆè¶£æ˜¯ä¸–ç•Œæ¨¡åž‹ã€ç„¡ç›£ç£/è‡ªç›£ç£å¸ç¿’ã€ç”Ÿæˆæ¨¡åž‹å’Œå¤šæ¨¡æ…‹æ¨¡åž‹ã€‚

æ¤å‰ï¼Œä»–åœ¨åŠ å·žå¤§å¸ä¼¯å…‹åˆ©åˆ†æ ¡ä¸»ä¿®è¨ˆç®—æ©Ÿç§‘å¸ã€æ‡‰ç”¨æ•¸å¸ï¼ˆæ¦®è½ï¼‰å’Œçµ±è¨ˆå¸ï¼ˆæ¦®è½ï¼‰ã€‚å¹¶æ›¾æ˜¯ä¼¯å…‹åˆ©äººå·¥æ™ºèƒ½å¯¦é©—å®¤ï¼ˆBAIRï¼‰çš„ç ”ç©¶å“¡ï¼Œå°Žå¸«æ˜¯é¦¬æ¯…æ•™æŽˆå’ŒJacob Steinhardtæ•™æŽˆã€‚

åƒè€ƒè³‡æ–™ï¼š

https://x.com/DavidJFan/status/1907448092204380630

https://arxiv.org/abs/2504.01017

ç‰¹åˆ¥è²æ˜Žï¼šä»¥ä¸Šå…§å®¹(å¦‚æœ‰åœ–ç‰‡æˆ–è¦–é »äº¦åŒ…æ‹¬åœ¨å…§)ç‚ºè‡ªåª’é«”å¹³è‡ºâ€œç¶²æ˜“è™Ÿâ€ç”¨æˆ¶ä¸Šå‚³å¹¶ç™¼å¸ƒï¼Œæœ¬å¹³è‡ºåƒ…æä¾›ä¿¡æ¯å˜å„²æœå‹™ã€‚

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.