99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

視覺SSL終于追上CLIP!Yann LeCun、謝賽寧等新作,逆轉固有認知

0
分享至




機器之心報道

編輯:蛋醬、杜偉

擴展無語言的視覺表征學習。

在視覺問題解答(VQA)等多模態環境中,當前視覺自監督學習(SSL)的表現還比不上語言圖像預訓練(CLIP)。這種差距通常歸因于語言監督引入的語義,盡管視覺 SSL 模型和 CLIP 模型通常在不同的數據上進行訓練。

在最近的一項研究中,Yann LeCun、謝賽寧等研究者探討了一個基本問題: 語言監督對于多模態建模的視覺表征預訓練是否必要?



  • 論文標題:Scaling Language-Free Visual Representation Learning
  • 論文鏈接:https://arxiv.org/pdf/2504.01017
  • 項目地址:https://davidfan.io/webssl/

「我們的目的不是要取代語言監督方法,而是要了解視覺自監督在多模態應用中的內在能力和局限性。為了進行公平的比較,我們在與最先進的 CLIP 模型相同的數十億規模的網絡數據(特別是 MetaCLIP 數據集)上訓練 SSL 模型。在比較視覺 SSL 和 CLIP 時,這種方法可以控制數據的分布差異?!寡芯空弑硎?。

論文共同一作 David Fan 表示,「視覺 SSL 終于可以在 VQA 任務上與 CLIP 匹敵了,即使在 OCR & Chart VQA 上也非常具有競爭力。我們的全新 Web-SSL 模型系列證明了這一點,并且僅僅基于網絡圖像訓練,沒有進行任何語言監督?!?/p>



在評估方面,研究者主要使用視覺問題解答(VQA)作為框架,大規模評估 SSL 模型的各種能力。具體來說,采用了 Cambrian-1 中提出的評估套件,跨越 4 個不同 VQA 類別的 16 項任務的性能: 通用、知識、OCR & 圖表以及 Vision-Centric。

然后,他們使用上述設置訓練了 Web-SSL,這是一個視覺 SSL 模型系列,參數范圍從 10 億到 70 億不等,以便與 CLIP 進行直接和可控的比較。

通過實證研究,研究者提出了一些見解:

  • 視覺 SSL 可以在廣泛的 VQA 任務中,甚至在 OCR & 圖表理解等語言相關任務中,匹配甚至超越語言監督的視覺預訓練方法(圖 3);
  • 視覺 SSL 在模型容量(圖 3)和數據(圖 4)方面都有很好的擴展性,這表明 SSL 還有巨大的潛力有待挖掘;
  • 視覺 SSL 可以在分類和分割方面保持傳統視覺性能的競爭力,同時在 VQA 方面也有所改進(圖 7);
  • 對包含文本的圖像進行更高比例的訓練對于提高 OCR 和圖表性能尤為有效(問題 4)。探索數據構成是一個很有前景的方向。



隨后,研究者介紹了本文的實驗設置,它通過以下方式擴展了之前的 SSL 工作:

(1)將數據集規模擴展到十億級圖像(第 2.1 節);

(2)將模型規模擴展到 1B 參數以上(第 2.2 節);

(3)除了 ImageNet-1k 和 ADE20k 等經典視覺基準之外,還使用開放式 VQA 任務(第 2.3 節)評估視覺模型。

擴展 Visual SSL

研究者也探討了視覺 SSL 模型在模型和數據大小方面的擴展行為,這是僅對 MC-2B 圖像進行訓練的結果。這一部分重點討論 DINOv2 作為視覺 SSL 方法,下一部分會重點討論 MAE。

  • 擴展模型大?。貉芯空邔⒛P痛笮?1B 增加到 7B,同時將訓練數據固定為 20 億張 MC2B 圖像。他們對每種方法都使用了現成的訓練代碼和配方,為了控制混雜變量,沒有因模型規模不同而改變配方。
  • 擴展所見樣本:研究者將重點轉移到對固定模型大小的總數據進行縮放,并分析當訓練過程中看到的圖像數量從 10 億增加到 80 億時,性能是如何變化的。

擴展模型大小

研究者使用來自 MC-2B 的 20 億張 224×224 分辨率的未標記圖像,并且沒有進行高分辨率適應,對 DINOv2 ViT 模型進行了預訓練,參數范圍從 1B 到 7B,以確保與 CLIP 的公平比較。他們使用 VQA 來評估每個模型,結果如下圖 3 所示,包含了整體性能趨勢和特定類別性能。

研究者表示,這是僅使用視覺自監督訓練的視覺 encoder 第一次在 VQA 上取得與語言監督 encoder 相當的性能,即使是傳統上被認為高度依賴文本的 OCR 和 Chart 類別也是如此。

關于性能變化趨勢,圖 3 還比較了模型容量增加時的性能趨勢。WebDINO’s Average、DINOOCR & Chart 和 Vision-Centric VQA 的性能隨著模型大小的增加幾乎呈現對數線性提升,而通用(General)和知識(Knowledge)的提升程度較小。

相比之下,CLIP 在所有 VQA 類別中的表現在 3B 參數后基本飽和。這表明了,雖然較小規模的 CLIP 模型可以更高效地利用數據,但較大規模的 CLIP 模型基本喪失了這一優勢。

Web-DINO 模型增加帶來的持續性能提升表明了,視覺 SSL 會從更大規模的模型中受益,并且繼續將視覺 SSL 擴展到 7B 以上是一個有潛力的方向。

關于特定類別的性能,隨著模型大小的增加,DINO 在 Vision-Centric VQA 上的表現越來越優于 CLIP,在 OCR & Chart 和 Average VQA 上與 CLIP 的差距也大大縮小。



擴展所見樣本

研究者探究了訓練 Web-DINO ViT-7B 過程中增加所見樣本的數量對性能變化有哪些影響,并將來自 MC-2B 中的圖像數量從 1B 增加到 8B。

隨著所見樣本的增加,General 和 Knowledge VQA 的性能逐漸提升,并分別在 4B 和 2B 樣本時達到飽和。Vision-Centric VQA 的性能在樣本從 1B 增加到 2B 過程中急劇提升,并在 2B 以上達到飽和。相比之下,OCR & Chart 是唯一一個隨著所見樣本增加而持續改進的類別。

這表明了,隨著模型所見樣本的增加,它會學習到一種越來越適合文本任務的表征,而其他能力不會明顯下降。



總的來說,上圖 3 和圖 4 的結果表明,隨著模型大小和樣本的增加,視覺 SSL 學習到的特征對于 VQA 越來越有效,尤其是在 OCR & Chart 類別。并且,基于 CLIP 的模型相較于視覺 SSL 沒有絕對的優勢。

Web-SSL 模型系列

研究者使用 VQA 和經典視覺基準分析了整體性能最佳的視覺編碼器。表 3 展示了視覺編碼器在 VQA 和經典視覺任務方面與近期現成的視覺編碼器相比所取得的最佳結果。



在 VQA 和傳統視覺任務中,Web-DINO 的表現都優于現成的 MetaCLIP。在 VQA 上,Web-DINO 的性能甚至可以與 SigLIP 和 SigLIP2 相媲美,盡管它看到的數據少了 5 倍,而且沒有語言監督??傮w而言,Web-DINO 在傳統視覺基準測試中的表現優于所有現成的語言監督 CLIP 模型。

在所有 VQA 類別中,Web-DINO 也優于現成的視覺 SSL 方法,包括 DINOv2。在傳統的視覺基準測試中,Web-DINO 也具有很強的競爭力。

從 224 分辨率到 378 分辨率再到 518 分辨率,Web-DINO 在平均 VQA 上穩步提升,在 OCR 和圖表性能方面也有顯著提高。傳統視覺性能隨著分辨率的提高而略有提高。在 384 分辨率下,Web-DINO 落后于 SigLIP。在 518 分辨率下,Web-DINO 在很大程度上彌補了這一差距。結果表明,Web-DINO 可從進一步提高高分辨率適應性中獲益。

更多研究細節,可參考原論文。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
1.79米徐杰又成“小外援”:轟25+11+6廣東最穩 連場20+5定海神針

1.79米徐杰又成“小外援”:轟25+11+6廣東最穩 連場20+5定海神針

顏小白的籃球夢
2025-04-11 22:05:37
“美輸華商品已無市場接受可能性”,又一例證?

“美輸華商品已無市場接受可能性”,又一例證?

觀察者網
2025-04-11 21:09:10
原配砸車抓小三后續!小三正臉照被扒,很漂亮,疑似做過醫美

原配砸車抓小三后續!小三正臉照被扒,很漂亮,疑似做過醫美

一路朝南
2025-04-11 17:43:06
美軍全面撤離亞太!釋放何種信號?美上將:武統概率已提升300%

美軍全面撤離亞太!釋放何種信號?美上將:武統概率已提升300%

文雅筆墨
2025-04-11 20:22:08
坎貝爾誅心:特朗普高估了自己,低估了中國

坎貝爾誅心:特朗普高估了自己,低估了中國

觀察者網
2025-04-11 16:00:05
按市政府統一要求,醫院紅十字招牌被換成綠色?當地回應

按市政府統一要求,醫院紅十字招牌被換成綠色?當地回應

觀察者網
2025-04-11 21:40:11
上海"金牌射手"事件反轉?曝男女主角"為刺激"約好的,官方發聲!

上海"金牌射手"事件反轉?曝男女主角"為刺激"約好的,官方發聲!

派大星紀錄片
2025-04-11 12:38:41
網友:現在外貿公司都炸了!老公說這次比較嚴重,美國訂單都暫停

網友:現在外貿公司都炸了!老公說這次比較嚴重,美國訂單都暫停

新語愛八卦
2025-04-11 14:54:17
歷史上的法國到底有多奇葩?有錢就放貸,打仗就投降,神仙難救

歷史上的法國到底有多奇葩?有錢就放貸,打仗就投降,神仙難救

歷史求知所
2025-04-10 18:40:09
潔雅股份:公司擬在美國興建生產基地 能有效降低關稅對公司生產經營的影響

潔雅股份:公司擬在美國興建生產基地 能有效降低關稅對公司生產經營的影響

證券時報
2025-04-11 08:33:06
上海地鐵男“社死”后續:工作沒了家庭也毀了,妻子顏值照很漂亮

上海地鐵男“社死”后續:工作沒了家庭也毀了,妻子顏值照很漂亮

侃侃娛季
2025-04-11 09:46:02
內循環是行不通的,閉關的下場很慘!

內循環是行不通的,閉關的下場很慘!

九思堂開峻
2025-04-10 18:21:36
95歲香港演員谷峰去世,憑武大郎一角成名,曾出演《九品芝麻官》

95歲香港演員谷峰去世,憑武大郎一角成名,曾出演《九品芝麻官》

叨嘮
2025-04-11 01:01:45
美國前國務卿布林肯批美濫施關稅:“美國優先”將變“美國獨行”

美國前國務卿布林肯批美濫施關稅:“美國優先”將變“美國獨行”

新京報
2025-04-11 19:01:09
費高云主政合肥,曾長期在江蘇工作

費高云主政合肥,曾長期在江蘇工作

上觀新聞
2025-04-11 20:43:18
上海地鐵噴射男事件后續,男子正面照被爆,網友覺得女子也有不妥

上海地鐵噴射男事件后續,男子正面照被爆,網友覺得女子也有不妥

振華觀史
2025-04-11 11:45:18
特朗普“MAGA帽”漲價了,中國制造,隨關稅上漲從50美元漲到102美元

特朗普“MAGA帽”漲價了,中國制造,隨關稅上漲從50美元漲到102美元

風向觀察
2025-04-12 00:02:07
中國全面反擊后,萬斯痛批要對華開戰的美國鷹派,稱:你們太瘋狂

中國全面反擊后,萬斯痛批要對華開戰的美國鷹派,稱:你們太瘋狂

小陸搞笑日常
2025-04-12 01:05:28
硬剛之下,美國對華關稅升至145%!接下來雙方只剩三種選擇?

硬剛之下,美國對華關稅升至145%!接下來雙方只剩三種選擇?

翻開歷史和現實
2025-04-11 14:46:12
西門子西班牙分公司遇難CEO足跡遍布多國;直升機斷成兩半墜毀

西門子西班牙分公司遇難CEO足跡遍布多國;直升機斷成兩半墜毀

瀟湘晨報
2025-04-11 15:01:15
2025-04-12 03:55:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10345文章數 142293關注度
往期回顧 全部

科技要聞

單臺年入20萬!首批人形機器人致富者來了

頭條要聞

專家:不用太擔心關稅 現在要看的是中美雙方誰扛不住

頭條要聞

專家:不用太擔心關稅 現在要看的是中美雙方誰扛不住

體育要聞

球迷天天罵,但我們要進歐冠了

娛樂要聞

汪小菲馬筱梅婚禮又有了耐人尋味的新聞

財經要聞

造假累計數百億 揭秘東旭集團造假手法

汽車要聞

25款風云A8/T9/T10齊上市 多款車型發布一口價

態度原創

房產
時尚
教育
本地
家居

房產要聞

官宣6月!地鐵12號線沖刺開通,白云金沙洲終于等來破局

那些認真生活的人,才最時髦!

教育要聞

考研清華425分,斷層第一被全網看好,復試卻被刷,是什么原因

本地新聞

華北將迎“歷史罕見”大風

家居要聞

浪漫與優雅 不被定義的現代法式

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 兰西县| 普定县| 丰台区| 芜湖县| 淅川县| 神木县| 拜泉县| 固镇县| 西吉县| 晋城| 宜川县| 区。| 滕州市| 伊金霍洛旗| 称多县| 玛多县| 灵璧县| 祥云县| 普洱| 彭山县| 体育| 包头市| 宁海县| 定兴县| 漾濞| 弥勒县| 瓮安县| 青河县| 怀宁县| 彰化县| 高碑店市| 巨野县| 常熟市| 城市| 中西区| 水城县| 鲁山县| 灵石县| 湄潭县| 城固县| 博湖县|