99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

IBM和Hugging Face聯合開源多模態小模型SmolDocling

0
分享至

在今年年初麻省理工科技評論將小模型(Small Language Model)評為2025 年十大突破性技術之一,認為隨著大模型的邊際收益逐漸減小,小模型有望在特定任務中媲美甚至超越大模型。而最近小模型圈子的一系列成果,都在印證這個趨勢——從谷歌的 Gemma3、微軟的 Phi4-mini 再到 Mistral 的 Small 3.1……小模型一天比一天精悍。

最近 IBM 和 Hugging Face 的研究人員又聯合推出了一個新的小型視覺-語言模型 SmolDocling,這款專為文檔轉換任務而設計的模型,居然只用 256M 的參數就在各項基準測試上超越了更大規模的其他模型。


圖丨相關論文(來源:arXiv)

SmolDocling 基于 Hugging Face 的 SmolVLM 架構,可以處理整個頁面的內容,并通過生成“DocTags”(一種新型通用標記格式)精確捕捉頁面元素及其位置和上下文信息。與依賴手工制作的流水線或大型基礎模型不同,SmolDocling 采用端到端的轉換方法,只需 256M 參數的規模就能準確捕獲文檔元素的內容、結構和空間位置。研究團隊稱,它在各種文檔類型中都表現出色,包括商業文檔、學術論文、技術報告、專利和表格等,能夠正確再現代碼列表、表格、方程式、圖表和列表等多樣化文檔特征。

從多項基準測試的結果來看,SmolDocling 的確展現出了與更大模型相當甚至更優的性能。全頁文檔文本識別任務中,SmolDocling 的編輯距離為 0.48,F1 分數為 0.80,優于參數量為 7B 的 Qwen2.5 VL、580M 的 GOT 和 350M 的 Nougat。

在公式識別方面,SmolDocling 達到了 0.95 的 F1 分數,與 GOT 相當,且明顯優于其他模型。該研究還首次對代碼列表識別任務進行了評估,SmolDocling 在這一領域設立了初始基準,精確率和召回率分別為 0.94 和 0.91。

布局分析任務中,SmolDocling 在 DocLayNet 測試集上的表現明顯超過了 Qwen2.5-VL-7b。不過兩個模型的得分都低于人類基線,原因主要在于數據集本身的復雜性。表格結構識別方面,盡管測試數據集的圖像質量較低,SmolDocling 仍然表現出與更大模型相當的能力。


圖丨基準測試結果(來源:arXiv)

從許多用戶的實測表現上來看,模型的表現的確可圈可點。不過有用戶反映,對于表格轉為 markdown 或 HTML 的任務,SmolDocling 與其他多模態模型一樣,偶爾會出現一些幻覺問題,但對于列邊界不明確的表格處理表現還算不錯。另一位用戶評價道,對于如此小體積的模型來說,其表現還是很不錯的,雖然相對來說不夠準確,但有望成為 PDF 提取的實用工具。

在實際使用中,SmolDocling 處理一頁文檔僅需 0.35 秒(在單個 A100 上),只占用 489MB 的顯存,甚至可以在手機上就能使用。

那么,SmolDocling 究竟是如何做到在如此小的參數規模下實現這種性能表現的呢?這就要談到它的架構、訓練方法和數據處理策略。

從架構上來說,它所基于的 SmolVLM-256M 架構由兩大核心部分組成:視覺編碼器和語言骨干。視覺編碼器采用 SigLIP base patch-16/512(93M 參數)作為視覺骨干,與 2.2B 版本的同一模型相比,其訓練數據重新平衡,更加強調文檔理解(41%)和圖像描述(14%),結合了 Cauldron、Docmatix 數據集并添加了 MathWriting。模型采用比較激進的像素混洗方法,將每個 512x512 圖像塊壓縮為 64 個視覺標記。


圖丨 SmolDocling/SmolVLM 架構(來源:arXiv)

語言骨干則使用 SmolLM-2 家族(135M 參數)的輕量級變體,并通過提高像素到標記的比率(每個標記 4096 像素)和引入子圖像分隔符的特殊標記,進一步提升了標記化效率。

研究人員開發的 DocTags 標記格式是 SmolDocling 的另一項核心。這是一種基于 XML 風格的結構化詞匯,明確分離文本內容和文檔結構,從而提高了圖像到序列模型的性能。DocTags 使用開放和關閉標簽包裹文本塊,獨立標簽表示指令,支持全面的文檔結構表示,包括頁面、布局和元素位置。每個元素可以嵌套位置標簽,使用固定網格坐標系(0-500)指定其在頁面上的邊界框。


(來源:arXiv)

此外,DocTags 還集成了 OTSL 詞匯表用于編碼表格結構,支持列表處理、圖片和表格的標題、代碼格式保留等多種功能,為文檔轉換提供了統一而高效的表示方式。

對于小模型來說,訓練數據的質量尤其重要。而在 SmolDocling 的過程中,研究人員首先在預訓練階段利用了 DocLayNet-PT(140 萬頁帶有弱標注的數據集)和 Docmatix(130 萬文檔)。

其中,DocLayNet-PT 是從 DocFM 數據集中提取的,包含來自 CommonCrawl、維基百科和商業相關文檔的特殊 PDF 文件,專門選擇了具有視覺多樣性的內容(方程式、表格、代碼、圖表、彩色布局)。研究團隊通過一系列處理步驟添加了弱標注,包括 PDF 解析和增強,為每個頁面提供布局元素、表格結構、語言、主題和圖形分類的注釋。

此外,研究人員還針對布局、表格、圖表、代碼和公式等特定任務準備了專門的數據集。布局數據包括 DocLayNet v2(6 萬頁)、WordScape(6.3 萬頁)和 SynthDocNet(25 萬頁);表格數據來自 PubTables-1M、FinTabNet 和 WikiTableSet;圖表數據基于 FinTabNet 的 9 萬個表格生成,總計 250 萬個圖表;代碼數據集包含 930 萬代碼片段,覆蓋 56 種編程語言;公式數據集則包含 550 萬個特殊公式。


圖丨數據集構成(來源:arXiv)

訓練采用課程學習方法,逐步對齊模型進行文檔轉換。首先將 DocTags 作為標記添加到分詞器中,凍結視覺編碼器,只訓練網絡其余部分,適應新的輸出格式。接著解凍視覺編碼器,在預訓練數據集上訓練模型,同時使用所有任務特定的轉換數據集。最后,使用所有可用數據集進行微調,確保模型能夠全面把握各種文檔元素和特征。

由此,SmolDocling 得以在文檔處理任務上實現了良好的表現。并且,與傳統的集成系統相比,SmolDocling 還展示出獨特的魯棒性優勢。由于其轉換輸出是在單次處理中推斷的,避免了錯誤在模型流水線中累積的問題。例如,即使表格位置識別不準確,SmolDocling 仍能正確重現表格結構和內容,避免了錯誤在處理流程中的累積。

不過研究團隊表示,其頁面元素定位識別能力仍有提升空間,這也將是他們未來工作的重點。團隊計劃公開更多數據集,推動文檔理解領域的發展。目前,SmolDocling 已在 HuggingFace 平臺上提供預覽版(鏈接:https://huggingface.co/ds4sd/SmolDocling-256M-preview)。

參考資料:

1.https://arxiv.org/abs/2503.11576

2.https://huggingface.co/ds4sd/SmolDocling-256M-preview

運營/排版:何晨龍

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
專家:我們不在乎失去美國市場,中國5000年大部分時間沒有美國

專家:我們不在乎失去美國市場,中國5000年大部分時間沒有美國

村里的月光
2025-04-14 22:36:16
三河的通報,逗著玩呢?

三河的通報,逗著玩呢?

亮見
2025-04-15 11:33:02
換不換!美媒模擬:火箭送出狄龍+小賈+蘭代爾+2首輪換杜蘭特

換不換!美媒模擬:火箭送出狄龍+小賈+蘭代爾+2首輪換杜蘭特

直播吧
2025-04-15 09:37:21
衣服都要掉了,但鐘楚曦 一臉鎮定

衣服都要掉了,但鐘楚曦 一臉鎮定

TVB的四小花
2025-04-15 08:32:49
萬斯在社交媒體上發帖詢問,是不是應該把對華關稅提升到300%?

萬斯在社交媒體上發帖詢問,是不是應該把對華關稅提升到300%?

風華講史
2025-04-15 09:37:15
48歲大羅被打臉:豪言5年踢歐冠,結果3次降級!尋求賣隊

48歲大羅被打臉:豪言5年踢歐冠,結果3次降級!尋求賣隊

葉青足球世界
2025-04-15 08:15:09
大伯無兒無女,我結婚他也沒隨禮,婚禮結束后,他卻拉住了我

大伯無兒無女,我結婚他也沒隨禮,婚禮結束后,他卻拉住了我

蘭姐說故事
2025-03-31 17:00:12
萬斯向東方大國人民道歉,“我的言論絕無評判貴國人民之意"

萬斯向東方大國人民道歉,“我的言論絕無評判貴國人民之意"

荊楚文娛
2025-04-15 07:51:42
熟女阿姨寫真名場面大賞(130)一般人能否招架得住?

熟女阿姨寫真名場面大賞(130)一般人能否招架得住?

解讀熱點事件
2025-03-27 00:10:03
《我的后半生》這個美籍華人戲混子別演了,回漂亮國吧

《我的后半生》這個美籍華人戲混子別演了,回漂亮國吧

游古史
2025-04-15 09:40:59
剛剛,貝索斯發射火箭,將未婚妻成功送上太空!同行還有樂壇天后“水果姐”,6位成員均為女性

剛剛,貝索斯發射火箭,將未婚妻成功送上太空!同行還有樂壇天后“水果姐”,6位成員均為女性

每日經濟新聞
2025-04-14 23:13:11
特朗普沒招了,暗示對華動武,美防長:中國導彈能20分鐘摧毀航母

特朗普沒招了,暗示對華動武,美防長:中國導彈能20分鐘摧毀航母

文雅筆墨
2025-04-13 20:02:00
雷霆本季橫掃21隊超73勝勇士獨享歷史第一!

雷霆本季橫掃21隊超73勝勇士獨享歷史第一!

直播吧
2025-04-14 16:24:02
堅持嚴懲暴恐不動搖!中央政法委書記再赴新疆調研

堅持嚴懲暴恐不動搖!中央政法委書記再赴新疆調研

政知新媒體
2025-04-15 07:23:56
洛維:哈登在賽季收官戰上的表現 讓我覺得他必須入選最佳陣容

洛維:哈登在賽季收官戰上的表現 讓我覺得他必須入選最佳陣容

直播吧
2025-04-15 12:28:08
前CEO被傳跑路、經銷商“車錢兩空” 哪吒汽車駛向“至暗時刻”

前CEO被傳跑路、經銷商“車錢兩空” 哪吒汽車駛向“至暗時刻”

中國經營報
2025-04-15 04:07:18
營利逆勢雙增,這份年報藏著澳優穿越周期的四重心法

營利逆勢雙增,這份年報藏著澳優穿越周期的四重心法

銠財
2025-04-15 09:51:52
清晨駕車開高德導航,猛然發現斷頭路提示牌;遇險男子:車速約70多公里,萬幸落差只2米……

清晨駕車開高德導航,猛然發現斷頭路提示牌;遇險男子:車速約70多公里,萬幸落差只2米……

大風新聞
2025-04-15 12:39:27
短評:別整天嚷嚷拋美債了!丟人!

短評:別整天嚷嚷拋美債了!丟人!

財經飛說不可
2025-04-14 18:18:09
掘金老板:已做出解雇決定后曾征求約基奇意見 被他拒絕了

掘金老板:已做出解雇決定后曾征求約基奇意見 被他拒絕了

直播吧
2025-04-15 08:44:10
2025-04-15 13:31:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15059文章數 513544關注度
往期回顧 全部

科技要聞

OpenAI放大招!GPT-4.1上線,編程戰力全開

頭條要聞

解職十余名美軍軍官 美國開始對格陵蘭、巴拿馬動手了

頭條要聞

解職十余名美軍軍官 美國開始對格陵蘭、巴拿馬動手了

體育要聞

父母是臺灣移民!女林書豪被WNBA球隊選中

娛樂要聞

專訪 | 王安宇:角色是為觀眾服務的

財經要聞

特朗普為何攪亂貿易?謎題即將解開

汽車要聞

轉型中的"穩健派" 一汽-大眾的智能化突圍路徑

態度原創

數碼
時尚
旅游
游戲
軍事航空

數碼要聞

VisionPro上線Apple智能:注定失敗的續命手術

水晶專場|| 百元級的快樂,鐘楚曦真的太會買首飾了!

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

在線多人RPG!《霍格沃茨之遺》續作要來了嗎?

軍事要聞

美軍駐格陵蘭島太空基地指揮官遭解職

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 砚山县| 福鼎市| 五华县| 三门县| 南安市| 永平县| 敦化市| 左贡县| 连平县| 京山县| 龙州县| 井陉县| 吴江市| 全南县| 滦南县| 钟山县| 黑山县| 万宁市| 鄂托克前旗| 壤塘县| 延吉市| 宜川县| 响水县| 黔西县| 辽宁省| 黄山市| 林甸县| 旺苍县| 泸溪县| 依兰县| 岳阳市| 搜索| 炎陵县| 洛浦县| 江西省| 米易县| 磐石市| 祁东县| 松潘县| 阿拉善左旗| 无极县|