在今年年初麻省理工科技評論將小模型(Small Language Model)評為2025 年十大突破性技術之一,認為隨著大模型的邊際收益逐漸減小,小模型有望在特定任務中媲美甚至超越大模型。而最近小模型圈子的一系列成果,都在印證這個趨勢——從谷歌的 Gemma3、微軟的 Phi4-mini 再到 Mistral 的 Small 3.1……小模型一天比一天精悍。
最近 IBM 和 Hugging Face 的研究人員又聯合推出了一個新的小型視覺-語言模型 SmolDocling,這款專為文檔轉換任務而設計的模型,居然只用 256M 的參數就在各項基準測試上超越了更大規模的其他模型。
圖丨相關論文(來源:arXiv)
SmolDocling 基于 Hugging Face 的 SmolVLM 架構,可以處理整個頁面的內容,并通過生成“DocTags”(一種新型通用標記格式)精確捕捉頁面元素及其位置和上下文信息。與依賴手工制作的流水線或大型基礎模型不同,SmolDocling 采用端到端的轉換方法,只需 256M 參數的規模就能準確捕獲文檔元素的內容、結構和空間位置。研究團隊稱,它在各種文檔類型中都表現出色,包括商業文檔、學術論文、技術報告、專利和表格等,能夠正確再現代碼列表、表格、方程式、圖表和列表等多樣化文檔特征。
從多項基準測試的結果來看,SmolDocling 的確展現出了與更大模型相當甚至更優的性能。全頁文檔文本識別任務中,SmolDocling 的編輯距離為 0.48,F1 分數為 0.80,優于參數量為 7B 的 Qwen2.5 VL、580M 的 GOT 和 350M 的 Nougat。
在公式識別方面,SmolDocling 達到了 0.95 的 F1 分數,與 GOT 相當,且明顯優于其他模型。該研究還首次對代碼列表識別任務進行了評估,SmolDocling 在這一領域設立了初始基準,精確率和召回率分別為 0.94 和 0.91。
布局分析任務中,SmolDocling 在 DocLayNet 測試集上的表現明顯超過了 Qwen2.5-VL-7b。不過兩個模型的得分都低于人類基線,原因主要在于數據集本身的復雜性。表格結構識別方面,盡管測試數據集的圖像質量較低,SmolDocling 仍然表現出與更大模型相當的能力。
圖丨基準測試結果(來源:arXiv)
從許多用戶的實測表現上來看,模型的表現的確可圈可點。不過有用戶反映,對于表格轉為 markdown 或 HTML 的任務,SmolDocling 與其他多模態模型一樣,偶爾會出現一些幻覺問題,但對于列邊界不明確的表格處理表現還算不錯。另一位用戶評價道,對于如此小體積的模型來說,其表現還是很不錯的,雖然相對來說不夠準確,但有望成為 PDF 提取的實用工具。
在實際使用中,SmolDocling 處理一頁文檔僅需 0.35 秒(在單個 A100 上),只占用 489MB 的顯存,甚至可以在手機上就能使用。
那么,SmolDocling 究竟是如何做到在如此小的參數規模下實現這種性能表現的呢?這就要談到它的架構、訓練方法和數據處理策略。
從架構上來說,它所基于的 SmolVLM-256M 架構由兩大核心部分組成:視覺編碼器和語言骨干。視覺編碼器采用 SigLIP base patch-16/512(93M 參數)作為視覺骨干,與 2.2B 版本的同一模型相比,其訓練數據重新平衡,更加強調文檔理解(41%)和圖像描述(14%),結合了 Cauldron、Docmatix 數據集并添加了 MathWriting。模型采用比較激進的像素混洗方法,將每個 512x512 圖像塊壓縮為 64 個視覺標記。
圖丨 SmolDocling/SmolVLM 架構(來源:arXiv)
語言骨干則使用 SmolLM-2 家族(135M 參數)的輕量級變體,并通過提高像素到標記的比率(每個標記 4096 像素)和引入子圖像分隔符的特殊標記,進一步提升了標記化效率。
研究人員開發的 DocTags 標記格式是 SmolDocling 的另一項核心。這是一種基于 XML 風格的結構化詞匯,明確分離文本內容和文檔結構,從而提高了圖像到序列模型的性能。DocTags 使用開放和關閉標簽包裹文本塊,獨立標簽表示指令,支持全面的文檔結構表示,包括頁面、布局和元素位置。每個元素可以嵌套位置標簽,使用固定網格坐標系(0-500)指定其在頁面上的邊界框。
(來源:arXiv)
此外,DocTags 還集成了 OTSL 詞匯表用于編碼表格結構,支持列表處理、圖片和表格的標題、代碼格式保留等多種功能,為文檔轉換提供了統一而高效的表示方式。
對于小模型來說,訓練數據的質量尤其重要。而在 SmolDocling 的過程中,研究人員首先在預訓練階段利用了 DocLayNet-PT(140 萬頁帶有弱標注的數據集)和 Docmatix(130 萬文檔)。
其中,DocLayNet-PT 是從 DocFM 數據集中提取的,包含來自 CommonCrawl、維基百科和商業相關文檔的特殊 PDF 文件,專門選擇了具有視覺多樣性的內容(方程式、表格、代碼、圖表、彩色布局)。研究團隊通過一系列處理步驟添加了弱標注,包括 PDF 解析和增強,為每個頁面提供布局元素、表格結構、語言、主題和圖形分類的注釋。
此外,研究人員還針對布局、表格、圖表、代碼和公式等特定任務準備了專門的數據集。布局數據包括 DocLayNet v2(6 萬頁)、WordScape(6.3 萬頁)和 SynthDocNet(25 萬頁);表格數據來自 PubTables-1M、FinTabNet 和 WikiTableSet;圖表數據基于 FinTabNet 的 9 萬個表格生成,總計 250 萬個圖表;代碼數據集包含 930 萬代碼片段,覆蓋 56 種編程語言;公式數據集則包含 550 萬個特殊公式。
圖丨數據集構成(來源:arXiv)
訓練采用課程學習方法,逐步對齊模型進行文檔轉換。首先將 DocTags 作為標記添加到分詞器中,凍結視覺編碼器,只訓練網絡其余部分,適應新的輸出格式。接著解凍視覺編碼器,在預訓練數據集上訓練模型,同時使用所有任務特定的轉換數據集。最后,使用所有可用數據集進行微調,確保模型能夠全面把握各種文檔元素和特征。
由此,SmolDocling 得以在文檔處理任務上實現了良好的表現。并且,與傳統的集成系統相比,SmolDocling 還展示出獨特的魯棒性優勢。由于其轉換輸出是在單次處理中推斷的,避免了錯誤在模型流水線中累積的問題。例如,即使表格位置識別不準確,SmolDocling 仍能正確重現表格結構和內容,避免了錯誤在處理流程中的累積。
不過研究團隊表示,其頁面元素定位識別能力仍有提升空間,這也將是他們未來工作的重點。團隊計劃公開更多數據集,推動文檔理解領域的發展。目前,SmolDocling 已在 HuggingFace 平臺上提供預覽版(鏈接:https://huggingface.co/ds4sd/SmolDocling-256M-preview)。
參考資料:
1.https://arxiv.org/abs/2503.11576
2.https://huggingface.co/ds4sd/SmolDocling-256M-preview
運營/排版:何晨龍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.