新智元報道
編輯:LRST
【新智元導(dǎo)讀】港中文、清華等高校提出SICOG框架,通過預(yù)訓(xùn)練、推理優(yōu)化和后訓(xùn)練協(xié)同,引入自生成數(shù)據(jù)閉環(huán)和結(jié)構(gòu)化感知推理機制,實現(xiàn)模型自我進化,為大模型發(fā)展提供新思路。
當前(多模態(tài))大模型正深陷「數(shù)據(jù)饑渴」困境:其性能高度依賴預(yù)訓(xùn)練階段大量高質(zhì)量(圖文對齊)數(shù)據(jù)的支撐。
然而,現(xiàn)實世界中這類高價值數(shù)據(jù)資源正在迅速耗盡,傳統(tǒng)依賴真實數(shù)據(jù)驅(qū)動模型能力增長的路徑已難以為繼。
在NeurIPS 2024會議上,OpenAI聯(lián)合創(chuàng)始人Ilya Sutskever明確指出:「Pre-training as we know it will end」, 這一判斷是對傳統(tǒng)預(yù)范式極限的清晰警示。
為延續(xù)性能提升,主流研究方向開始轉(zhuǎn)向推理優(yōu)化與后訓(xùn)練微調(diào)(如強化學習)。
然而,最新研究表明:此類改進極其依賴模型在預(yù)訓(xùn)練中所奠定的能力基礎(chǔ):如果模型在早期未能系統(tǒng)性地習得相關(guān)能力,后續(xù)優(yōu)化就如同在沙地上建高樓——進展有限,風險頗高。
不同模型在「自我進化」能力上的表現(xiàn)也存在巨大差異,其實質(zhì)仍是「題海戰(zhàn)術(shù)」的延伸:缺乏方法論支撐的訓(xùn)練,難以應(yīng)對真實世界中的復(fù)雜和變化。
面對這一瓶頸,大模型的未來路在何方?
微軟研究院科學家 Shital Shah 在社交媒體上指出:合成數(shù)據(jù)(synthetic data)或許是打破當前能力天花板的關(guān)鍵。
近日,港中文聯(lián)合清華等高校提出:未來大模型性能的持續(xù)提升,需依賴「預(yù)訓(xùn)練、推理階段的計算擴展、后訓(xùn)練優(yōu)化」三者的深度協(xié)同。這一觀點打破了傳統(tǒng)依賴單一預(yù)訓(xùn)練路徑的范式,為下一代多模態(tài)基礎(chǔ)大模型(Foundation MLLMs)的構(gòu)建提供了全新思路。
論文鏈接:https://arxiv.org/html/2503.12303v5
在此基礎(chǔ)上,研究團隊提出了創(chuàng)新性框架——SICOG(Structured In-Context Optimization and Generation),旨在重塑大模型的進化路徑。SICOG引入了獨創(chuàng)的「鏈式描述」技術(shù),通過五步漸進式視覺解析引擎,實現(xiàn)模型從顯著內(nèi)容捕捉到細粒度關(guān)聯(lián)推理的全面感知躍升。
該框架同時采用了「結(jié)構(gòu)化思維鏈」機制,有效增強模型對多模態(tài)信息的融合處理與復(fù)雜推理能力。更具突破性的是,SICOG通過自生成數(shù)據(jù)閉環(huán)+語義一致性篩選機制,使模型在零人工標注的條件下實現(xiàn)認知能力的持續(xù)進化,真正邁向高效、自主的學習范式。
SICOG的提出,不僅打破了當前模型在數(shù)據(jù)、算力與微調(diào)優(yōu)化三者割裂發(fā)展的瓶頸,也為未來通用人工智能(AGI)模型的構(gòu)建提供了可擴展、可遷移的新路徑。
SICOG:三位一體協(xié)同框架,讓模型學會「自我進化」
傳統(tǒng)多模態(tài)大模型(MLLMs)依賴海量標注數(shù)據(jù)與靜態(tài)預(yù)訓(xùn)練范式,面臨數(shù)據(jù)稀缺與能力增長受限的雙重瓶頸。為突破這一困境,本文提出全新框架SICOG(Self-Improving Systematic Cognition),首次構(gòu)建了涵蓋「后訓(xùn)練增強—推理優(yōu)化—再預(yù)訓(xùn)練強化」的三位一體自進化機制,重新定義了預(yù)訓(xùn)練邊界,為下一代MLLMs注入動態(tài)認知與持續(xù)學習能力。
SICOG的三階段協(xié)同機制包括:
后訓(xùn)練增強:利用少量高質(zhì)量標注數(shù)據(jù),提升模型的系統(tǒng)性認知與基礎(chǔ)推理能力;
推理優(yōu)化:在大規(guī)模無標簽多模態(tài)數(shù)據(jù)上進行自主推理,通過「自我一致性投票機制」篩選出高置信度答案,自動生成偽標簽;
再預(yù)訓(xùn)練強化:將篩選后的高質(zhì)量偽標注數(shù)據(jù)反饋用于預(yù)訓(xùn)練,實現(xiàn)模型能力的持續(xù)進化。
SICOG的關(guān)鍵創(chuàng)新在于實現(xiàn)了模型的「學中實踐、實踐中進化」:從少量種子數(shù)據(jù)出發(fā),模型通過「看圖總結(jié)+解題推理」主動構(gòu)建多任務(wù)樣本,實現(xiàn)數(shù)據(jù)生成與學習閉環(huán)。無需大規(guī)模人工標注,即可高效擴展預(yù)訓(xùn)練數(shù)據(jù),根本性緩解當前高質(zhì)量多模態(tài)數(shù)據(jù)稀缺的問題。
描述鏈(Chain-of-Description, CoD)
讓模型「看圖像像人一樣」
CoD(描述鏈)是一種結(jié)構(gòu)化分步感知方法,使模型像偵探一樣逐層觀察圖像,從主體到細節(jié)、從關(guān)系到背景,構(gòu)建出完整、邏輯嚴密的圖像理解過程。
以「一位女孩彈吉他」的圖像為例,傳統(tǒng)模型可能僅生成「女生在彈吉他」的粗略描述,而CoD會分為五個有序階段,逐步深化理解:
提取主體內(nèi)容:首先識別圖像的核心語義元素,如:「一位紅發(fā)女性坐在床上,懷中抱著一把木吉他」,確保模型對主要對象有清晰把握,為后續(xù)分析打下基礎(chǔ)。
分析細節(jié)信息:進一步觀察細節(jié)屬性,如「吉他為淺色指板的經(jīng)典木制款式,光線柔和,渲染出溫暖氛圍」,捕捉紋理、顏色、光影等低層信息,增強描述的豐富性與精度。
考慮關(guān)系屬性:描述圖像中元素之間的交互關(guān)系,如:「她坐在床上,筆記本放在小桌上,燈串和掛飾點綴背景」,強化對空間布局與語義結(jié)構(gòu)的建模。
檢查邊緣/背景內(nèi)容:不忽略次要信息,如:「房間內(nèi)有梳妝臺、墻面裝飾等背景元素」,補充場景語義,完善整體理解。
整合為連貫描述:將上述觀察統(tǒng)一組織為一段完整、邏輯清晰的自然語言描述。
通過CoD,模型能夠逐步「構(gòu)建圖像語義結(jié)構(gòu)」,實現(xiàn)從感知到理解的飛躍,顯著提升圖文對齊的質(zhì)量與邏輯性。
結(jié)構(gòu)化解題思路(Structured Chain-of-Thought, CoT)
讓模型「解題像學霸一樣」
CoT(結(jié)構(gòu)化思維鏈)是一種任務(wù)驅(qū)動的推理框架,支持模型在面對復(fù)雜問題時進行分步推理、信息整合與因果判斷,廣泛應(yīng)用于數(shù)學計算、邏輯問答、跨模態(tài)推理等任務(wù)。
例如,在一道幾何題中,傳統(tǒng)模型可能直接嘗試「猜測答案」,而CoT的解題過程如下:
明確任務(wù)目標:識別問題類型,例如「求三角形某邊的長度」。
提取關(guān)鍵信息:從圖像中提取直角三角形、垂線、邊長等必要條件。
邏輯推理分析:判斷相似三角形關(guān)系,列出比例公式并代入數(shù)值。
總結(jié)計算得解:通過計算得出答案,例如「選項C」。
CoT讓模型具備類人的「解題能力」,不僅能處理復(fù)雜的數(shù)理任務(wù),還能支持跨模態(tài)因果推斷,奠定模型認知系統(tǒng)化的基礎(chǔ)。
能力全面躍升:SICOG的三大關(guān)鍵優(yōu)勢
借助CoD和CoT,SICOG不僅構(gòu)建了結(jié)構(gòu)化的感知與推理流程,更在訓(xùn)練范式上實現(xiàn)了根本性突破,具備以下三大核心優(yōu)勢:
顯著降低對高質(zhì)量數(shù)據(jù)的依賴:僅需少量種子數(shù)據(jù)即可啟動,通過自生成數(shù)據(jù)循環(huán)優(yōu)化,實現(xiàn)大規(guī)模多模態(tài)數(shù)據(jù)的「零標注」擴展。
實現(xiàn)動態(tài)認知進化:打破傳統(tǒng)「一訓(xùn)定終身」的預(yù)訓(xùn)練模式,支持模型在使用過程中持續(xù)學習、能力不斷升級,具備「終身學習」特征。
感知與推理一體優(yōu)化:不再局限于感知能力的提升,SICOG在預(yù)訓(xùn)練階段即融合「感知+推理」,模擬人類認知流程,使模型對圖文、圖問等復(fù)雜任務(wù)具備更強泛化與應(yīng)變能力。
實驗驗證:SICOG實現(xiàn)模型能力全面提升
為了驗證SICOG框架的有效性,研究在12個主流多模態(tài)評測集上進行了系統(tǒng)性評估,涵蓋圖表理解、數(shù)學推理、抗幻覺能力等多個關(guān)鍵維度。實驗結(jié)果表明,SICOG能顯著提升模型的綜合表現(xiàn),具體成果如下:
綜合性能穩(wěn)步提升
在整體評測中,模型平均表現(xiàn)提升2%–4%;
尤其在依賴多步推理的任務(wù)中表現(xiàn)突出,如ScienceQA,展現(xiàn)出更強的邏輯推理與跨模態(tài)理解能力。
幻覺控制能力增強
在POPE等抗幻覺評測中,模型錯誤率下降了1%–2%
自生成數(shù)據(jù)推動持續(xù)進化
隨著自生成數(shù)據(jù)量從11.8萬條提升至21.3萬條,模型性能持續(xù)上升,呈現(xiàn)出良好的擴展性與學習能力;
表明SICOG的「自我進化機制」不僅可行,而且具備高度可擴展性。
超越主流預(yù)訓(xùn)練方法
SICOG在多個任務(wù)中表現(xiàn)甚至超過了主流的strong-to-weak distillation和multi-agent collaboration方法;
實驗還表明,基礎(chǔ)模型性能越強,其在自我進化過程中的能力提升也越顯著。例如,LLaVA-Qwen2-7B-UHD相較于LLaVA-Llama3.1-8B-UHD,性能提升幅度高出約50%。這表明:強大的基礎(chǔ)能力不僅決定模型的初始表現(xiàn),更顯著增強其后續(xù)自學習與優(yōu)化能力。
這一現(xiàn)象類似于人類學習中的「馬太效應(yīng)」——「學霸更會自學」。具備更優(yōu)初始結(jié)構(gòu)與知識表示的模型,能夠更高效地利用數(shù)據(jù)、激發(fā)潛力,在持續(xù)進化中取得更大進步。
研究進一步表明,基于合成數(shù)據(jù)的預(yù)訓(xùn)練顯著提升了模型的基礎(chǔ)認知能力,從而強化了后續(xù)微調(diào)效果。這一結(jié)果再次驗證了:預(yù)訓(xùn)練、推理階段的計算擴展與后訓(xùn)練優(yōu)化三者之間存在高度協(xié)同關(guān)系。只有打通這三環(huán)節(jié),才能實現(xiàn)模型能力的持續(xù)躍升與高效進化。
此外,研究發(fā)現(xiàn),SICOG生成的合成數(shù)據(jù)同樣遵循規(guī)模法則(scaling law):模型能力隨著數(shù)據(jù)量的增加持續(xù)提升。這進一步證明了自生成數(shù)據(jù)在模型進化過程中的有效性與可擴展性。
研究人員提出了一種變體方法:在第一階段的后訓(xùn)練增強中,以偏好學習(Preference Learning)替代傳統(tǒng)的監(jiān)督微調(diào)(SFT),以進一步強化模型的基礎(chǔ)能力。
實驗結(jié)果表明,偏好學習在提升模型泛化能力方面優(yōu)于SFT,尤其在處理復(fù)雜任務(wù)時表現(xiàn)更為穩(wěn)健。這一結(jié)果從實證層面驗證了長期以來的觀點:強化學習范式在特定任務(wù)中相較于監(jiān)督微調(diào)更具優(yōu)勢。
細粒度圖像感知能力顯著增強,在細節(jié)識別與關(guān)系屬性捕捉方面表現(xiàn)出更高的準確性與魯棒性。
多模態(tài)理解與推理能力顯著提升。
展望:預(yù)訓(xùn)練的新邊疆——從靜態(tài)訓(xùn)練到動態(tài)進化
SICOG通過構(gòu)建一個涵蓋「數(shù)據(jù)生成→模型訓(xùn)練→能力進化」的閉環(huán)體系,突破了傳統(tǒng)預(yù)訓(xùn)練對高質(zhì)量人工標注數(shù)據(jù)的依賴,展現(xiàn)出類人認知發(fā)展的潛力。該框架不僅實現(xiàn)了模型的自我學習與持續(xù)優(yōu)化,也為邁向真正自主學習型智能體奠定了堅實基礎(chǔ)。
在當前研究中,SICOG通過引入Chain-of-Description(CoD)并配合Chain-of-Thought(CoT)的推理機制,顯著增強了多模態(tài)模型的感知與推理能力。然而,這一進展仍只是通向完全自主學習的起點。
未來,若能進一步引入環(huán)境反饋機制(如具身智能場景)與持續(xù)優(yōu)化機制,模型將有望具備終身學習的能力,實現(xiàn)從「被動學習」向「主動成長」的躍遷。在與環(huán)境的持續(xù)交互中,模型不僅可以利用自身生成的數(shù)據(jù)進行自我優(yōu)化,更能夠主動識別知識盲區(qū)、動態(tài)調(diào)整學習策略,從而在復(fù)雜任務(wù)與多變環(huán)境中不斷進化、持續(xù)提升。
參考資料:
https://arxiv.org/html/2503.12303v5
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.