99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

預(yù)訓(xùn)練還沒終結(jié)!港中文清華等提出「三位一體」框架,持續(xù)自我進化

0
分享至


新智元報道

編輯:LRST

【新智元導(dǎo)讀】港中文、清華等高校提出SICOG框架,通過預(yù)訓(xùn)練、推理優(yōu)化和后訓(xùn)練協(xié)同,引入自生成數(shù)據(jù)閉環(huán)和結(jié)構(gòu)化感知推理機制,實現(xiàn)模型自我進化,為大模型發(fā)展提供新思路。

當前(多模態(tài))大模型正深陷「數(shù)據(jù)饑渴」困境:其性能高度依賴預(yù)訓(xùn)練階段大量高質(zhì)量(圖文對齊)數(shù)據(jù)的支撐。

然而,現(xiàn)實世界中這類高價值數(shù)據(jù)資源正在迅速耗盡,傳統(tǒng)依賴真實數(shù)據(jù)驅(qū)動模型能力增長的路徑已難以為繼。

在NeurIPS 2024會議上,OpenAI聯(lián)合創(chuàng)始人Ilya Sutskever明確指出:「Pre-training as we know it will end」, 這一判斷是對傳統(tǒng)預(yù)范式極限的清晰警示。


為延續(xù)性能提升,主流研究方向開始轉(zhuǎn)向推理優(yōu)化與后訓(xùn)練微調(diào)(如強化學習)。

然而,最新研究表明:此類改進極其依賴模型在預(yù)訓(xùn)練中所奠定的能力基礎(chǔ):如果模型在早期未能系統(tǒng)性地習得相關(guān)能力,后續(xù)優(yōu)化就如同在沙地上建高樓——進展有限,風險頗高。

不同模型在「自我進化」能力上的表現(xiàn)也存在巨大差異,其實質(zhì)仍是「題海戰(zhàn)術(shù)」的延伸:缺乏方法論支撐的訓(xùn)練,難以應(yīng)對真實世界中的復(fù)雜和變化。

面對這一瓶頸,大模型的未來路在何方?

微軟研究院科學家 Shital Shah 在社交媒體上指出:合成數(shù)據(jù)synthetic data)或許是打破當前能力天花板的關(guān)鍵。


近日,港中文聯(lián)合清華等高校提出:未來大模型性能的持續(xù)提升,需依賴「預(yù)訓(xùn)練、推理階段的計算擴展、后訓(xùn)練優(yōu)化」三者的深度協(xié)同。這一觀點打破了傳統(tǒng)依賴單一預(yù)訓(xùn)練路徑的范式,為下一代多模態(tài)基礎(chǔ)大模型(Foundation MLLMs)的構(gòu)建提供了全新思路。


論文鏈接:https://arxiv.org/html/2503.12303v5

在此基礎(chǔ)上,研究團隊提出了創(chuàng)新性框架——SICOG(Structured In-Context Optimization and Generation),旨在重塑大模型的進化路徑。SICOG引入了獨創(chuàng)的「鏈式描述」技術(shù),通過五步漸進式視覺解析引擎,實現(xiàn)模型從顯著內(nèi)容捕捉到細粒度關(guān)聯(lián)推理的全面感知躍升。

該框架同時采用了「結(jié)構(gòu)化思維鏈」機制,有效增強模型對多模態(tài)信息的融合處理與復(fù)雜推理能力。更具突破性的是,SICOG通過自生成數(shù)據(jù)閉環(huán)+語義一致性篩選機制,使模型在零人工標注的條件下實現(xiàn)認知能力的持續(xù)進化,真正邁向高效、自主的學習范式。

SICOG的提出,不僅打破了當前模型在數(shù)據(jù)、算力與微調(diào)優(yōu)化三者割裂發(fā)展的瓶頸,也為未來通用人工智能(AGI)模型的構(gòu)建提供了可擴展、可遷移的新路徑。

SICOG:三位一體協(xié)同框架,讓模型學會「自我進化」

傳統(tǒng)多模態(tài)大模型(MLLMs)依賴海量標注數(shù)據(jù)與靜態(tài)預(yù)訓(xùn)練范式,面臨數(shù)據(jù)稀缺與能力增長受限的雙重瓶頸。為突破這一困境,本文提出全新框架SICOG(Self-Improving Systematic Cognition),首次構(gòu)建了涵蓋「后訓(xùn)練增強—推理優(yōu)化—再預(yù)訓(xùn)練強化」三位一體自進化機制,重新定義了預(yù)訓(xùn)練邊界,為下一代MLLMs注入動態(tài)認知與持續(xù)學習能力。


SICOG的三階段協(xié)同機制包括:

  1. 后訓(xùn)練增強利用少量高質(zhì)量標注數(shù)據(jù),提升模型的系統(tǒng)性認知與基礎(chǔ)推理能力;

  2. 推理優(yōu)化在大規(guī)模無標簽多模態(tài)數(shù)據(jù)上進行自主推理,通過「自我一致性投票機制」篩選出高置信度答案,自動生成偽標簽;

  3. 再預(yù)訓(xùn)練強化將篩選后的高質(zhì)量偽標注數(shù)據(jù)反饋用于預(yù)訓(xùn)練,實現(xiàn)模型能力的持續(xù)進化。

SICOG的關(guān)鍵創(chuàng)新在于實現(xiàn)了模型的「學中實踐、實踐中進化」:從少量種子數(shù)據(jù)出發(fā),模型通過「看圖總結(jié)+解題推理」主動構(gòu)建多任務(wù)樣本,實現(xiàn)數(shù)據(jù)生成與學習閉環(huán)。無需大規(guī)模人工標注,即可高效擴展預(yù)訓(xùn)練數(shù)據(jù),根本性緩解當前高質(zhì)量多模態(tài)數(shù)據(jù)稀缺的問題。



描述鏈(Chain-of-Description, CoD)

讓模型「看圖像像人一樣」

CoD(描述鏈)是一種結(jié)構(gòu)化分步感知方法,使模型像偵探一樣逐層觀察圖像,從主體到細節(jié)、從關(guān)系到背景,構(gòu)建出完整、邏輯嚴密的圖像理解過程。

以「一位女孩彈吉他」的圖像為例,傳統(tǒng)模型可能僅生成「女生在彈吉他」的粗略描述,而CoD會分為五個有序階段,逐步深化理解:

  1. 提取主體內(nèi)容:首先識別圖像的核心語義元素,如:「一位紅發(fā)女性坐在床上,懷中抱著一把木吉他」,確保模型對主要對象有清晰把握,為后續(xù)分析打下基礎(chǔ)。

  2. 分析細節(jié)信息:進一步觀察細節(jié)屬性,如「吉他為淺色指板的經(jīng)典木制款式,光線柔和,渲染出溫暖氛圍」,捕捉紋理、顏色、光影等低層信息,增強描述的豐富性與精度。

  3. 考慮關(guān)系屬性:描述圖像中元素之間的交互關(guān)系,如:「她坐在床上,筆記本放在小桌上,燈串和掛飾點綴背景」,強化對空間布局與語義結(jié)構(gòu)的建模。

  4. 檢查邊緣/背景內(nèi)容:不忽略次要信息,如:「房間內(nèi)有梳妝臺、墻面裝飾等背景元素」,補充場景語義,完善整體理解。

  5. 整合為連貫描述:將上述觀察統(tǒng)一組織為一段完整、邏輯清晰的自然語言描述。

通過CoD,模型能夠逐步「構(gòu)建圖像語義結(jié)構(gòu)」,實現(xiàn)從感知到理解的飛躍,顯著提升圖文對齊的質(zhì)量與邏輯性。

結(jié)構(gòu)化解題思路(Structured Chain-of-Thought, CoT)

讓模型「解題像學霸一樣」

CoT(結(jié)構(gòu)化思維鏈)是一種任務(wù)驅(qū)動的推理框架,支持模型在面對復(fù)雜問題時進行分步推理、信息整合與因果判斷,廣泛應(yīng)用于數(shù)學計算、邏輯問答、跨模態(tài)推理等任務(wù)。

例如,在一道幾何題中,傳統(tǒng)模型可能直接嘗試「猜測答案」,而CoT的解題過程如下:

  1. 明確任務(wù)目標:識別問題類型,例如「求三角形某邊的長度」。

  2. 提取關(guān)鍵信息:從圖像中提取直角三角形、垂線、邊長等必要條件。

  3. 邏輯推理分析:判斷相似三角形關(guān)系,列出比例公式并代入數(shù)值。

  4. 總結(jié)計算得解:通過計算得出答案,例如「選項C」。

CoT讓模型具備類人的「解題能力」,不僅能處理復(fù)雜的數(shù)理任務(wù),還能支持跨模態(tài)因果推斷,奠定模型認知系統(tǒng)化的基礎(chǔ)。

能力全面躍升:SICOG的三大關(guān)鍵優(yōu)勢

借助CoD和CoT,SICOG不僅構(gòu)建了結(jié)構(gòu)化的感知與推理流程,更在訓(xùn)練范式上實現(xiàn)了根本性突破,具備以下三大核心優(yōu)勢:

  1. 顯著降低對高質(zhì)量數(shù)據(jù)的依賴:僅需少量種子數(shù)據(jù)即可啟動,通過自生成數(shù)據(jù)循環(huán)優(yōu)化,實現(xiàn)大規(guī)模多模態(tài)數(shù)據(jù)的「零標注」擴展。

  2. 實現(xiàn)動態(tài)認知進化:打破傳統(tǒng)「一訓(xùn)定終身」的預(yù)訓(xùn)練模式,支持模型在使用過程中持續(xù)學習、能力不斷升級,具備「終身學習」特征。

  3. 感知與推理一體優(yōu)化:不再局限于感知能力的提升,SICOG在預(yù)訓(xùn)練階段即融合「感知+推理」,模擬人類認知流程,使模型對圖文、圖問等復(fù)雜任務(wù)具備更強泛化與應(yīng)變能力。


實驗驗證:SICOG實現(xiàn)模型能力全面提升

為了驗證SICOG框架的有效性,研究在12個主流多模態(tài)評測集上進行了系統(tǒng)性評估,涵蓋圖表理解、數(shù)學推理、抗幻覺能力等多個關(guān)鍵維度。實驗結(jié)果表明,SICOG能顯著提升模型的綜合表現(xiàn),具體成果如下:

綜合性能穩(wěn)步提升

  • 在整體評測中,模型平均表現(xiàn)提升2%–4%;

  • 尤其在依賴多步推理的任務(wù)中表現(xiàn)突出,如ScienceQA,展現(xiàn)出更強的邏輯推理與跨模態(tài)理解能力。

幻覺控制能力增強

  • POPE等抗幻覺評測中,模型錯誤率下降了1%–2%

自生成數(shù)據(jù)推動持續(xù)進化

  • 隨著自生成數(shù)據(jù)量從11.8萬條提升至21.3萬條,模型性能持續(xù)上升,呈現(xiàn)出良好的擴展性與學習能力;

  • 表明SICOG的「自我進化機制」不僅可行,而且具備高度可擴展性。

超越主流預(yù)訓(xùn)練方法

  • SICOG在多個任務(wù)中表現(xiàn)甚至超過了主流的strong-to-weak distillation和multi-agent collaboration方法


實驗還表明,基礎(chǔ)模型性能越強,其在自我進化過程中的能力提升也越顯著。例如,LLaVA-Qwen2-7B-UHD相較于LLaVA-Llama3.1-8B-UHD,性能提升幅度高出約50%。這表明:強大的基礎(chǔ)能力不僅決定模型的初始表現(xiàn),更顯著增強其后續(xù)自學習與優(yōu)化能力。

這一現(xiàn)象類似于人類學習中的「馬太效應(yīng)」——「學霸更會自學」。具備更優(yōu)初始結(jié)構(gòu)與知識表示的模型,能夠更高效地利用數(shù)據(jù)、激發(fā)潛力,在持續(xù)進化中取得更大進步。


研究進一步表明,基于合成數(shù)據(jù)的預(yù)訓(xùn)練顯著提升了模型的基礎(chǔ)認知能力,從而強化了后續(xù)微調(diào)效果。這一結(jié)果再次驗證了:預(yù)訓(xùn)練、推理階段的計算擴展與后訓(xùn)練優(yōu)化三者之間存在高度協(xié)同關(guān)系。只有打通這三環(huán)節(jié),才能實現(xiàn)模型能力的持續(xù)躍升與高效進化。

此外,研究發(fā)現(xiàn),SICOG生成的合成數(shù)據(jù)同樣遵循規(guī)模法則(scaling law):模型能力隨著數(shù)據(jù)量的增加持續(xù)提升。這進一步證明了自生成數(shù)據(jù)在模型進化過程中的有效性與可擴展性。


研究人員提出了一種變體方法:在第一階段的后訓(xùn)練增強中,以偏好學習(Preference Learning)替代傳統(tǒng)的監(jiān)督微調(diào)(SFT),以進一步強化模型的基礎(chǔ)能力。

實驗結(jié)果表明,偏好學習在提升模型泛化能力方面優(yōu)于SFT,尤其在處理復(fù)雜任務(wù)時表現(xiàn)更為穩(wěn)健。這一結(jié)果從實證層面驗證了長期以來的觀點:強化學習范式在特定任務(wù)中相較于監(jiān)督微調(diào)更具優(yōu)勢。


細粒度圖像感知能力顯著增強,在細節(jié)識別與關(guān)系屬性捕捉方面表現(xiàn)出更高的準確性與魯棒性。


多模態(tài)理解與推理能力顯著提升

展望:預(yù)訓(xùn)練的新邊疆——從靜態(tài)訓(xùn)練到動態(tài)進化

SICOG通過構(gòu)建一個涵蓋「數(shù)據(jù)生成→模型訓(xùn)練→能力進化」的閉環(huán)體系,突破了傳統(tǒng)預(yù)訓(xùn)練對高質(zhì)量人工標注數(shù)據(jù)的依賴,展現(xiàn)出類人認知發(fā)展的潛力。該框架不僅實現(xiàn)了模型的自我學習與持續(xù)優(yōu)化,也為邁向真正自主學習型智能體奠定了堅實基礎(chǔ)。

在當前研究中,SICOG通過引入Chain-of-Description(CoD)并配合Chain-of-Thought(CoT)的推理機制,顯著增強了多模態(tài)模型的感知與推理能力。然而,這一進展仍只是通向完全自主學習的起點。

未來,若能進一步引入環(huán)境反饋機制(如具身智能場景)與持續(xù)優(yōu)化機制,模型將有望具備終身學習的能力,實現(xiàn)從「被動學習」向「主動成長」的躍遷。在與環(huán)境的持續(xù)交互中,模型不僅可以利用自身生成的數(shù)據(jù)進行自我優(yōu)化,更能夠主動識別知識盲區(qū)、動態(tài)調(diào)整學習策略,從而在復(fù)雜任務(wù)與多變環(huán)境中不斷進化、持續(xù)提升。

參考資料:

https://arxiv.org/html/2503.12303v5

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
美軍代表團抵達上海,坐上了中美的談判桌

美軍代表團抵達上海,坐上了中美的談判桌

周說風云
2025-04-10 16:00:05
2024年中國香煙銷量排名前十的品牌,有你喜歡的香煙嗎?

2024年中國香煙銷量排名前十的品牌,有你喜歡的香煙嗎?

宇哥看世界ii
2025-04-04 23:34:58
全球高關(guān)稅刺激下,A股哪些板塊需要回避?哪些板塊是機會?

全球高關(guān)稅刺激下,A股哪些板塊需要回避?哪些板塊是機會?

文曲塘財經(jīng)研究
2025-04-13 20:05:04
55歲老夫妻每天要過性生活,一個月沒做,丈夫懷疑妻子找8個男人

55歲老夫妻每天要過性生活,一個月沒做,丈夫懷疑妻子找8個男人

胖胖侃咖
2025-04-10 08:00:07
消息稱蘋果新款 Vision Pro 可與 Mac 產(chǎn)品有線連接

消息稱蘋果新款 Vision Pro 可與 Mac 產(chǎn)品有線連接

IT之家
2025-04-13 22:45:09
中國人的神邏輯!只有符合中國利益的觀點才是正確的邏輯嗎?

中國人的神邏輯!只有符合中國利益的觀點才是正確的邏輯嗎?

大風文字
2025-01-06 11:37:41
70歲離異老太慘死,法醫(yī)檢測體內(nèi)男性DNA,竟與老太自己高度吻合

70歲離異老太慘死,法醫(yī)檢測體內(nèi)男性DNA,竟與老太自己高度吻合

蘇大強專欄
2024-03-27 22:12:23
劉浩存 看得出她是公主~

劉浩存 看得出她是公主~

情感大頭說說
2025-04-12 04:29:51
4月1日起施行!軍人“回家住宿”有了新規(guī)定

4月1日起施行!軍人“回家住宿”有了新規(guī)定

從軍行
2025-04-09 18:54:30
大模型被團滅了

大模型被團滅了

機器學習與Python社區(qū)
2025-02-22 14:07:00
媒體人:四川女籃無緣三連冠,或許意味著金元女籃時代結(jié)束

媒體人:四川女籃無緣三連冠,或許意味著金元女籃時代結(jié)束

雷速體育
2025-04-13 22:57:09
對等關(guān)稅過后,經(jīng)濟改革可能不太遠了

對等關(guān)稅過后,經(jīng)濟改革可能不太遠了

曹多魚的財經(jīng)世界
2025-04-07 09:03:10
中鐵十八局一公司領(lǐng)導(dǎo)行賄、受賄、養(yǎng)小三、偷盜上千萬工程材料

中鐵十八局一公司領(lǐng)導(dǎo)行賄、受賄、養(yǎng)小三、偷盜上千萬工程材料

東南商訊錄
2025-04-13 15:31:00
65歲大爺帶老伴旅游,2年花37萬,回家后卻發(fā)現(xiàn)家里住了位大媽,大媽:你們誰啊?怎么有我家鑰匙

65歲大爺帶老伴旅游,2年花37萬,回家后卻發(fā)現(xiàn)家里住了位大媽,大媽:你們誰???怎么有我家鑰匙

老板手記
2025-04-06 19:42:18
中印面臨大難題,青藏高原湖泊面積劇增,印度部分地區(qū)已嘗苦果

中印面臨大難題,青藏高原湖泊面積劇增,印度部分地區(qū)已嘗苦果

呼呼歷史論
2025-04-12 19:08:24
博導(dǎo)不愿收家里窮的學生,并不是瞧不起寒門貴子,而是現(xiàn)實不允許

博導(dǎo)不愿收家里窮的學生,并不是瞧不起寒門貴子,而是現(xiàn)實不允許

牛鍋巴小釩
2025-03-26 14:13:18
家里若有這4款老物件,記得收好,如今價值不輸給茅臺

家里若有這4款老物件,記得收好,如今價值不輸給茅臺

古裝影視解說阿兇
2025-03-19 16:43:54
新疆遼寧戰(zhàn)至最后一刻,裁判發(fā)力罰下哈雷爾,趙繼偉表現(xiàn)搶眼

新疆遼寧戰(zhàn)至最后一刻,裁判發(fā)力罰下哈雷爾,趙繼偉表現(xiàn)搶眼

順靜自然
2025-04-14 00:33:31
請不要網(wǎng)暴她!杭州9歲男孩27樓墜亡:家屬哭暈,3大致命隱患曝光

請不要網(wǎng)暴她!杭州9歲男孩27樓墜亡:家屬哭暈,3大致命隱患曝光

山山視角
2025-04-13 01:38:51
為什么美國、日本第一時間就知道中國的決策、軍事及重大的工程等

為什么美國、日本第一時間就知道中國的決策、軍事及重大的工程等

石辰搞笑日常
2025-03-31 12:51:22
2025-04-14 03:03:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
12522文章數(shù) 66012關(guān)注度
往期回顧 全部

科技要聞

特朗普政府豁免消費電子等產(chǎn)品的對等關(guān)稅

頭條要聞

特朗普"180度大轉(zhuǎn)彎" 首次"對中國商品實施重大豁免"

頭條要聞

特朗普"180度大轉(zhuǎn)彎" 首次"對中國商品實施重大豁免"

體育要聞

那個抱起全紅嬋的英國女孩

娛樂要聞

倪虹潔給陳德容上了一課,贏得漂亮!

財經(jīng)要聞

美方豁免部分產(chǎn)品對等關(guān)稅 商務(wù)部回應(yīng)

汽車要聞

審美和深層次豪華 阿維塔06都辦到了

態(tài)度原創(chuàng)

藝術(shù)
教育
時尚
數(shù)碼
本地

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

教育要聞

“一手好牌打得稀爛”,女兒中山大學畢業(yè)變水碩,母親仍不悔悟

今年春夏最實用的穿衣法則,照著搭就很時髦!

數(shù)碼要聞

Apple Watch 將進行小幅硬件改動和大規(guī)模軟件更新

本地新聞

華北將迎“歷史罕見”大風

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 巴林右旗| 游戏| 抚顺县| 晴隆县| 安仁县| 揭西县| 翁源县| 白玉县| 清徐县| 郁南县| 仪陇县| 麻江县| 苍梧县| 梧州市| 方城县| 合川市| 宁远县| 湖口县| 成武县| 聊城市| 同江市| 密云县| 黔东| 襄垣县| 定兴县| 额敏县| 陇西县| 珠海市| 高青县| 和龙市| 呼伦贝尔市| 鄂托克前旗| 揭西县| 乌海市| 丰原市| 道孚县| 柘荣县| 桓仁| 沙坪坝区| 东光县| 宝丰县|