MIT教授Markus J. Buehler團(tuán)隊(duì)提出了全新自學(xué)習(xí)AI框架PRefLexOR,一個(gè)能夠像人類一樣進(jìn)行深度思考和自主進(jìn)化的AI框架!
具體來說Markus教授團(tuán)隊(duì)訓(xùn)練了一個(gè)圖原生人工智能,然后讓它進(jìn)行了數(shù)天的推理,自行形成了一個(gè)動(dòng)態(tài)關(guān)系世界模型--無需預(yù)先編程。新出現(xiàn)的樞紐、小世界特性、模塊化和無標(biāo)度結(jié)構(gòu)自然而然地產(chǎn)生了。然后,該模型利用了組合推理,并從深度合成中發(fā)現(xiàn)了未編碼的特性: 具有記憶的材料、微生物修復(fù)、自進(jìn)化系統(tǒng)。以下是一個(gè)視頻演示,視頻展示了它的展開過程
paper:
https://arxiv.org/pdf/2502.13025
下面我給大家劃個(gè)重點(diǎn):
PRefLexOR:基于偏好的遞歸語言建模,用于探索性推理優(yōu)化和自主思考
PRefLexOR(基于偏好的遞歸語言建模,用于探索性優(yōu)化推理),這是一種將偏好優(yōu)化與強(qiáng)化學(xué)習(xí)(RL)概念相結(jié)合的框架,使模型能夠通過迭代的推理改進(jìn)自我學(xué)習(xí)。PRefLexOR 的核心是思考令牌,它們明確地標(biāo)記模型輸出中的反思推理階段,使模型能夠遞歸地進(jìn)行多步推理、回顧和改進(jìn)中間步驟,最終生成最終輸出。
PRefLexOR 的基礎(chǔ)是優(yōu)勢(shì)比偏好優(yōu)化(ORPO),在這種方法中,模型通過優(yōu)化偏好響應(yīng)和非偏好響應(yīng)之間的對(duì)數(shù)優(yōu)勢(shì)比來學(xué)習(xí)使其推理與人類偏好決策路徑相一致。通過直接偏好優(yōu)化(DPO)的集成進(jìn)一步提升了模型性能,使用拒絕采樣來精細(xì)調(diào)整推理質(zhì)量,確保偏好對(duì)齊的細(xì)微差別。ORPO 和 DPO 之間的這種混合方法類似于 RL 的關(guān)鍵方面,其中模型不斷根據(jù)反饋進(jìn)行指導(dǎo),以改進(jìn)決策和推理。 主動(dòng)學(xué)習(xí)機(jī)制使 PRefLexOR 能在訓(xùn)練過程中動(dòng)態(tài)生成新的任務(wù)、推理步驟和被拒絕的答案。這一適應(yīng)性過程使模型能夠邊學(xué)邊教,并通過實(shí)時(shí)反饋和遞歸處理不斷改進(jìn)
方法
PRefLexOR方法與傳統(tǒng)方法不同,不依賴于預(yù)先生成的數(shù)據(jù)集;相反,它會(huì)動(dòng)態(tài)生成新的任務(wù)、推理步驟和反饋,使模型能夠?qū)崟r(shí)不斷適應(yīng)和改進(jìn)。在思考令牌框架內(nèi)的遞歸優(yōu)化引入了迭代反饋循環(huán),模型通過這些循環(huán)不斷細(xì)化其推理,類似于 RL 中的策略細(xì)化,從而實(shí)現(xiàn)更深層次的一致性、連貫性和適應(yīng)性。通過反饋驅(qū)動(dòng)的學(xué)習(xí)進(jìn)行遞歸優(yōu)化推理,PRefLexOR 在處理復(fù)雜任務(wù)方面獲得了顯著的靈活性,能夠自主學(xué)習(xí)和進(jìn)化其認(rèn)知能力
這種框架通過證明模型可以迭代地自我教學(xué),以更深層次和反思性的方式進(jìn)行推理,推動(dòng)認(rèn)知對(duì)齊領(lǐng)域的發(fā)展,類似于一種基于 RL 的自我改進(jìn)系統(tǒng),能夠解決具有更優(yōu)推理深度和邏輯性的開放域問題
實(shí)例演示
實(shí)現(xiàn)簡(jiǎn)單明了,可以輕松集成到任何現(xiàn)有的預(yù)訓(xùn)練模型中。 例如在材料設(shè)計(jì)領(lǐng)域,PRefLexOR 通過從隨機(jī)文本生成問題,并利用檢索增強(qiáng)生成(RAG)從整個(gè)語料庫中檢索上下文相關(guān)數(shù)據(jù),構(gòu)建了一個(gè)動(dòng)態(tài)知識(shí)圖譜,通過嵌入空間中相似節(jié)點(diǎn)的復(fù)雜交互實(shí)現(xiàn)遞歸推理
生成材料信息學(xué)工作流和設(shè)計(jì)原則的示例
A:信息轉(zhuǎn)化為知識(shí)和可操作結(jié)果的過程。每一條單獨(dú)的信息(左側(cè))被整合成一個(gè)相互連接的知識(shí)網(wǎng)絡(luò),從而做出明智的決策和創(chuàng)新設(shè)計(jì)(右側(cè))
B:傳統(tǒng)材料科學(xué)方法依賴于數(shù)據(jù)驅(qū)動(dòng)模型、偏微分方程(PDE)和實(shí)驗(yàn)結(jié)果,專注于單步預(yù)測(cè)
C:相比之下,基于本文提出的 PRefLexOR 框架構(gòu)建的生成材料信息學(xué)模型通過引入迭代推理和上下文理解,明確地進(jìn)行“思考”和“反思”,從而實(shí)現(xiàn)更復(fù)雜的多步預(yù)測(cè)。這種方法從單一推理步驟擴(kuò)展開來,包括多種數(shù)據(jù)和響應(yīng)模式,整合了實(shí)際反饋和物理原理,并利用自我評(píng)估和自我學(xué)習(xí)。 使用強(qiáng)化學(xué)習(xí)(RL)原理,通過借鑒生物范式并采用生物啟發(fā)的神經(jīng)網(wǎng)絡(luò)設(shè)計(jì),進(jìn)一步啟發(fā)發(fā)現(xiàn)原理或解決特定任務(wù)。這些先進(jìn)方法支持材料預(yù)測(cè)的持續(xù)改進(jìn),使設(shè)計(jì)更加適應(yīng)和智能
其中PRefLexOR 遞歸推理算法實(shí)現(xiàn):利用微調(diào)的推理模型和通用批評(píng)模型進(jìn)行迭代的方法,以生成、精煉并可選地整合響應(yīng)。該過程包括生成初始響應(yīng)、提取反思、改進(jìn)思維過程,并基于精煉的思維創(chuàng)建新響應(yīng),可選地包含最終整合步驟。該算法依賴于提取思維過程(通過 <|thinking|>...<|/thinking|> 指示)和反思過程(通過 <|reflect|>...<|/reflect|> 指示)。使用特殊標(biāo)記使我們能夠輕松構(gòu)建此類代理建模,因?yàn)樗阌跁和M评怼⒏倪M(jìn)策略并重新生成改進(jìn)的答案。采樣的響應(yīng)可以以最終狀態(tài)使用,也可以整合到一個(gè)綜合響應(yīng)中,展示科學(xué)過程中的豐富方面
參考:
https://arxiv.org/pdf/2502.13025
?星標(biāo)AI寒武紀(jì),好內(nèi)容不錯(cuò)過?
用你的贊和在看告訴我~
求贊
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.