網易首頁 > 網易號 > 正文申請入駐

DeepSeek團隊再放大招：代碼竟然能解鎖AI通用推理能力

2025-02-17 16:25:49　來源: AI寒武紀

江蘇舉報

分享至

代碼竟成AI推理“新寵”？DeepSeek團隊提出CodeI/O方法：另辟蹊徑，解鎖通用AI推理能力！

大家有沒有感覺，AI在某些“窄技能”上表現驚艷，比如做數學題、寫代碼，但在更廣泛的推理任務上，就有點力不從心了？就像咱平時說的，有點“偏科”啊！

這是為啥呢？研究人員發現，問題就出在訓練數據上！像數學、代碼生成這種任務，數據管夠，模型學得就好。但像邏輯推理、科學推斷、符號推理這些更通用的推理任務，訓練數據就稀少且碎片化，模型自然就“吃不飽”

那咋辦呢？難道通用AI推理能力提升就卡在這兒了？

來自DeepSeek團隊的大神們最近發表了一篇論文，提出了一種名為CodeI/O的新方法，簡直是另辟蹊徑，讓人眼前一亮！

我們一起來扒一扒這篇論文

CodeI/O 的核心思想簡單來說就是：把代碼變成AI推理的“養料”！

你可能會問，代碼和推理有啥關系？關系可大了！

研究人員發現，真實世界的代碼程序，其實蘊含著豐富的推理模式！想想我們寫代碼的過程：

?邏輯流程規劃：先想好程序的大框架，一步步實現功能
?狀態空間搜索：調試bug，嘗試不同的解決方案
?決策樹遍歷：if-else，各種條件判斷
?模塊化分解：把復雜問題拆成小模塊，逐個擊破

這些不都是通用的推理能力嗎？只不過，這些推理模式隱藏在代碼的語法和細節之中，之前的AI模型很難直接學到

CodeI/O 的巧妙之處就在于，它把原始代碼轉化成了一種 “代碼輸入-輸出預測” 的格式。就像下面這樣：

?輸入：一段代碼 (函數) + 測試用例的輸入
?輸出：這段代碼在給定輸入下的執行結果 (輸出)

更絕的是，CodeI/O 還要求模型用自然語言的 “思維鏈 (Chain-of-Thought, CoT)” 來預測這個輸入和輸出！這就像讓模型用人類的語言，一步步解釋代碼的推理過程

這樣做有啥好處呢？

1.提取通用推理模式：通過預測代碼的輸入輸出，并用CoT解釋，模型就能學到代碼中蘊含的通用推理“原語”，比如邏輯流程、狀態搜索等等，而且擺脫了代碼語法的束縛
2.數據豐富且可擴展：代碼資源遍地都是！CodeI/O 可以從各種代碼庫中大規模收集數據，而且很容易生成新的輸入-輸出對，訓練數據管夠！
3.保真且可驗證：代碼是可以執行的！我們可以驗證模型的預測是否正確，甚至可以讓模型進行多輪修正 (CodeI/O++)，進一步提升推理能力

實驗效果如何呢？

研究人員在14個不同的推理 benchmark上進行了測試，包括符號推理、科學推理、邏輯推理、數學推理、常識推理等等。結果令人驚喜！

?效果全面提升： CodeI/O 在各種推理任務上都取得了一致的提升，不像其他方法可能只在特定任務上有效
?超越強大基線：即使和一些現有的優秀數據集 (如OpenMathInstruct2, OpenCoder-SFT-Stage1, WebInstruct) 相比，CodeI/O 也更勝一籌
?模型能力更均衡： CodeI/O 不會像某些方法那樣，只提升模型在少數任務上的表現，反而導致其他任務下降，而是全面均衡地提升模型的推理能力

CodeI/O 就像是給AI模型找到了一種新的“學習方法”：

?不刷題，改“讀代碼”：從海量代碼中學習通用的推理模式，而不是死記硬背題目的答案
?從“術”到“道”：擺脫代碼語法的束縛，學習更本質的推理“原語”
?數據自給自足：代碼數據取之不盡，用之不竭，訓練數據不再是瓶頸

參考：

https://arxiv.org/pdf/2502.07316

?星標AI寒武紀，好內容不錯過?

用你的贊和在看告訴我～

求贊

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.