代碼竟成AI推理“新寵”?DeepSeek團隊提出CodeI/O方法:另辟蹊徑,解鎖通用AI推理能力!
大家有沒有感覺,AI在某些“窄技能”上表現驚艷,比如做數學題、寫代碼,但在更廣泛的推理任務上,就有點力不從心了?就像咱平時說的,有點“偏科”啊!
這是為啥呢?研究人員發現,問題就出在訓練數據上!像數學、代碼生成這種任務,數據管夠,模型學得就好。但像邏輯推理、科學推斷、符號推理這些更通用的推理任務,訓練數據就稀少且碎片化,模型自然就“吃不飽”
那咋辦呢?難道通用AI推理能力提升就卡在這兒了?
來自DeepSeek團隊的大神們最近發表了一篇論文,提出了一種名為CodeI/O的新方法,簡直是另辟蹊徑,讓人眼前一亮!
我們一起來扒一扒這篇論文
CodeI/O 的核心思想簡單來說就是:把代碼變成AI推理的“養料”!
你可能會問,代碼和推理有啥關系? 關系可大了!
研究人員發現,真實世界的代碼程序,其實蘊含著豐富的推理模式! 想想我們寫代碼的過程:
?邏輯流程規劃:先想好程序的大框架,一步步實現功能
?狀態空間搜索:調試bug,嘗試不同的解決方案
?決策樹遍歷:if-else,各種條件判斷
?模塊化分解:把復雜問題拆成小模塊,逐個擊破
這些不都是 通用的推理能力嗎? 只不過,這些推理模式隱藏在代碼的語法和細節之中,之前的AI模型很難直接學到
CodeI/O 的巧妙之處就在于,它把原始代碼轉化成了一種 “代碼輸入-輸出預測” 的格式。 就像下面這樣:
?輸入:一段代碼 (函數) + 測試用例的輸入
?輸出:這段代碼在給定輸入下的執行結果 (輸出)
更絕的是,CodeI/O 還要求模型用 自然語言的 “思維鏈 (Chain-of-Thought, CoT)” 來預測這個輸入和輸出! 這就像讓模型用人類的語言,一步步解釋代碼的推理過程
這樣做有啥好處呢?
1.提取通用推理模式: 通過預測代碼的輸入輸出,并用CoT解釋,模型就能學到代碼中蘊含的通用推理“原語”,比如邏輯流程、狀態搜索等等,而且 擺脫了代碼語法的束縛
2.數據豐富且可擴展: 代碼資源遍地都是!CodeI/O 可以從各種代碼庫中大規模收集數據,而且很容易生成新的輸入-輸出對,訓練數據管夠!
3.保真且可驗證: 代碼是可以執行的!我們可以 驗證模型的預測是否正確 ,甚至可以讓模型進行多輪修正 (CodeI/O++),進一步提升推理能力
研究人員在14個不同的推理 benchmark上進行了測試,包括符號推理、科學推理、邏輯推理、數學推理、常識推理等等。 結果令人驚喜!
?效果全面提升: CodeI/O 在各種推理任務上都取得了一致的提升,不像其他方法可能只在特定任務上有效
?超越強大基線: 即使和一些現有的優秀數據集 (如OpenMathInstruct2, OpenCoder-SFT-Stage1, WebInstruct) 相比,CodeI/O 也更勝一籌
?模型能力更均衡: CodeI/O 不會像某些方法那樣,只提升模型在少數任務上的表現,反而導致其他任務下降,而是全面均衡地提升模型的推理能力
CodeI/O 就像是給AI模型找到了一種新的“學習方法”:
?不刷題,改“讀代碼”: 從海量代碼中學習通用的推理模式,而不是死記硬背題目的答案
?從“術”到“道”: 擺脫代碼語法的束縛,學習更本質的推理“原語”
?數據自給自足: 代碼數據取之不盡,用之不竭,訓練數據不再是瓶頸
參考:
https://arxiv.org/pdf/2502.07316
?星標AI寒武紀,好內容不錯過?
用你的贊和在看告訴我~
求贊
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.