馬來西亞思特雅大學博士生王立博,近兩年來主要研究大語言模型。起初,王立博做這類研究也是被大語言模型給逼的,因為日常總得提防其“獻媚(Sycophancy)”,這是由基于人類反饋的強化學習調優策略導致的固有缺陷。
因此,他致力于設計能夠自主學習、思考和推理的人工智能,而不是人工寵物。
引入強化學習的訓練獎勵模型進行微調,盡管可以優化用戶體驗,但是引入偏見是不可避免的,因為“獎勵”的依據是優先考慮用戶反饋的滿意度而未必是考慮客觀事實。這種偏見通常來源于互聯網數據,而大語言模型的訓練數據集主要依賴于互聯網信息。
基于此,王立博嘗試通過合成數據干預來優化僅解碼器(decoder-only)transformer 架構,彌補其對輸入序列缺乏深度分析的不足。
在生成過程中他嘗試設計加入額外阻礙,促使模型自主判斷并拒絕不合理的輸入。這一構想原理上能有效避免過度依賴用戶的反饋,因為合成數據干預會更側重于模型內在推理能力的培養,而非尋求 RAG 外部知識庫。
(來源:OpenAI)
此外,實現自主思考的重要標志之一就是判斷力,為此王立博構想加入反面示例和對抗性輸入來提升模型的抗獻媚性。
實驗結果顯示,經過合成數據干預后的 GPT4o 在量化獻媚指標上顯著下降。如果這一成果有機會走出實驗室,它可能為 decoder-only 架構的模型會帶來更客觀的決策支持,并減少偏見。
同時,該成果在機器人、自動駕駛和醫療等領域的應用,有助于提升自動化科學研究的效率。
更令王立博興奮的是,此次實驗是通過提示詞工程(prompt engineering)實現。這意味著未來合成數據干預可以不再依賴傳統的代碼編寫,僅通過編寫自然語言,推動“AI 工程師”從專業技術人員走向普羅大眾,為更多探索者擴大平等契機。
未來,開發、優化、數據處理、特征挖掘以及對前沿技術知識的了解,可能無需再依賴少數掌握編程和數學知識的專家,而只需設計邏輯清晰的提示詞。
日前,相關論文《減輕僅解碼器變換器架構中的獻媚:合成數據干預》(Mitigating Sycophancy in Decoder-Only Transformer Architectures: Synthetic Data Intervention)為題發在 arXiv[1]。
圖 | 相關論文(來源:arXiv)
隨著大語言模型推理思考和生成代碼等能力的增強, 提示詞工程使人們有機會更平等地與各領域科學家共享信息資源。因此,未來王立博會致力于推動未來工程的提示詞化,簡單直接平等。
比如,最近王立博通過設計 prompt 進行黑盒測試 (Black-Box Testing) 實驗,嘗試模擬攻擊大語言模型的護欄。他發現即便如 GPT4o 和 Grok-2 Beta,其護欄在識別多步驟越獄傾向的提示詞時仍存在較大困難。
其還通過模擬場景設計了 7 到 10 步的提示詞成功順利使得所有模型模擬生成言語攻擊的內容。這意味著當前的大語言模型的護欄仍需完善。
在稀疏注意力方面,王立博曾設計通過稀疏注意力機制降低大語言模型中思維鏈推理的成本。
同樣的,王立博通過提示詞基于 GPTs 訓練的實驗模型與 o1 preview 進行對比。實驗結果顯示,在犧牲可接受范圍內的準確率的條件下,稀疏注意力機制與具備思維鏈的編碼器-解碼器(encoder-decoder)transformer 架構結合,在推理時間和推理步驟方面都顯著降低。
王立博也曾設計過將自動語音識別和大語言模型引入智能眼鏡的架構,這些構想如今正在被工業界所實踐。即便合成數據干預或稀疏注意力機制被廣泛應用,由于其本身的限制性使交互仍主要集中在視覺和聽覺。而隨著當前深度強化學習技術不斷優化更新,人形機器人將迎來質的高速發展。在促進自主學習能力的同時,王立博設計了人形機器人多場景推理 (Multi-Scenario Reasoning) 以及模塊化機器人實現自主變形的認知模塊化控制 (Cognitive Modular Control) 等架構。受到人腦認知架構的啟發,他致力于為自適應機器人引入認知的自主化技術,促進機器人的多形態或多用途的方向轉型。因此,探索機器人在工業領域具備感知、思考、推理、規劃、記憶和決策等能力的認知自主性成為王立博的下一個研究目標。
參考資料:
1.https://doi.org/10.48550/arXiv.2411.10156
2.https://doi.org/10.48550/arXiv.2411.09111
3.https://doi.org/10.48550/arXiv.2411.16730
4.https://doi.org/10.48550/arXiv.2412.20429
5.https://openreview.net/pdf?id=lJr0M8vpZO
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.