不知道你小時候腦海中是否冒出過這樣的想法:懷疑自己是外星人,與周圍人相比只有自己是獨一無二的存在。但問題是你又怎么證明自己存在呢?
法國哲學家笛卡爾的觀點是:“我思故我在”。
思考確實是人最擅長的事情,但是近年來AI也展現出驚人的智能,那么現在的AI已經是和人一樣的存在了嗎?這個問題困擾了我很久,最近看到這篇叫《Lifelong Learning of Large Language Model based Agents: A Roadmap》的論文,發現AI可能需要終身學習才能更像人,或者說成為通用人工智能AGI。
為何要讓AI終身學習?
如果智能助手每次遇到新情況都需要重新學習所有知識,而不能保留之前的經驗,那么它永遠無法進化變強。在現實生活中,人類能夠自然地吸收新知識而不忘記舊知識,但人工智能系統在這方面卻面臨巨大挑戰。
目前AI模型(如GPT-4)在文本生成、機器翻譯和問答等任務上表現出色,但是在訓練后就變成了靜態系統,無法適應新任務或環境,就像一本寫好的書,內容一旦確定就無法改變。大語言模型智能體則是一種更高級的形式,能夠感知文本、圖像、傳感器數據這些多模態數據,然后將這些信息存儲在記憶中,并采取行動影響或響應周圍環境。
從20世紀80年代開始至今,終身學習的研究已經經歷了四個關鍵階段。
AI系統終身學習發展的四個關鍵階段
終身學習的三大支柱:感知、記憶和行動
論文將大語言模型智能體的終身學習能力分解為三個核心模塊:感知模塊、記憶模塊和行動模塊。就像人類的學習過程一樣,這三個模塊緊密協作,形成一個動態反饋循環。
感知模塊:負責獲取和整合環境信息,就像人類的感官系統,不斷接收外界的刺激。在大語言模型智能體中,感知可以是單模態的純文本信息或多模態的文本、圖像、音頻的組合。隨著時間推移,智能體需要學會處理越來越復雜的輸入信息,就像嬰兒從識別簡單形狀逐漸發展到理解復雜場景一樣。
記憶模塊:是智能體學習的核心,它包含四種類型的記憶:工作記憶、情景記憶、語義記憶和參數記憶。工作記憶或者叫短期記憶,包括提示詞和用戶輸入等;情景記憶負責存儲長期經驗和事件;語義記憶負責存儲世界知識;參數記憶是嵌入在模型參數中的知識。這些記憶類型協同工作,幫助智能體保存關鍵信息并避免"災難性遺忘"——即學習新知識時忘記舊知識的現象。
行動模塊:使智能體能夠與環境互動。行動模塊包括操作物體或生成文本的接地行動、從記憶中獲取相關信息的檢索行動和進行復雜的規劃和決策的推理行動。隨著時間推移,這些行動能力會不斷優化,使智能體能夠處理越來越復雜的任務。
感知:從單模態到多模態的進化之路
智能體就像一個不斷成長的孩子,最初只能理解簡單的詞語,隨著時間推移,逐漸學會理解圖像、聲音甚至復雜的情境。
在單模態感知方面,研究人員已經開發出方法使智能體能夠從網頁、圖表和游戲環境中提取結構化文本。比如說,Synapse和AgentOccam可以簡化網頁的HTML元素,并將它們有選擇地整合到提示中;WebAgent能總結HTML文檔并將指令分解為多個子指令。另一方面,一些研究將截圖轉換為文本格式以適應大語言模型處理。在游戲環境中,JARVIS-1和VillagerAgent等智能體通過文本媒介感知周圍環境,識別角色、時間、位置等元素。
多模態感知更加復雜,因為現實世界包含多種數據類型。研究者們將這一領域分為兩類挑戰:新知識感知和舊知識感知。對于新知識感知,智能體需要學習如何處理所有數據具有相同模態的完整模態數據或某些模態信息缺失的不完整模態數據。相關研究有PathWeave的適配器架構,讓智能體能夠無縫整合單模態和跨模態信息;還有SMIL提出自適應模態加權機制,增強對嚴重缺失模態的魯棒性。
對于舊知識感知,研究人員開發了TIR和Model Tailor等基于正則化的方法和Vqacl和SAMM等基于重放的方法來防止災難性遺忘。這些方法就像復習舊課程一樣,確保智能體在學習新知識時不會忘記之前學到的內容。
記憶:平衡穩定性與可塑性的藝術
記憶系統是終身學習智能體的核心,它需要在保持穩定性不忘記舊知識和保持可塑性學習新知識之間取得平衡。
工作記憶:類似于人類的短期記憶,處理即時上下文,如提示詞和用戶輸入。研究人員已經開發出多種技術來增強工作記憶,包括提示壓縮、長文本理解、角色扮演、自我糾正和提示優化。
情景記憶:存儲長期經驗和事件,幫助智能體記住過去的互動。這一領域的技術包括數據重放和特征重放、持續強化學習以及自我經驗。RET-LLM提出一種泛化的讀寫記憶模塊,以三元組形式存儲知識;MemoChat允許智能體在長對話中動態檢索和利用過去的對話信息。
語義記憶:作為外部知識存儲機制,幫助智能體獲取和更新世界知識。主要技術包括持續知識圖譜學習和持續文檔學習。這些方法使智能體能夠有效地整合新知識而不影響現有知識。
參數記憶:是模型內部參數中編碼的知識。通過持續指令調優(提升特定或通用能力)、持續知識編輯(更新錯誤或過時信息)和持續對齊(吸收人類反饋和偏好),智能體能不斷更新其內部知識。
行動:從簡單反應到復雜規劃的發展
智能體的行動能力是其與環境互動的關鍵,包括接地行動、檢索行動和推理行動三大類。
接地行動:涉及通過文本描述感知環境并生成文本來確定后續行動。不同環境對接地行動有不同要求:在工具環境中,ToolLLM和EASYTOOL等方法幫助智能體理解工具文檔并正確調用工具;在網頁環境中,AgentOccam和Synapse簡化網頁內容以提高輸入接地行動的準確性;在游戲環境中,如Minecraft,DEPS和JARVIS-1等智能體通過可執行程序控制行為。
檢索行動:使智能體能從外部信息中獲取知識。從語義記憶檢索涉及獲取背景知識和示范;從情景記憶檢索則利用過去經驗提高未來行動。比如說,GITM從Minecraft Wiki檢索相關文本提供游戲世界知識,Voyager將任務解決步驟表示為可執行程序。
推理行動:涉及復雜的推理和決策。研究分為情景內推理和情景間推理。情景內推理是指在同一情景中提高推理能力,情景間推理是使用不同情景的經驗。具體來說,Reflexion通過自我反思優化推理,而Tree of Thoughts采用樹結構管理推理過程。ICAL和GITM等方法則從過去成功任務中提取經驗以提高新任務的推理能力。
未來展望:挑戰與機遇并存
終身學習大模型智能體取得了顯著進展,但仍面臨諸多挑戰。感知模塊需要增強對新模態的適應能力;記憶模塊需要平衡穩定性、可塑性和可擴展性;行動模塊則需要處理復雜推理和高效適應。未來研究方向包括開發自適應感知架構、優化檢索機制、實現神經靈感記憶鞏固等。
AI系統終身學習的發展目的在于創造能像人類一樣真正終身學習的智能體——它們不僅在初始領域表現出色,還能優雅地適應新任務。通過專注于強大的感知設計、高效的記憶架構和不斷完善的行動模塊,未來研究將推動智能體在日益復雜的動態世界中實現持續學習和適應。
基于大語言模型的智能體終身學習
至頂AI實驗室洞見
感知、記憶、行動這些在動物身上才有的特征正逐漸融入AI中。
人類一生從牙牙學語到蹣跚學步到騎自行車到學游泳的幾十上百年間,都是類似于強化學習的終身學習過程,中間有家庭教育,有學校引導,有公司培養。
然而對于AI模型的成長,AI大廠們往往是搜刮整個互聯網的信息然后粗暴地喂給AI模型,規定在幾個月甚至幾周內必須學完,仿佛少了點耐心。耐心或許正是AI模型成長為通用人工智能AGI最需要的,讓它有自我成長、判斷、糾錯的權利。
論文地址:https://arxiv.org/abs/2501.07278
本文來自至頂AI實驗室,一個專注于探索生成式AI前沿技術及其應用的實驗室。致力于推動生成式AI在各個領域的創新與突破,挖掘其潛在的應用場景,為企業和個人提供切實可行的解決方案。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.