美國計算機協會(ACM)近日宣布,安德魯·巴托(Andrew Barto)和理查德·薩頓(Richard Sutton)榮獲2024年ACM AM 圖靈獎,以表彰他們在強化學習領域奠定的概念與算法基礎。自20世紀80年代起,巴托和薩頓通過一系列論文,提出了強化學習的核心思想,構建了其數學框架,并開發了關鍵算法。強化學習作為構建智能系統的重要方法之一,如今已成為人工智能領域的基石。
什么是強化學習?
人工智能(AI)的核心在于構建能夠感知并行動的智能體(agent)。智能體的優劣取決于其選擇行動方案的能力,而獎勵機制則是評估行動質量的關鍵。強化學習(Reinforcement Learning, RL)正是通過獎勵信號,幫助智能體學習如何更有效地行動。
強化學習的理念可以追溯到數千年前的動物訓練方法。1950年,艾倫·圖靈在其論文《計算機器與智能》中提出了“機器能否思考”的問題,并建議通過獎勵與懲罰來實現機器學習。盡管圖靈和亞瑟·塞繆爾(Arthur Samuel)在20世紀50年代末開發了通過自我對弈學習的跳棋程序,但強化學習在隨后的幾十年中進展緩慢。
直到20世紀80年代初,巴托和他的博士生薩頓受到心理學研究的啟發,將強化學習構建為一個通用問題框架。他們借鑒了馬爾可夫決策過程(MDP)的數學基礎,提出了一種在未知環境中通過獎勵信號最大化長期累積收益的學習方法。這一框架使得強化學習算法能夠廣泛應用于各種復雜問題。
巴托和薩頓還開發了強化學習的核心算法,包括時間差分學習、策略梯度方法以及利用神經網絡作為函數表示的工具。他們的工作不僅推動了算法的發展,還提出了將學習與規劃相結合的智能體設計理念,為后續研究奠定了基礎。
盡管巴托和薩頓的算法誕生于幾十年前,但強化學習的實際應用突破主要發生在過去十五年。通過與深度學習相結合(由2018年圖靈獎得主Bengio、Hinton和LeCun推動),深度強化學習技術應運而生。強化學習的標志性成果包括AlphaGo在2016年和2017年戰勝世界頂級圍棋選手,以及近期ChatGPT的開發。ChatGPT作為一種大型語言模型,其訓練的第二階段采用了“從人類反饋中強化學習”(RLHF)技術,以更好地捕捉人類期望。
此外,強化學習還在機器人操控、網絡擁塞控制、芯片設計、互聯網廣告優化、全球供應鏈管理等領域取得了顯著成果。甚至在計算機科學中最古老的矩陣乘法算法優化中,強化學習也發揮了重要作用。值得一提的是,強化學習的研究還反哺了神經科學。巴托等人的研究表明,某些強化學習算法為人類大腦多巴胺系統的功能提供了最佳解釋。
獲獎者簡介
安德魯·巴托(Andrew Barto)
馬薩諸塞大學阿默斯特分校信息與計算機科學系榮退教授
安德魯·巴托(Andrew Barto)是馬薩諸塞大學阿默斯特分校信息與計算機科學系榮退教授。學生時代,他以優異成績獲得密歇根大學數學學士學位,并取得計算機與通信科學碩士和博士學位。之后于1977年在該校開始職業生涯,歷任博士后研究員、副教授、教授及系主任。曾獲麻省大學神經科學終身成就獎、IJCAI研究杰出獎等榮譽,是IEEE和美國科學促進會(AAAS)的會士。
理查德·薩頓(Richard Sutton)
馬薩諸塞大學阿默斯特分校信息與計算機科學系榮退教授
現任阿爾伯塔大學計算機科學教授、Keen Technologies研究科學家,以及阿爾伯塔機器智能研究所(Amii)首席科學顧問。他曾在2017年至2023年擔任DeepMind的杰出研究科學家。薩頓與巴托的合作始于1978年,當時巴托是他的博士導師。薩頓在斯坦福大學獲得心理學學士學位,并在馬薩諸塞大學阿默斯特分校取得計算機與信息科學碩士和博士學位。他曾獲IJCAI研究杰出獎、加拿大人工智能協會終身成就獎等榮譽,是倫敦皇家學會、人工智能促進協會和加拿大皇家學會的會士。
Alan Mathison Turing,1912年6月23日~1954年6月7日
ACM A.M .圖靈獎通常被稱為“計算領域的諾貝爾獎”,獎金為100萬美元,由谷歌公司提供資金支持。該獎以闡明計算數學基礎的英國數學家艾倫·m·圖靈的名字命名。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.