今天,美國計算機學會(ACM)宣布,將 2024 年 ACM A.M. 圖靈獎授予強化學習之父 Richard Sutton 和他的博士導師 Andrew Barto,以表彰他們開發了強化學習(RL)的概念和算法基礎。
ACM A.M. 圖靈獎由 ACM 于 1966 年設立,專門獎勵那些對計算機事業作出重要貢獻的個人。“圖靈獎”名稱取自計算機科學先驅、英國科學家 Alan Turing,這個獎設立目的之一正是為了紀念這位偉大的科學家。
圖靈獎對獲獎者要求極高,評獎程序極嚴,一般每年只獎勵一名計算機科學家,只有極少數年度有兩名在同一方向上做出貢獻的科學家同時獲獎。因此,圖靈獎也是計算機界最負盛名、最崇高的一個獎項,有 “計算機界的諾貝爾獎” 之稱。
RL 是人工智能(AI)中的關鍵概念,旨在通過獎勵信號優化智能體(agent)的決策能力。這一理念源自動物訓練,在 20 世紀 50 年代由 Alan Turing 和 Arthur Samuel 先后探索。然而,直到 20 世紀 80 年代,RL 的真正框架才由 Barto 和 Sutton 等人系統化,他們借鑒了 Markov 決策過程(MDP),使 agent 能夠在未知環境中通過試錯學習最優策略。
Barto 和 Sutton 的貢獻包括時間差分學習、策略梯度方法,以及結合學習與規劃的 agent 設計。他們的著作《Reinforcement Learning: An Introduction》(1998) 成為該領域的標準教材,影響深遠。
近年來,RL 結合深度學習取得突破,催生了深度強化學習技術。AlphaGo 的成功、ChatGPT 的 RLHF 訓練、機器人操控技能學習,以及在網絡擁塞控制、芯片設計、全球供應鏈優化等領域的應用,均展示了其強大潛力。
此外,RL 還促進了神經科學研究,為多巴胺系統的理解提供了新的視角。
關于獲獎者
Andrew Barto 和 Richard Sutton 的合作于 1978 年在馬薩諸塞大學阿姆赫斯特分校開始,當時 Barto 是 Sutton 的博士和博士后導師。
Barto 是馬薩諸塞大學阿姆赫斯特分校信息與計算機科學系名譽教授。他于 1977 年在該校作為博士后研究助理開始了他的職業生涯,先后擔任過副教授、教授和系主任等各種職務。他在密歇根大學獲得了數學學士學位以及計算機與通信科學的碩士和博士學位。
Barto 收獲的獎項包括馬薩諸塞大學神經科學終身成就獎、國際人工智能聯合會議(IJCAI)卓越研究獎和電氣電子工程師協會(IEEE)神經網絡學會先鋒獎。他還是 IEEE、美國科學促進協會(AAAS)會士。
Sutton 是阿爾伯塔大學計算機科學教授、Keen Technologies 研究科學家,同時也是阿爾伯塔機器智能研究所(Amii)首席科學顧問。Sutton 曾在 2017 年至 2023 年期間擔任 DeepMind 杰出研究科學家。在加入阿爾伯塔大學之前,他曾于 1998 年至 2002 年在 AT&T 香農實驗室人工智能部門擔任首席技術研究員。
Sutton 曾獲得 IJCAI 卓越研究獎、加拿大人工智能協會終身成就獎,以及馬薩諸塞大學阿默斯特分校杰出研究成就獎。他是英國皇家學會會士、AAAI 會士及加拿大皇家學會會士。
https://www.acm.org/media-center/2025/march/turing-award-2024
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.