(關注公眾號設為標,獲取AI深度洞察)
全文 4,000字 | 閱讀約10分鐘
如果你長期堅持專注于一件事,就一定能有所成就——Richard Sutton
昨天3月5日,全球最大的計算機專業人士協會(ACM)剛剛宣布將2024年圖靈獎授予Richard Sutton(理查德·薩頓)和Andrew Barto(安德魯·巴托)。在這一重大消息公布之后,Sutton教授接受了一場獨家專訪。"
強化學習的核心是從經驗中學習,"Sutton教授在這場專訪中解釋道。想象一下,這就像教孩子學自行車——不是通過詳細說明,而是讓他們嘗試,摔倒,再爬起來,直到找到平衡。AI也是如此,通過無數次嘗試與反饋,最終學會了如何精準回應我們的需求。
這個被譽為"計算機界諾貝爾獎"的榮譽,讓兩位科學家可以共享100萬美元的獎金。當你向手機問路時,導航軟件能規劃最佳路線;當你在網上購物時,推薦系統知道你可能喜歡什么;從家中的智能音箱到能寫詩作曲的創意AI,從識別照片中的人臉到未來的自動駕駛汽車——這些看似簡單的日常科技交互背后,都離不開強化學習的原理。
這一切技術奇跡源于一個與人類和動物學習方式驚人相似的理念:通過嘗試、錯誤和獎勵來不斷進步。而正是Sutton和Barto幾十年如一日的研究,將這個簡單而深刻的理念轉化為了改變我們生活的AI技術。
文稿整理
主持人:非常感謝你今天能來參加我們的訪談,Rich!祝賀你獲得如此巨大的成就!能跟我們分享一下你是如何得知這個消息的嗎?
Richard Sutton :謝謝!其實這件事挺有趣的。有一天,我接到一個來自Manuel的電話,她提出一個很奇怪的要求,說是要開個會。當時我完全不知道是什么事,甚至沒往那方面想。直到快結束時,她突然說:“哦對了,確保Andy
(即Andrew Barto)也在場。”我當時一愣,心想:“什么?他們倆居然認識?我怎么不知道?” 坦白說,我完全沒料到會是什么大事。其實我應該有點預感的,但就是沒有。后來有個視頻會議,我還因為忘了時間沒參加,他們只好給我打電話催我。等我終于趕到時,看到了一群我不認識的人,但慢慢地我發現他們的名字有點耳熟。后來才反應過來,這些都是之前的圖靈獎得主!然后他們就宣布我們獲獎了,我們完全震驚了,整個電話會議的后半段我都處于懵的狀態。
獲獎消息的意外性
主持人:哈哈,那得知消息后,你和Andy的對話一定很有意思吧?那是個怎樣的場景?
Richard Sutton :對,那確實挺有趣的。不過Andy不想讓我太得意忘形,所以他盡量保持低調。說實話,我都不太記得自己當時說了什么,可能就是“哇”了一聲。畢竟這是計算機科學家能獲得的最高榮譽,大家都很看重它,我也希望自己能配得上這份認可。
主持人:那你覺得要怎樣才能“配得上”這個獎項呢?
Richard Sutton :不知道,我覺得最重要的是,我真的很想弄清楚大腦的運作原理,從更深層次去理解它。我現在67歲了,但還是希望能繼續做一些令人驚嘆的事情。我覺得這才是我追求的目標。
強化學習的本質
主持人:說到這里,強化學習(RL)最近因為DeepSeek的消息又火了一把,有人稱它是美國AI的“斯普特尼克時刻”。而八年前,AlphaGo也被稱作中國AI的“斯普特尼克時刻”。你竟然促成了兩個這樣的“時刻”,是不是挺激動人心的?就像之前深度學習團隊拿圖靈獎后,深度學習受到更多關注一樣,你期待強化學習也能迎來更多聚焦嗎?這額外的“聚光燈”對你來說意味著什么?
Richard Sutton :是的,我們當然會盡量利用這個機會。我們正在準備圖靈講座和圖靈論文,里面會回顧很多歷史內容——從我和Andy的交流來看,應該是這樣。但與此同時,我們也想講清楚強化學習到底是什么。簡單來說,它的核心是從經驗中學習。很多東西并不是從經驗中學的,比如大語言模型顯然是從人類那里學的,它們模仿人類的行為,甚至包括強化學習中的人類反饋(RLHF),也是在人類指導下明確該做什么。而強化學習不同,它是從直接的經驗中學習。經驗是最自然的學習方式,所以我覺得強化學習其實是顯而易見的正確方向。阿蘭·圖靈(Alan Turing)早就談到過從經驗中學習,他是最早提出機器可以這樣學習的人。動物一直都是通過經驗學習的,但在1947年他給倫敦數學學會的演講中,他明確說:“我們想要的是一臺能從經驗中學習的機器。”這可以說是AI領域的第一次公開亮相,太不可思議了。
主持人:確實很了不起!他還提到獎勵和懲罰這些概念,跟現在的強化學習一脈相承。
Richard Sutton :對,他不僅提到了經驗,還談到了獎勵和懲罰,甚至在之后的幾年里還做了一些相關研究。這跟圖靈獎也有聯系,因為它追溯到了圖靈的思想。強化學習的第一步就是從獎勵和懲罰——也就是評價性反饋中學習。為什么是評價性反饋呢?因為在現實生活中,經驗不會給你具體的指導性反饋。你跟世界互動時,不會有人告訴你“該怎么做”,你只能通過評價來判斷,比如贏了游戲、得到了食物或者成功交配,這些都是評價性的結果。第二步則是通過日常經驗——不一定是獎勵的那部分——來理解世界的運作規律,也就是基于模型的強化學習。所以,從經驗中學習是我們必須深入探索的關鍵理念。
主持人:從圖靈當年的演講到今天,這個脈絡真的很清晰。AI領域這些年涌現了很多熱門方向,你是怎么堅持把注意力放在你認為最重要的東西上的?是怎么思考這個問題的?
Richard Sutton :我和Andy在AI領域一直堅守著同一個信念。周圍的研究方向不斷變化,但我們從一開始就覺得,從經驗中學習是正確的方向,獎勵和懲罰也很有道理。所以我們就決定深入研究這個。我們查閱了其他領域,看看有沒有類似的工作,但當時幾乎沒有。然后我們就想:“沒人做過這個,但總得有人去做,這應該成為一個領域。”于是我們堅持做了下去,還寫了一本教科書,希望能讓更多人關注這個方向。它不是專家系統,也不是監督學習,我們一直覺得它很重要。我們盡量用一種簡單直接的方式表達這個想法,而不是夸大其詞。現在大家突然意識到“哦,AI要成真了”,開始激動起來,而我們只是坐在那兒說:“嗯,我們早就覺得會這樣,現在終于發生了。”
主持人:現在AI的關注度確實很高,可能有些人對這種熱度有點復雜的感覺,但總體來說,領域受到這么多關注一定很令人興奮。你一直都能看到理解智能的愿景,現在似乎比以往任何時候都要接近了。花了這么多年時間,看到這個目標越來越近,是不是特別激動?
Richard Sutton :是的,但我不認同那種“事情發展得太快了”的觀點。確實取得了巨大進步,但我認為這是一場馬拉松,不是短跑。我們還有很長的路要走,AI最具影響力的部分還沒到來。
青年研究員建議
主持人:對于研究者,尤其是年輕的研究者,你有什么建議嗎?跑馬拉松挺不容易的,保持動力也不簡單,尤其是當你旁邊有人在沖刺,看起來比你領先的時候。你對他們有什么鼓勵的話嗎?因為我覺得你職業生涯中最了不起的一點就是這種堅持。
Richard Sutton :我的建議是:要志存高遠,但別驕傲自滿。你可能聽我多次說過這句話——要雄心勃勃,但不能傲慢。可能我們在加拿大人身上有個誤區,就是太謙虛了,不夠張揚自己的實力。但我覺得野心真的很重要。常見的錯誤是有了野心后變得傲慢,這要避免。我一直很喜歡我們團隊的文化。回想起來,我、Andy、Jonathan、Russ這些早期研究者一起奠定了這種氛圍。我們并不是用完全相同的方式研究AI,但我們都有野心,同時又足夠謙遜地互相支持,即使對AI的方向有不同看法。我一直很欣賞這種對權威的不盲從——沒有人能拍板說“AI就該往這個方向走”。這種謙遜讓我們能質疑自己、質疑方向、質疑他人,不論對方是什么頭銜或拿過什么獎。能在保持野心的同時保有這種質疑精神,既不會陷入虛假的謙虛,也能推動你不斷前進。
主持人:“科學里沒有權威”這句話從一個圖靈獎得主嘴里說出來,真是太酷了!
Richard Sutton :哈哈,現在我更有底氣這么說啦。作為這個領域的“權威”,我可以告訴你,科學里沒有權威。
AI未來展望
主持人:我一直很喜歡你和Andrew的互動,這讓我覺得你們對“科學無權威”這個理念有很深的體會。你們互相推動、互相較量,這種關系是怎么影響你的想法的?
Richard Sutton :對,我們之間確實有點小張力,但這種張力讓我們彼此負責。我常說Andy有點煩人,因為我們看問題的角度幾乎一樣,就像兄弟一樣。你跟兄弟相處久了,會覺得他跟你完全不一樣,但外人看來,你們其實很像。我們確實會互相挑戰一點,但這很好,因為我們能看到對方觀點的價值。
主持人:我一直很敬佩你的一點是,不管跟誰交流,你都把對方當作智力上的平等伙伴。這種態度在你的書里也體現得很明顯——你希望把更多人帶進這個領域。不管這是你有意為之還是天性如此,我都覺得這是你身上很了不起的特質。
Richard Sutton :這確實是我自然而然的表現方式,我都沒怎么想過。像你現在這樣提醒我時,我會覺得:“嗯,能給人這樣的印象挺好的。”我在寫作和書中也盡量做到這一點。我覺得自己確實挺謙遜的,每個人都有值得分享的見解。我常說,每個人能做的最重要貢獻,往往是那些對自己來說顯而易見的東西。我們太熟悉它了,反而可能沒意識到別人還沒看到。所以要傾聽不同思維方式的人,拓寬可能性,我覺得這很重要,也是我思考方式的核心。
主持人:太棒了!我為你感到非常驕傲和開心,真的想不到還有誰比你更配得上這個榮譽。Rich,謝謝你今天的分享!
Richard Sutton :謝謝你,Cam!這次聊天很有趣,我可以聊一整天。感覺這次不像我在你辦公室被研究生提問時那么緊張,這次輕松多了。哦對了,咱們那盤棋還沒下完吧?
主持人:哈哈,天哪,你估計兩步就能贏我了!
星標公眾號, 點這里 1. 點擊右上角 2. 點擊"設為星標" ← AI深度研究員 ? ← 設為星標
參考資料:https://www.youtube.com/watch?v=9_PepvnqIfU&t=29s&ab_channel=Amii
來源:官方媒體/網絡新聞
排版:Atlas
編輯:深思
主編: 圖靈
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.