99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

專訪今年圖靈獎得主Richard Sutton:為什么你的問題,AI每次都能給出如此貼心的回答?(附視頻)

0
分享至

(關注公眾號設為標,獲取AI深度洞察)

全文 4,000字 | 閱讀約10分鐘



如果你長期堅持專注于一件事,就一定能有所成就——Richard Sutton

昨天3月5日,全球最大的計算機專業人士協會(ACM)剛剛宣布將2024年圖靈獎授予Richard Sutton(理查德·薩頓)和Andrew Barto(安德魯·巴托)。在這一重大消息公布之后,Sutton教授接受了一場獨家專訪。"

強化學習的核心是從經驗中學習,"Sutton教授在這場專訪中解釋道。想象一下,這就像教孩子學自行車——不是通過詳細說明,而是讓他們嘗試,摔倒,再爬起來,直到找到平衡。AI也是如此,通過無數次嘗試與反饋,最終學會了如何精準回應我們的需求。

這個被譽為"計算機界諾貝爾獎"的榮譽,讓兩位科學家可以共享100萬美元的獎金。當你向手機問路時,導航軟件能規劃最佳路線;當你在網上購物時,推薦系統知道你可能喜歡什么;從家中的智能音箱到能寫詩作曲的創意AI,從識別照片中的人臉到未來的自動駕駛汽車——這些看似簡單的日常科技交互背后,都離不開強化學習的原理。

這一切技術奇跡源于一個與人類和動物學習方式驚人相似的理念:通過嘗試、錯誤和獎勵來不斷進步。而正是Sutton和Barto幾十年如一日的研究,將這個簡單而深刻的理念轉化為了改變我們生活的AI技術。

文稿整理

主持人:非常感謝你今天能來參加我們的訪談,Rich!祝賀你獲得如此巨大的成就!能跟我們分享一下你是如何得知這個消息的嗎?

Richard Sutton :謝謝!其實這件事挺有趣的。有一天,我接到一個來自Manuel的電話,她提出一個很奇怪的要求,說是要開個會。當時我完全不知道是什么事,甚至沒往那方面想。直到快結束時,她突然說:“哦對了,確保Andy

(即Andrew Barto)
也在場。”我當時一愣,心想:“什么?他們倆居然認識?我怎么不知道?” 坦白說,我完全沒料到會是什么大事。其實我應該有點預感的,但就是沒有。后來有個視頻會議,我還因為忘了時間沒參加,他們只好給我打電話催我。等我終于趕到時,看到了一群我不認識的人,但慢慢地我發現他們的名字有點耳熟。后來才反應過來,這些都是之前的圖靈獎得主!然后他們就宣布我們獲獎了,我們完全震驚了,整個電話會議的后半段我都處于懵的狀態。
獲獎消息的意外性

主持人:哈哈,那得知消息后,你和Andy的對話一定很有意思吧?那是個怎樣的場景?

Richard Sutton :對,那確實挺有趣的。不過Andy不想讓我太得意忘形,所以他盡量保持低調。說實話,我都不太記得自己當時說了什么,可能就是“哇”了一聲。畢竟這是計算機科學家能獲得的最高榮譽,大家都很看重它,我也希望自己能配得上這份認可。

主持人:那你覺得要怎樣才能“配得上”這個獎項呢?

Richard Sutton :不知道,我覺得最重要的是,我真的很想弄清楚大腦的運作原理,從更深層次去理解它。我現在67歲了,但還是希望能繼續做一些令人驚嘆的事情。我覺得這才是我追求的目標。

強化學習的本質

主持人:說到這里,強化學習(RL)最近因為DeepSeek的消息又火了一把,有人稱它是美國AI的“斯普特尼克時刻”。而八年前,AlphaGo也被稱作中國AI的“斯普特尼克時刻”。你竟然促成了兩個這樣的“時刻”,是不是挺激動人心的?就像之前深度學習團隊拿圖靈獎后,深度學習受到更多關注一樣,你期待強化學習也能迎來更多聚焦嗎?這額外的“聚光燈”對你來說意味著什么?

Richard Sutton :是的,我們當然會盡量利用這個機會。我們正在準備圖靈講座和圖靈論文,里面會回顧很多歷史內容——從我和Andy的交流來看,應該是這樣。但與此同時,我們也想講清楚強化學習到底是什么。簡單來說,它的核心是從經驗中學習。很多東西并不是從經驗中學的,比如大語言模型顯然是從人類那里學的,它們模仿人類的行為,甚至包括強化學習中的人類反饋(RLHF),也是在人類指導下明確該做什么。而強化學習不同,它是從直接的經驗中學習。經驗是最自然的學習方式,所以我覺得強化學習其實是顯而易見的正確方向。阿蘭·圖靈(Alan Turing)早就談到過從經驗中學習,他是最早提出機器可以這樣學習的人。動物一直都是通過經驗學習的,但在1947年他給倫敦數學學會的演講中,他明確說:“我們想要的是一臺能從經驗中學習的機器。”這可以說是AI領域的第一次公開亮相,太不可思議了。

主持人:確實很了不起!他還提到獎勵和懲罰這些概念,跟現在的強化學習一脈相承。

Richard Sutton :對,他不僅提到了經驗,還談到了獎勵和懲罰,甚至在之后的幾年里還做了一些相關研究。這跟圖靈獎也有聯系,因為它追溯到了圖靈的思想。強化學習的第一步就是從獎勵和懲罰——也就是評價性反饋中學習。為什么是評價性反饋呢?因為在現實生活中,經驗不會給你具體的指導性反饋。你跟世界互動時,不會有人告訴你“該怎么做”,你只能通過評價來判斷,比如贏了游戲、得到了食物或者成功交配,這些都是評價性的結果。第二步則是通過日常經驗——不一定是獎勵的那部分——來理解世界的運作規律,也就是基于模型的強化學習。所以,從經驗中學習是我們必須深入探索的關鍵理念。

主持人:從圖靈當年的演講到今天,這個脈絡真的很清晰。AI領域這些年涌現了很多熱門方向,你是怎么堅持把注意力放在你認為最重要的東西上的?是怎么思考這個問題的?

Richard Sutton :我和Andy在AI領域一直堅守著同一個信念。周圍的研究方向不斷變化,但我們從一開始就覺得,從經驗中學習是正確的方向,獎勵和懲罰也很有道理。所以我們就決定深入研究這個。我們查閱了其他領域,看看有沒有類似的工作,但當時幾乎沒有。然后我們就想:“沒人做過這個,但總得有人去做,這應該成為一個領域。”于是我們堅持做了下去,還寫了一本教科書,希望能讓更多人關注這個方向。它不是專家系統,也不是監督學習,我們一直覺得它很重要。我們盡量用一種簡單直接的方式表達這個想法,而不是夸大其詞。現在大家突然意識到“哦,AI要成真了”,開始激動起來,而我們只是坐在那兒說:“嗯,我們早就覺得會這樣,現在終于發生了。”

主持人:現在AI的關注度確實很高,可能有些人對這種熱度有點復雜的感覺,但總體來說,領域受到這么多關注一定很令人興奮。你一直都能看到理解智能的愿景,現在似乎比以往任何時候都要接近了。花了這么多年時間,看到這個目標越來越近,是不是特別激動?

Richard Sutton :是的,但我不認同那種“事情發展得太快了”的觀點。確實取得了巨大進步,但我認為這是一場馬拉松,不是短跑。我們還有很長的路要走,AI最具影響力的部分還沒到來。

青年研究員建議

主持人:對于研究者,尤其是年輕的研究者,你有什么建議嗎?跑馬拉松挺不容易的,保持動力也不簡單,尤其是當你旁邊有人在沖刺,看起來比你領先的時候。你對他們有什么鼓勵的話嗎?因為我覺得你職業生涯中最了不起的一點就是這種堅持。

Richard Sutton :我的建議是:要志存高遠,但別驕傲自滿。你可能聽我多次說過這句話——要雄心勃勃,但不能傲慢。可能我們在加拿大人身上有個誤區,就是太謙虛了,不夠張揚自己的實力。但我覺得野心真的很重要。常見的錯誤是有了野心后變得傲慢,這要避免。我一直很喜歡我們團隊的文化。回想起來,我、Andy、Jonathan、Russ這些早期研究者一起奠定了這種氛圍。我們并不是用完全相同的方式研究AI,但我們都有野心,同時又足夠謙遜地互相支持,即使對AI的方向有不同看法。我一直很欣賞這種對權威的不盲從——沒有人能拍板說“AI就該往這個方向走”。這種謙遜讓我們能質疑自己、質疑方向、質疑他人,不論對方是什么頭銜或拿過什么獎。能在保持野心的同時保有這種質疑精神,既不會陷入虛假的謙虛,也能推動你不斷前進。

主持人:“科學里沒有權威”這句話從一個圖靈獎得主嘴里說出來,真是太酷了!

Richard Sutton :哈哈,現在我更有底氣這么說啦。作為這個領域的“權威”,我可以告訴你,科學里沒有權威。

AI未來展望

主持人:我一直很喜歡你和Andrew的互動,這讓我覺得你們對“科學無權威”這個理念有很深的體會。你們互相推動、互相較量,這種關系是怎么影響你的想法的?

Richard Sutton :對,我們之間確實有點小張力,但這種張力讓我們彼此負責。我常說Andy有點煩人,因為我們看問題的角度幾乎一樣,就像兄弟一樣。你跟兄弟相處久了,會覺得他跟你完全不一樣,但外人看來,你們其實很像。我們確實會互相挑戰一點,但這很好,因為我們能看到對方觀點的價值。

主持人:我一直很敬佩你的一點是,不管跟誰交流,你都把對方當作智力上的平等伙伴。這種態度在你的書里也體現得很明顯——你希望把更多人帶進這個領域。不管這是你有意為之還是天性如此,我都覺得這是你身上很了不起的特質。

Richard Sutton :這確實是我自然而然的表現方式,我都沒怎么想過。像你現在這樣提醒我時,我會覺得:“嗯,能給人這樣的印象挺好的。”我在寫作和書中也盡量做到這一點。我覺得自己確實挺謙遜的,每個人都有值得分享的見解。我常說,每個人能做的最重要貢獻,往往是那些對自己來說顯而易見的東西。我們太熟悉它了,反而可能沒意識到別人還沒看到。所以要傾聽不同思維方式的人,拓寬可能性,我覺得這很重要,也是我思考方式的核心。

主持人:太棒了!我為你感到非常驕傲和開心,真的想不到還有誰比你更配得上這個榮譽。Rich,謝謝你今天的分享!

Richard Sutton :謝謝你,Cam!這次聊天很有趣,我可以聊一整天。感覺這次不像我在你辦公室被研究生提問時那么緊張,這次輕松多了。哦對了,咱們那盤棋還沒下完吧?

主持人:哈哈,天哪,你估計兩步就能贏我了!

星標公眾號, 點這里 1. 點擊右上角 2. 點擊"設為星標" ← AI深度研究員 ? ← 設為星標

參考資料:https://www.youtube.com/watch?v=9_PepvnqIfU&t=29s&ab_channel=Amii

來源:官方媒體/網絡新聞

排版:Atlas

編輯:深思

主編: 圖靈

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
庫里罕見生氣!怒批勇士最大毒瘤,對科爾輪換安排提出2個意見

庫里罕見生氣!怒批勇士最大毒瘤,對科爾輪換安排提出2個意見

生活新鮮市
2025-04-07 16:24:30
美到認不出!錘娜麗莎發文:重度脂肪肝減了70斤!顏值重回女團期

美到認不出!錘娜麗莎發文:重度脂肪肝減了70斤!顏值重回女團期

小娛樂悠悠
2025-04-07 10:03:07
消息證實!他已死亡

消息證實!他已死亡

魯中晨報
2025-04-05 17:15:06
擺爛已經擺到完全不顧顏面了?76人竟然讓臨時工進入了先發陣容?

擺爛已經擺到完全不顧顏面了?76人竟然讓臨時工進入了先發陣容?

稻谷與小麥
2025-04-08 14:09:35
他長得和父母不像,從小被當“出軌產物”虐待!64歲才得知離譜真相…

他長得和父母不像,從小被當“出軌產物”虐待!64歲才得知離譜真相…

英國那些事兒
2025-04-07 23:14:30
突發,大跳水!歐盟:反擊!

突發,大跳水!歐盟:反擊!

證券時報
2025-04-08 01:00:14
外國藥企不跟我們玩了,正在集體退出集采,罕見病患者靠啥續命?

外國藥企不跟我們玩了,正在集體退出集采,罕見病患者靠啥續命?

蜉蝣說
2025-01-25 18:46:48
對美關稅反制,我們得到一些最新消息

對美關稅反制,我們得到一些最新消息

牛彈琴
2025-04-08 11:35:05
小米股價暴跌!11個交易日跌幅超過33%

小米股價暴跌!11個交易日跌幅超過33%

大象新聞
2025-04-07 17:10:15
經濟學家郎咸平:如果沒人生二胎三胎,50年后中國人口將少于6億

經濟學家郎咸平:如果沒人生二胎三胎,50年后中國人口將少于6億

巢客HOME
2025-04-08 12:36:34
國乒主力全體放棄!WTT太原賽今天開打,4月8日賽程公布

國乒主力全體放棄!WTT太原賽今天開打,4月8日賽程公布

全言作品
2025-04-08 00:01:11
媽媽最大的成功是,在兩件事上少管孩子,越不管,越有出息

媽媽最大的成功是,在兩件事上少管孩子,越不管,越有出息

西紅柿媽媽
2025-04-08 08:10:16
深圳一男子轉給“小三”287萬,原配追回268萬

深圳一男子轉給“小三”287萬,原配追回268萬

瀟湘晨報
2025-04-08 11:36:05
拒絕1.4億年薪!皇馬巨星未來突變!轉投曼城,聯手瓜帥沖金球獎

拒絕1.4億年薪!皇馬巨星未來突變!轉投曼城,聯手瓜帥沖金球獎

阿泰希特
2025-04-08 11:36:23
特朗普很生氣,要對中國加關稅?至?104%,越南給我國提了一個醒

特朗普很生氣,要對中國加關稅?至?104%,越南給我國提了一個醒

逍遙史記
2025-04-08 10:09:29
美股只是止住了暴跌,但美債卻崩了,對沖基金“拼命跑路”

美股只是止住了暴跌,但美債卻崩了,對沖基金“拼命跑路”

華爾街見聞官方
2025-04-08 08:28:40
江西小伙上大學時吹牛:要拿千萬年薪,如今創業半年賺了20億

江西小伙上大學時吹牛:要拿千萬年薪,如今創業半年賺了20億

米果說識
2025-03-29 19:35:02
男子用2條毒蛇泡酒,12年后打開本想品嘗美酒,誰知出現驚人現象

男子用2條毒蛇泡酒,12年后打開本想品嘗美酒,誰知出現驚人現象

詭譎怪談
2025-04-01 17:37:59
俄軍總兵力238萬,烏軍90萬,為何雙方僅投入百萬人雙雙兵力緊張

俄軍總兵力238萬,烏軍90萬,為何雙方僅投入百萬人雙雙兵力緊張

史政先鋒
2025-04-06 13:36:18
河北公務員出軌女教師:用道具助興,監控畫面流出,骯臟過程被扒

河北公務員出軌女教師:用道具助興,監控畫面流出,骯臟過程被扒

博士觀察
2025-04-08 11:45:09
2025-04-08 14:56:49
AI深度研究員 incentive-icons
AI深度研究員
一個專注于人工智能(AI)前沿技術、理論研究和實際應用的自媒體
132文章數 75關注度
往期回顧 全部

科技要聞

iPhone在美會賣2萬元上嗎?在中國會漲價嗎

頭條要聞

外交部回應美方威脅進一步對華加征50%關稅:奉陪到底

頭條要聞

外交部回應美方威脅進一步對華加征50%關稅:奉陪到底

體育要聞

極限一穿四,他把韓國主場打到靜音

娛樂要聞

尷尬!甲亢哥想聯動大張偉,卻被迫錄節目

財經要聞

"中國版平準基金"橫空出世 央行表態

汽車要聞

一季度車企銷量:下沉與上行,覺醒與迷惘

態度原創

藝術
健康
本地
手機
公開課

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

在中國,到底哪些人在吃“偉哥”?

本地新聞

云游中國|更好濰坊,更好的家

手機要聞

酷賽科技旗下產品登頂紅點獎 中國智造再獲國際設計界權威認證

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 中山市| 房山区| 揭阳市| 鲁甸县| 锦屏县| 沁阳市| 武清区| 开平市| 东丽区| 鸡西市| 内丘县| 海安县| 柘荣县| 兰州市| 嘉善县| 琼结县| 子洲县| 怀宁县| 林芝县| 嘉鱼县| 高青县| 法库县| 柏乡县| 中阳县| 融水| 巫山县| 宜阳县| 乾安县| 呼和浩特市| 延安市| 孙吴县| 炉霍县| 西盟| 分宜县| 金阳县| 涞水县| 达日县| 麻城市| 景谷| 房产| 游戏|