內容來自:機器之心
編輯:張倩
ICLR 2025 宣布了今年的時間檢驗獎獲獎論文。這個獎項旨在表彰十年前在 ICLR 2015 上發表的對該領域產生持久影響的論文。
經久不衰的「Adam 算法」拿到了冠軍,比 Transformer 論文更早引入注意力機制的「Neural Machine Translation by Jointly Learning to Align and Translate」拿到了亞軍。這樣的結果可謂「實至名歸」。
Adam:深度學習領域應用最廣泛的優化算法之一
Adam 算法,即 Adaptive Moment Estimation 算法,是一種結合了動量法和 RMSprop 算法思想的自適應學習率優化算法。
Adam 革命性地改變了神經網絡訓練,在各種架構和任務中實現了顯著更快的收斂速度和更穩定的訓練過程。如今,它已經成為深度學習中最廣泛采用的優化算法之一。
Adam 算法的創新之處在于,它結合了 AdaGrad 和 RMSProp 的優點,通過維護第一矩估計(均值)和第二矩估計(未中心化的方差)來動態調整每個參數的學習率,能夠處理稀疏梯度和非平穩目標函數。
它的重要性體現在其廣泛的應用場景,無論是計算機視覺、自然語言處理還是強化學習等領域,Adam 算法都為模型的高效訓練提供了有力支持,極大地提高了模型的訓練效率和性能,成為無數最先進模型的默認優化器。
根據 Google Scholar 的數據,Adam 論文的被引量已經超過 21 萬。
論文鏈接:https://arxiv.org/abs/1412.6980
該論文總共有兩位作者 ——Diederik P. Kingma 和 Jimmy Lei Ba。
Diederik P. Kingma 是一位計算機科學家和研究員,專注于機器學習和生成式建模的可擴展方法。他的重要貢獻包括變分自編碼器(VAE)、Adam 優化器、Glow 和變分擴散模型。其中,VAE 獲得了去年的 ICLR 時間檢驗獎。所以,這次是 Diederik P. Kingma 第二次獲得該獎項。而截至目前,該獎項總共就頒了兩次。
2017 年,他以優異成績獲得阿姆斯特丹大學博士學位。2015 年,他作為創始團隊成員參與創建了 OpenAI。在此之前,他共同創立了 Advanza 公司,該公司于 2016 年被收購。
他的職業生涯包括:
2009 年和 2012 年:在紐約大學 Yann LeCun 實驗室擔任初級研究科學家;
2010-2012 年:Advanza 聯合創始人兼技術負責人,公司于 2016 年成功退出;
2013-2017 年:在阿姆斯特丹大學攻讀博士學位,導師為 Max Welling,研究領域為深度學習和生成模型;
2015-2018 年:OpenAI 創始團隊成員和研究科學家,領導算法團隊,專注于基礎研究;
2018-2024 年:在 Google Brain/DeepMind 擔任研究科學家,領導多個研究項目,主要是文本、圖像和視頻的生成模型;
2024 年至今:在 Anthropic 研究大規模機器學習。
另一位作者多倫多大學 Jimmy Lei Ba 現在是多倫多大學的助理教授。他的長期研究目標是解決一個計算問題:如何構建具有人類效率和適應性的通用問題解決機器。他的研究興趣主要集中在開發高效的深度神經網絡學習算法上。他的研究領域與 NeurIPS、ICLR 和 ICML 等研究社區有交叉。此外,他對強化學習、自然語言處理和人工智能也有廣泛的興趣。
Jimmy Lei Ba 在 Geoffrey Hinton 的指導下完成了博士學位。他的碩士(2014 年)和本科學位(2011 年)均在多倫多大學獲得,師從 Brendan Frey 和 Ruslan Salakhutdinov。他是 CIFAR AI chair,曾在 2016 年獲得 Facebook 機器學習研究生獎學金。
亞軍論文
比 Transformer 提前三年引入注意力機制
獲得 ICLR 時間檢驗獎亞軍的論文「Neural Machine Translation by Jointly Learning to Align and Translate」同樣來頭不小,圖靈獎得主 Yoshua Bengio 是該論文的作者之一。
論文鏈接:https://arxiv.org/abs/1409.0473
去年 12 月,AI 大牛 Andrej Karpathy 專門發帖為這篇論文鳴不平,稱它是「真正引入注意力機制的論文」,但受到的關注遠遠不及三年后才出現的 Transformer 論文。
具體來說,這篇論文的創新之處在于,它引入了一種注意力形式,從根本上改變了序列到序列模型處理信息的方式。在此之前,編碼器 - 解碼器架構通常將整個輸入序列壓縮為固定長度的向量,從而為較長的序列造成內存瓶頸。該方法使模型能夠在翻譯過程中動態地「關注」源句子的不同部分,從而處理相關的上下文信息。這種注意力機制已經成為現代深度學習的基石,遠遠超出了機器翻譯的范疇,形成了 transformer 和大型語言模型的基礎。這篇論文的實際影響是巨大的,使其成為對神經網絡架構最有影響力的貢獻之一。
這篇論文總共有三位作者:Dzmitry Bahdanau、Kyunghyun Cho 和 Yoshua Bengio
Dzmitry Bahdanau 在加拿大 Mila 研究所完成了博士學位,師從 Yoshua Bengio。他現在是一位在 ServiceNow 旗下(前 Element AI)工作的研究科學家。他同時也是 Mila 的核心產業成員和麥吉爾大學的兼職教授。
Dzmitry Bahdanau 堅信人類語言技術(HLT,他認為這是比 NLP 更好的稱呼)將改變人類與軟件交互和獲取知識的方式。事實上,這種改變已經開始發生(比如網絡搜索),但這僅僅是個開始。Bahdanau 對 HLT 技術棧各個層面的研究問題都有濃厚興趣,包括深度學習基礎、基礎模型訓練、特定任務算法(尤其是語義解析)以及用戶與 AI 系統的交互體驗。他近期正在進行的工作主要集中在語義解析和面向任務的對話方法、代碼生成、神經模型的系統性(組合性)泛化和樣本效率上。
在發給 Karpathy 的郵件中,Dzmitry Bahdanau 曾詳細談過他們當年研究「注意力機制」的往事。
他提到,「 我作為實習生來到 Yoshua 的實驗室…… 我告訴 Yoshua 我愿意做任何工作。Yoshua 安排我參與機器翻譯項目…… 有一天,我突然想到讓解碼器 RNN 學習在源序列中搜索放置游標的位置會很好。這有點受到翻譯練習的啟發,在中學學習英語時會用到這種練習。當你翻譯時,目光在源序列和目標序列之間來回移動。我提出了對 BiRNN 狀態進行軟搜索作為 softmax 然后進行加權平均的想法。這個方法從一開始就表現出色,令人振奮 。我稱這種架構為 RNNSearch,我們趕緊發布了一篇 arXiv 論文,因為我們知道 Ilya 和谷歌的同事們在他們強大的 8 個 GPU LSTM 模型(RNN Search 仍在 1 個 GPU 上運行)上領先于我們。事后證明,這個名稱不太好。更好的名稱(attention)是由 Yoshua 在最終定稿中添加的。」
另一位作者 Kyunghyun Cho 是紐約大學計算機科學和數據科學教授,同時擔任 Genentech Research & Early Development (gRED) Prescient Design 團隊的前沿研究執行總監。2025 年,他被任命為 Glen de Vries 健康統計學教授。在獲獎論文寫作期間,他曾在蒙特利爾大學擔任博士后研究員,師從 Yoshua Bengio 教授。
在 ICLR 時間檢驗獎頒發之際,或許我們也可以重讀這些經典論文,從中找到關于未來方向的新啟發。
https://blog.iclr.cc/2025/04/14/announcing-the-test-of-time-award-winners-from-iclr-2015/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.