機器之心報道
編輯:蛋醬
眾所周知,人工智能在過去十五年里取得了令人難以置信的進步,尤其是在最近五年。
回顧一下人工智能的「四大發明」吧:深度神經網絡→Transformer 語言模型→RLHF→推理,基本概括了 AI 領域發生的一切。
我們有了深度神經網絡(主要是圖像識別系統),然后是文本分類器,然后是聊天機器人,現在我們又有了推理模型。領域內的進步一直在持續 —— 盡管范式轉變級別的重大突破并不常見,但我們堅信能在緩慢而穩定的發展中前進。
值得深思的問題來了:下一個重大突破會是什么?取決于什么?
康奈爾大學 (科技校區) 博士生JACK MORRIS發表了一個新穎的觀點:從 2012 年到現在,AI 的根本性突破并非來自全新的算法創新,而是來自我們能夠利用的新數據源和更好的數據利用方式。
博客地址:https://substack.com/home/post/p-160974493
所以他認為人工智能的下一個范式突破可能要依靠視頻數據(尤其是 YouTube)和實體世界數據(機器人)。
讓我們看看作者是如何分析的:
事實上,一些研究人員最近提出了「人工智能的摩爾定律」,即計算機執行某些任務(在這里指的是某些類型的編碼任務)的能力將隨著時間的推移呈指數級增長:
「人工智能摩爾定律」。(順便說一句,任何認為到 2025 年 4 月就能在無人干預的情況下運行自主智能體一小時的人都是在自欺欺人。)
雖然出于種種原因,我并不認同這種說法,但我無法否認人工智能的進步趨勢。每年,我們的人工智能都會變得更智能、更快速、更便宜,而且這種趨勢尚未看到盡頭。
大多數人認為,這種持續的進步來自于學術界(主要是麻省理工學院、斯坦福大學、卡內基梅隆大學)和工業界(主要是 Meta、谷歌和少數中國實驗室)研究界的穩定 idea 供給,同時還有很多在其他地方進行的研究是我們永遠無法了解的。
研究方面確實取得了很大進展,尤其是在系統方面。這尤其體現在如何降低模型成本。這里挑選幾個值得關注的例子:
2022 年,斯坦福大學的研究人員提出了FlashAttention,這是一種在語言模型中更好地利用記憶的方法,這種方法幾乎在任何地方都有使用;
2023 年,谷歌的研究人員開發了推測解碼,所有模型提供商都使用它來加速推理(也是 DeepMind 開發的,貌似是同時進行的);
2024 年,一群互聯網狂熱分子開發了 Muon ,它似乎是一個比 SGD 或 Adam 更好的優化器,并可能成為未來訓練語言模型的方式;
2025 年,DeepSeek 發布了 DeepSeek-R1 ,這是一個開源模型,其推理能力與人工智能實驗室(特別是谷歌和 OpenAI)的類似閉源模型相當。
人們在不斷探索,現實也很酷:大家參與的是去中心化的全球化科學研究,研究成果會在 arXiv 、學術會議和社交媒體上公開分享。
如果我們正在進行如此多重要的研究,為什么有些人認為進展正在放緩?引起人們抱怨的是,最新的兩個大模型 Grok 3 和 GPT-4.5 ,在此前的基礎上僅取得了微小的改進。一個尤為突出的例子是,在最新的數學奧林匹克考試中,語言模型的得分僅為 5%,這表明最近的聲明在報告系統能力時可能被夸大了。
人工智能「四大發明」
如果我們試圖記錄那些「重大」的突破,那些真正的范式轉變,它們似乎正在以不同的速度發生。
1. 深度神經網絡:深度神經網絡在 2012 年AlexNet模型贏得圖像識別競賽后開始起飛;
2. Transformer + 大語言模型:2017 年谷歌在《Attention Is All You Need》中提出了 Transformer,導致了 BERT(谷歌,2018)和原始 GPT(OpenAI,2018)的誕生;
3. RLHF(基于人類反饋的強化學習):據我所知,最早在 OpenAI 2022 年的 InstructGPT 論文中提出;
4. 推理:2024 年 OpenAI 發布了 o1,隨后 DeepSeek 發布了 R1。
其實,這四件事(深度神經網絡→Transformer 語言模型→RLHF→推理)就概括了 AI 領域發生的一切:我們有了深度神經網絡(主要是圖像識別系統),然后是文本分類器,然后是聊天機器人,現在我們有了推理模型(不管那是什么)。
假設想要實現第五次這樣的突破,研究一下已有的這四個案例可能會有所幫助。
是什么新的研究 idea 導致了這些突破性事件?所有這些突破的基礎機制在 1990 年代甚至更早就已存在,這并不荒謬。我們正在應用相對簡單的神經網絡架構,進行有監督學習(1 和 2)或強化學習(3 和 4)。
交叉熵的有監督學習,即預訓練語言模型的主要方式,源自 1940 年代 Claude Shannon 的工作。強化學習是通過強化學習高頻訓練(RLHF)和推理訓練對語言模型進行后期訓練的主要方法,它出現得稍微晚一些。它的出現可以追溯到 1992 年策略梯度方法的引入(這些 idea 在 1998 年 Sutton & Barto 出版的《強化學習》教科書第一版時就已經存在了)。
如果 idea 不是新的?那什么是?
這些「重大突破」可以說是我們已知一段時間的東西的新應用。首先,這意味著「下一個重大突破」可能不會來自一個全新的 idea,而是我們已經知道一段時間的東西的重新浮現。
但這里缺失一個部分 —— 這四次突破中的每一次都使我們能夠從新的數據源學習:
1. AlexNet 及其后續工作解鎖了 ImageNet,一個大型的分類標簽圖像數據庫,推動了計算機視覺十五年來的進步 ;
2. Transformer 解鎖了在「互聯網」上的訓練,以及下載、分類和解析網絡上所有文本的競賽(現在看來我們大部分已經完成);
3. RLHF 讓我們可以從表明什么是「好文本」的人類標簽中學習(主要是一種感覺);
4. 推理似乎讓我們從「驗證器」中學習,比如計算器和編譯器,它們可以評估語言模型的輸出。
提醒自己,這些里程碑中的每一個都標志著各自的數據源(ImageNet、網絡、人類、驗證器)首次大規模使用。每個里程碑之后都緊隨著一陣瘋狂的活動:研究人員競爭 (a) 從任何可用來源汲取剩余的有用數據和 (b) 通過新技巧更好地利用已有數據,使我們的系統更高效、對數據需求更少。
預計我們將在 2025 年和 2026 年看到這種趨勢在推理模型中出現,因為研究人員正競相尋找、分類和驗證一切可能被驗證的東西。
研究者創建了 ImageNet (當時最大的網絡公共圖像集),人工智能的進步可能是不可避免的。
新 idea 有多重要?
在這些情況下,我們實際的技術創新可能不會產生巨大差異,這一點值得一提。檢視一下反事實。如果我們沒有發明 AlexNet,也許另一種能處理 ImageNet 的架構會出現。如果我們從未發現 Transformer,也許我們會采用 LSTM 或 SSM,或者找到其他全新的方式來從我們在網絡上可用的大量有用訓練數據中學習。
這與一些人認為「除了數據之外什么都不重要」的理論一致。一些研究人員觀察到,對于我們所做的所有訓練技術、建模技巧和超參數調整,總體上產生最大差異的是改變數據。
一個有趣的例子是,一些研究人員致力于使用 Transformer 以外的架構開發一種新的類 BERT 模型。他們花了大約一年時間以數百種不同方式調整架構,并設法創造出一種不同類型的模型(這是一種狀態空間模型或 SSM),當在相同數據上訓練時,其性能與原始 Transformer 大致相當。
這一發現的等價性真正深刻,因為它暗示了我們可能從給定數據集中學習到的東西有一個上限。世界上所有的訓練技巧和模型升級都無法繞過這個冷酷的事實,即從給定的數據集中只能學到這么多。
也許,對新 idea 的漠不關心就是我們應該從《苦澀的教訓》中得到的。如果數據是唯一重要的東西,為什么 95% 的人都在研究新方法?
下一個范式轉變從何而來?
會是 YouTube 嗎?
顯而易見的結論是,我們的下一個范式轉變不會來自強化學習的改進或一種奇特的新型神經網絡,而是會出現在我們解鎖以前未曾訪問或未能適當利用的數據源時。
許多人正在努力利用的一個明顯信息源是視頻。根據網絡上的一個隨機網站,每分鐘約有 500 小時的視頻上傳到 YouTube。這是一個荒謬的數據量,比整個互聯網上可用的文本多得多。它也可能是一個更豐富的信息源,因為視頻不僅包含單詞,還包含它們背后的語調以及關于物理和文化的豐富信息,這些都無法從文本中獲得。
可以肯定地說,一旦我們的模型足夠高效,或者我們的計算機變得足夠強大,谷歌就會開始在 YouTube 上訓練模型。畢竟,他們擁有這個平臺;不利用這些數據為自己謀利將是愚蠢的。
AI 下一個「范式」的最后一個競爭者是某種具身化的數據收集系統 —— 或者,用普通人的話來說,機器人。目前,我們無法以適合在 GPU 上訓練大型模型的方式從攝像頭和傳感器收集和處理信息。如果我們能夠構建更智能的傳感器或擴展我們的計算機直到它們能夠輕松處理來自機器人的大量數據涌入,我們可能能夠以有益的方式使用這些數據。
很難說 YouTube、機器人還是其他什么東西將成為 AI 的下一個大事件。我們現在似乎深深扎根于語言模型陣營,但我們似乎也很快就會用盡語言數據。
但如果我們想在 AI 方面取得進步,也許我們應該停止尋找新想法,開始尋找新數據!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.