99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

專家“冷眼”看AI:3年實現AGI?5年能力停滯?

0
分享至


原文作者:Nicholas Carlini,Google DeepMind 研究科學家

https://nicholas.carlini.com/writing/2025/thoughts-on-future-ai.html

我對于大語言模型(LLM)未來的發展持有非常寬泛的不確定性,我認為你也應該如此。

具體來說,如果在 3-5 年內,語言模型能夠執行大多數(或所有?)超出人類專家水平的、在經濟上有用的認知任務,我不會感到驚訝;同樣,如果在 5 年后,我們擁有的最佳模型比今天的模型更好,但僅僅是“常規”方式的提升:成本大幅下降、能力持續提升,但沒有那種顛覆世界秩序的根本性范式轉變,我也不會感到驚訝


在我看來,否認這兩種可能性的任何一種,都是一個錯誤。(重要的是,我并不是在說任何一種情況更有可能,我預期結果會處于中間,但我認為這兩種可能性都應被認真對待。)

為什么我認為這兩種未來都是可能的?

一方面,也許我們才剛剛開始探索整個語言模型領域。在 5 年內,我們已經從那些勉強能連貫寫出一段文字的語言模型,發展到了能夠解決相當于早期博士生水平數學問題,并以頂尖競賽程序員水平編寫代碼的語言模型。(模型在)基準測試的表現正以我們能夠創建的最快速度提升,而指數增長遠比我們想象的快——所以,誰知道再過 5 年會發生什么呢

另一方面,也許我們會繼續經歷一段增長期,但在 1-2 年后,我們會達到 LLM 能力的極限。也許可用的訓練數據會耗盡,或者我們無法獲得足夠的計算資源,亦或是資金枯竭,或者 Transformer 模型的能力會像過去 SVM 那樣存在硬性上限。之后,或許 LLM 會變得更便宜、更快,但不會繼續保持目前這種指數級增長。不過,目前的模型已經足夠強大,以至于 5 年后 LLM 很可能會被整合進更多產品中,這將是件大事,但不會改變人類的未來

根據你是誰,以及你最近閱讀了哪些關于“AI”語言模型的內容,你很可能會對這兩種觀點中的某一種持有截然不同的看法。把我和普通對齊研究者放到一個房間里,我就是那個不會“感受到通用人工智能(AGI)”的否定者;但把我和普通程序員放到一個房間里,我就是那個瘋狂地認為 LLM 在短時間內有很大可能在編程上遠超人類的家伙。

因此,在本文中,我將嘗試做一件事,即論證“你應該保持寬廣的不確定性”

我不會通過提出深奧的技術論據來論證這一點,因為我感覺大多數人都是先決定自己想相信什么,然后再去尋找支持其結論的證據。所以,在這里,我想嘗試給你一種直觀的感覺,解釋為什么你應該預留寬泛的誤差范圍。從這里開始,你可以自由地尋找那些技術論據來證明你希望相信的哪一方。

謙遜

我想先談談謙遜(Humility),這里的謙遜是指理解你實際上可能不是一個不會犯錯的未來預測者。僅僅因為你幾年前曾經相信(并廣泛宣稱)某件事,并不意味著你必須繼續堅信這一點。

具體來說:完全可以說“我錯了。我已經改變了想法。”來,我這就給你展示。

我錯了。我改變了主意。回顧并重新審視我大約從 2018-2021 年的早期言論,對我來說是一種極好的謙遜練習:我顯然對 LLM 未來潛力的看法是錯誤的。這是因為,我曾堅定地認為“這些模型只是好玩的玩具,根本沒有實際的現實世界效用”。我把它們當作用于情感分析、翻譯等特定任務的研究玩具,而從未將它們視為通用技術。即使在 GPT-2、GPT-3 和 PaLM——這三種在當時具有突破意義的語言模型發布之后,我依然堅持這種看法:“哦,那個 5400 億參數的模型能解釋笑話?真可愛;等它能做點有用的事再告訴我。”

但正如我此前討論的那樣,語言模型現在已經在我的工作中變得極為有用。我 5 年前對這些模型未來潛力的看法大錯特錯,而且我也愿意承認,將來我可能還會犯錯。

當今世界的變化,比以往任何時候都要快;因此,30 年、10 年甚至 2 年前曾經正確的事情,如今可能都不再成立。因為新事物而拒絕接受某些觀點是再自然不過的。改變你曾經深信不疑的東西,總是不舒服的

但作為“技術人員”,我認為這正是使我們成功的原因:我們能夠理解未來可能與過去不同,而曾經看似不可能的事情可能真的變為可能。所以,正如我上面所說,根據你是誰以及你過去讀過的內容,你可能會覺得我明顯錯了。也許我是錯的,但也許你才是錯的。

明確的極限并不存在

我們應該保持寬泛誤差范圍的理由很簡單。當前 LLM 的方法正在奏效,且沒有放緩跡象,所以正如我所說,它完全有可能繼續有效。但也有可能某些環節會崩潰,某些問題比我們想象的更難,而整個體系(也可能)就此崩潰。

1.界定能力上限的挑戰

或許,人們對 LLM 最終不會成功的最常見批評是類似這樣的:是的,這些模型確實在不斷進步,但它們在能夠達到的極限上存在某種根本限制。如果你想登月,你可以通過建造越來越高的塔來接近月球,但這只能帶你走到一定程度。然后你嘗試全新的方法,比如制作熱氣球。熱氣球可以比塔爬得更高!但它仍然不能送你上月球。這就是現實的運作方式。最終你會發現,火箭的出現確實能把你送上太空。

也許人工智能也是如此。我們一開始認為,只需簡單的機器學習方法就可以實現 AI 的愿景;廣為流傳的是,在 1970 年代,馬文·明斯基曾說:“3-8 年內,我們將擁有一臺具有普通人類智力的機器。我的意思是一臺能夠閱讀莎士比亞、給汽車加油、講笑話、打架的機器。”顯然,這一預言并未實現。后來,我們認為,也許正確的 AI 方法是符號推理,于是構建了專家系統,但也未能成功。誰又能說深度神經網絡不會遇到同樣的問題呢?

我曾經也持有這種看法。

問題在于,你可以指出物理定律來解釋為什么塔和熱氣球無法將你送上月球;而對于 LLM,卻沒有這樣的物理定律:相反,人們只是提出一系列論據,形如“這里有一道我認為 LLM 永遠無法跨越的界限(基于某些原因)”。

但這些界限實際上并不是自然法則;它們更像是我們對世界的假設。就在 6 個月前,人們還在討論 LLM 即將達到平臺期,我們不會看到比 GPT-4 更好的模型;然后使用強化學習的 o1/o3 和 r1,向我們展示了模型可以基于自身輸出自我改進,至少能邁出一小步。所以有人就說,“好吧,也許那條界限不對,但我現在劃的這條才是真正的極限。”也許這一次他們是對的,也許不是。

所以:如果你目前相信 LLM 會有某個根本極限,因為存在某道它們無法逾越的界限,那么這里給你一個練習:現在就預先設定一道你認為解釋了 LLM 根本極限的具體界限。如果某一個被跨越,你就會不得不說“好吧,我錯了,也許劃出一條明確的界限并不那么容易。”

這正是我大約在 2021 年,當其他人開始意識到 LLM 可能很重要時所做的。我曾不相信 LLM 的應用,因為在我看來,僅憑預測下一個 token 的訓練不可能讓模型在超過幾段文字時依然保持連貫。我曾相當確信:下一個 token 預測(1)無法讓模型構建內部世界模型,因此(2)只能停留在簡單的統計性“下一個 token 預測器”階段

但事實證明,LLM 遠比我預期的強大得多。它們已經遠遠超越了我曾劃定的任何界限。

因此,對我來說,現在基本上無法劃定一個明確的界限。這更像是一個連續漸進的難度譜,我認為 LLM 有可能繼續擴展。但讓我給你舉幾個可能的界限候選項,即使我們無法用物理定律證明它們不可能,你也可能認為這些是 LLM 的根本極限。如果你不喜歡這些,也許可以提出你自己的界限。但我認為,如果你持有這種信念,你應該能夠清楚地表達出下一道界限是什么,并且如果我們跨越了它,你也愿意改變主意。那么,讓我們嘗試這些可能的界限;也許你相信……

  • LLM 無法從少量數據中泛化:因此,它們永遠不可能僅僅通過閱讀規則就學會玩一種新棋盤游戲,或者僅通過閱讀手冊就學會一門新編程語言。(注:這在某種程度上已經被證明不全然正確。最近的 o3 模型表明,它可以僅用少于 4 個例子解決 ARC-AGI 問題,盡管成本非常高。)

  • LLM 只能生成低于訓練數據“智能”水平的輸出:因此,它們永遠不可能在低質量文本數據集上訓練后,輸出明顯優于其訓練樣本中的最佳示例。(注:這同樣在某種程度上已被證明不全然正確。國際象棋研究表明,經過低水平人類棋局訓練的 LLM,其棋藝水平可超越它們所訓練的任何棋局。)

  • LLM 具有有限的計算深度:因此,它們永遠無法解決需要提前推理超過固定步數的問題。(注:這也在某種程度上不完全正確。我稍后會討論,“思維鏈”顯示 LLM 可以花費多個標記來準備答案,而不僅僅是一步。)

  • LLM 無法生成新知識:因此,它們永遠只能做我們今天已知的事情。撇開大多數“新”事物實際上只是將舊思想應用于不同問題這一事實不談,這也許是我能想到的最后一道我們可能無法跨越的障礙。但這道障礙也很難用正式語言表述,因為“新”通常僅意味著“將舊思想應用于不同的問題”。

2.誰來承擔舉證責任呢?

如果我聲稱,有可能制造出一臺能做任何人類所能做的事且表現更出色的神奇機器,那么我就有責任證明這是可能的。我不能說“好吧,你無法證明這是不可能的!”

而我認為,大多數人,即便是那些堅信 AGI 即將到來的人,也會認為從當前 LLM 到它們能夠成為完全 AGI 系統之間,還有很長的路要走。因此,我們很可能需要克服許多挑戰才能達到那個目標。誰能說,僅僅因為我們已經跨越了幾道界限,就沒有更大的障礙在前方?

有太多因素可能會使得 LLM 難以繼續擴展。(我們)可能會耗盡訓練數據;可能會缺乏足夠的計算資源;可能需要比預期更多的計算資源,才能達到下一個性能水平;可能最終可以達到這一水平,但資金枯竭,因此我們無法盡快實現;可能我們正在使用的非符號化 LLM 存在某種硬性能力極限;可能存在某種軟性能力極限,需要一種新的架構或訓練方法。

在過去 6 個月中,我們看到通過強化學習訓練模型是可能的,但也許這只是一個“一次性妙招”,無法持續發揮作用。也許我們會找到更多類似的技巧,但每個新技巧的發現都比上一個更難。

過去,每當我們嘗試擴展一項技術時,總會遇到必須解決的問題。最初計算機依靠真空管運作,而且很明顯(依據物理定律),你不可能建造出每平方英寸有 100 萬個真空管的計算機——這根本不可能。但隨后我們發明了晶體管,基本上完全解決了這個問題。同樣,晶體管也會遇到物理極限(如果尚未遇到的話),到那時,我們將不得不提出新的技術。

就在過去幾周內,我們開始看到這種跡象。GPT-4.5 在我們能夠測試的幾乎所有 benchmark 中僅比 GPT-4 略好一些。也許它有更好的“氛圍”,但這并非我們可以定量衡量的東西。甚至,訓練該模型的 OpenAI 人員在技術報告中也寫道“GPT-4.5 并非前沿模型”,并且他們似乎對結果并不十分滿意。

也許從現在起,情況就是這樣。我們將花費 10 倍的資金訓練一個模型,其服務成本也會增加 10 倍,而我們的勞動成果僅僅是比上一個模型“略有改進”

但重要的是,我們要接受一個事實,即沒有明確的物理定律解釋為什么這必須是這種情況,就像有物理定律限制了你能制造的真空管有多小。

所以,這就是我今天的立場。我仍然相信,總有某種根本因素會阻礙我們構建能力呈指數增長的 LLM。但我必須坦白,我完全不知道那種限制會是什么。我沒有證據證明這條界限的存在,只能提出一個模糊的論點:當你試圖跨越多個數量級來擴展某樣東西時,很可能會遇到意料之外的問題。

而人們過去劃定的那些簡單界限,在我看來都并非根本性限制,至少在未來幾年內是如此。所以,我實際上不確定到底誰來承擔舉證責任:也許,一旦有人展示了跨越 6 個數量級的擴展趨勢,然后宣稱這種趨勢還會持續另外 3 個數量級,我就得解釋為什么他們的趨勢是錯誤的?

這便解釋了我寬泛誤差范圍的原因。未來 3 年內實現 AGI?有可能。未來 5 年內能力停滯?也有可能。

兩個假設性的故事

1.未來情景一:指數增長的可能性

有時,我們會偶然遇到一項特別的技術,并且它能推動自身的改進。

也許,最好的、最近的例子就是摩爾定律。你制造出更好的計算機,這些計算機使你能夠開發出更好的科學與工程工具,而這些工具又促使你制造出更好的計算機。通往 3 納米制造的最短路徑是先通過 5 納米制造。如果你是 70 年代的人,想制造出 3 納米工藝節點,你不可能在不先建造(接近)5納米節點的情況下做到這一點。

但過去還有其他類似的例子。如果你想制造高精度機械,有一臺(稍低精度)的機械來制造你的高精度機械會非常有幫助。你制造的每臺機器都可以讓你設計出比前一臺更高精度的部件。一臺僅有 1 厘米精度的機器根本無法用來制造出 1 納米精度的機器;你先用第一臺制造出第二臺更精確的機器,如此類推。

也許,機器學習正是一種如此運作的技術。有些人早就假設,我們會達到某種“奇點”,到那時,我們能夠制造出一臺通過例如從零開始重寫自己的代碼并發明新、更好的算法來自我改進的機器。到目前為止,機器學習進步的主要驅動力一直是投入更多資金和計算資源來訓練規模更大的模型。但如果我們能利用當前 LLM 的進展直接推動更好 LLM 的發展,那么我們可能會看到極其迅速的進步。我仍然認為,這種情況在某種程度上不太可能。但鑒于今天的 LLM 基本上已經能夠編寫出一定量的代碼來改進更好的模型,我們不應該輕易地排除這種可能性。

此外,我認為,我們甚至不需要擁有能夠進行聰明研究、編寫自己代碼以提升未來版本的模型。你最終可能進入這樣一個世界——LLM 幫助改進它們自己的數據集,從而使下一版本變得更好。而這可能在我們具備模型自行編寫代碼能力之前就會發生。事實上,我們今天非常有可能已經處在這種狀態下,只是還未意識到而已。最近強化學習方面的進展幾乎展示了這一點。

具體來說:你如何得到 DeepSeek r1?你使用 DeepSeek v3,讓它解決一系列難題,當它答對時,就訓練它多做那些正確的事情,少做那些答錯的事。這個想法實際上非常簡單,而且效果出乎意料地好。

在某種程度上,這并不令人意外。我們一直知道,你可以讓一個玩游戲(比如圍棋)的模型與自己對弈,從而制造出一個真正高水平的圍棋模型。這正是我們得到 AlphaZero 的方式。這與我們現在用 DeepSeek r1 所做的其實沒有本質區別。

因此,我認為,我們未來能夠擁有更加先進的 LLM,很可能正是因為我們利用這些模型本身來幫助構建更好的模型,無論是通過策劃更好的數據集,還是直接更好地編寫自己的代碼。如果這一切實現了,那么這就為近期出現一些非常先進的 LLM 指明了一條明確的道路。

如果這就是我們將要走向的未來,那么我們應當在不久的將來看到明顯的跡象。如果在接下來的 1-2 年內,我們沒有看到任何論文或產品展示如何利用當前一代模型的輸出來訓練下一代模型,那么我將對此未來持更為懷疑的態度。

未來情景二:停滯的可能性

當 NASA 在 1958 年成立時,前蘇聯剛剛將 Sputnik 衛星送入太空。但在 3 年后的 1961 年,NASA 成功將人送入太空,并在那 10 年末期實現了登月。50 年后……我們仍未重返月球。

但是,如果你是 1960 年代那種聰明且富有遠見的人,看到這種進展速度,你可能會合理地預期,在幾年內我們會在月球建立人類基地,會有人在火星上行走,不久之后甚至開始殖民星際。你甚至可能因此激動到認為,我們未來的指導使命將是探索奇異的新世界;尋找新生命與新文明;大膽前往無人涉足之地。因為,從你今天的角度來看,事情正朝這個方向發展。

但事后回顧,你可以開始理解為何這一切未能實現:當 NASA 在 1958 年成立時,其資金僅占美國聯邦政府預算的 0.1%。在接下來的 3 年中,其資金增加了 10 倍,隨后在接下來的 4 年中又增加了 4 倍。

從這些數據來看,你可能會對太空旅行的未來充滿極大期待。顯然,我們將繼續投資這項技術,也顯然會看到過去那樣的增長趨勢。那么,究竟是什么可能阻止我們呢?

你不知道,也不可能知道的是,僅僅再過 5 年,美國政府在太空旅行上的支出比例就會下降一半,而且永遠不會恢復。在 1969-1972 年間把 12 人送上月球之后,50 年過去了,我們仍未能再現這一成就。


……這并不是說 NASA 項目失敗了。沒有衛星,現代世界的一半將無法運轉。

但在 1960 年代,我們的技術根本沒有足夠先進,無法支撐我們在太空計劃中所見的那種增長:我們是通過蠻力取得(驚人!)成就,而蠻力只能帶你走到一定程度。

更糟的是,將人送上月球并不會直接為你帶來金錢。它本身沒有內在價值。因此,雖然你可能可以說服投資者在一段時間內資助你的項目,但不久之后,他們就會開始問“我們到底能從中獲得哪些實在的好處?”

現在,讓我們談談語言模型。LLM 進步的關鍵驅動力之一,是我們能夠投入更多的資金和數據進行訓練。舉例來說:2019 年最昂貴的 LLM 訓練運行是GPT-2,花費了幾萬美元。而僅僅 5 年后,我們在最大規模的訓練上花費了數千萬美元。這些 LLM 確實是一項令人印象深刻的技術,但基本上我們是通過蠻力達到了這一點。

而且,已有跡象表明,這種純粹的蠻力方法可能會逐漸失效。我前面提到了 GPT-4.5 的例子。連 OpenAI 也不確定這個模型的確切價值是什么。而 Anthropic 方面,在公開表示可能于 2024 年底發布之后,至今仍未發布他們最大的模型 Claude 3.5 Opus。也許它真的沒有那么令人印象深刻?(請注意:我將加入 Anthropic,但目前尚未受雇于他們。我完全沒有任何內部信息,因此接下來幾天我仍可以盡情地進行大膽猜測。)

現在還為時過早,僅憑幾個數據點進行泛化總是危險的,但你必須非常樂觀,才會認為這種趨勢絕對沒有繼續下去的可能性。

具體來說,我認為這種情況最可能發生的原因之一是,如果各公司繼續進行那些極其無厘頭的廣告宣傳,說 AI 可以幫助……比如,你的女兒給她最喜歡的奧運運動員寫信?(誰會認為那是個好主意??)如果公眾開始對不斷的炒作和缺乏實際好處感到厭倦,那么我完全可以預見,投資者會喪失信心,認為下一代模型及其融資輪次將因此而枯竭。即使這些模型本可以帶來 AGI 或其他什么,我們可能也會在很長時間后才發現,因為我們因炒作而破壞了持續增長的動力。

所以,在我看來,關鍵問題是:我們會繼續以這種蠻力方式訓練 LLM 嗎?如果是,那么只要我們愿意投入更多資源,就會繼續看到進步。一旦我們的熱情消退,進步也會隨之停滯。也許這會因另一場經濟衰退而發生,或者因為投資者對不斷炒作和缺乏實在好處感到厭倦,又或許下一代模型未能提供足夠價值,致使投資者對后續模型的前景喪失信心。

如果這就是我們將要走向的未來,那么我預計,在接下來的幾年中會出現一些擴展問題和邊際效應遞減現象。更多像 GPT-4.5 這樣的模型被發布,僅是漸進式改進,后期訓練相比于其較小的前身并無顯著提升。

在資金方面,也許在接下來的一兩年內資金會枯竭;目前 OpenAI 和 Anthropic 等公司的融資金額在數十億到上百億美元之間。下一輪融資可能達到數十億到數百億美元。我預計無論 LLM 是否繼續大幅提升,這種情況都會出現。但我認為,在沒有為社會帶來明確且顯著好處(以及使投資者口袋鼓起來)的情況下,我們絕不會看到數百億到萬億美元的融資。

常見的抱怨(我曾經相信過的)

本文的目的是論證極端的“AI 變得異常強大”與“AI 停滯不前”這兩種情況都是可能的。但由于我日常接觸的大多數人認為后者更有可能,而且這曾是我所持的信念,所以我想花些時間反駁這種觀點。

因為我感覺到,有些人認為 LLM 會停滯不前,隱含的信念是它們實際上不可能變得更好。在他們(以及我過去)的觀念中,當前的 LLM 存在某種根本性的能力上限。所以現在我想嘗試反駁這種看法,因為我曾經也持有許多類似觀點。

1.LLM 只能執行有限計算

如今,許多人認為,由于機器學習模型每次輸出執行的操作數量是有限的,因此它們的能力基本上僅限于那些可以用有限操作數解決的任務。這意味著它們將無法解決多步推理任務,只能執行簡單的模式匹配。

但事實已經不再如此。是的,語言模型每次輸出一個 token 時確實只進行有限計算,但它們不必在一步內解決所有問題。如果你要求模型逐步思考,就可以將復雜問題分解成一系列簡單步驟。

最近的“推理”模型,如 OpenAI o1/o3 和 DeepSeek r1,就是一個很好的例子,它們經過專門訓練,會在輸出答案前逐步思考一個問題,輸出幾百甚至上千個 token。

而且,雖然這些模型一次只能處理幾十萬個 token 的限制仍在,但這一限制并不是根本性的且已經足夠大,我認為它們在實際應用中影響的并不大。正如你的計算機技術上不是圖靈機,因為它內存有限、無法進行無限計算一樣,LLM 從技術上也不是完全通用的,但這種有限容量的論點在實踐中基本無關緊要。

2.LLM 不能解決新任務

首先讓我們明確一點:“不能”與“目前不能”之間存在一個重要的區別。

研究語言模型的研究人員在預測語言模型永遠不能做的事情方面有一個(可以說)糟糕的記錄。幾年后就被證明是錯誤的(或者,在某些情況下,被當時已存在的模型證明錯誤)。

聲稱 LLM 無法解決新任務是一個大膽的主張。即使我們假定 LLM 永遠無法解決已經在訓練數據中有所體現的任務,也有大量新穎的研究想法,只是在問“如果把兩個不同領域的兩個想法結合起來會發生什么”。

我的一些研究就是這樣的例子。我最近一些最有趣的工作基本上只是問:“如果將密碼分析技術應用于語言模型,會發生什么?”或者“如果考慮訓練數據策劃的網絡安全影響,會怎樣?”這兩篇論文都并非特別具有突破性,數學上也不復雜;你只需要對文獻有廣泛了解——而這正是當前模型已經相當擅長的。

3.當 LLM 把簡單的事情搞錯時,讓我們大家一起笑吧

這是一個特別令人沮喪的論點。時不時,總有人發推或寫博客,展示某模型無法(例如)計算單詞“strawberry”中“r”的數量,或者錯誤地認為數學表達式 9.11 > 9.7 為真。但你絕不應僅憑它表現最差的案例來評價某人(或某物)。我不會抱怨我的計算器是個糟糕的錘子,也不會試圖用烙鐵來烤面包。當明顯有更好的選擇時,你就不該使用 LLM。

另外,我始終不理解,我們怎么會從“哇,這模型能識別鳥類?!”轉變到“哈哈,這模型太蠢了,看看這個我編的模型解不出的問題!”以前,當模型能解決我們設定的確切任務時,我們會感到驚訝;而如今,當它們無法解決我們甚至未訓練過的任務時,我們卻感到不滿。一個更實質性的批評應是:請你提出一組你確信在近期內無人能解決而人類卻覺得簡單的問題;但不幸的是,過去每當有人這么做時,沒過幾個月就會有人來解決那個數據集。

如果你認為你有一個簡單任務,未來模型不會輕易解決,我非常樂意與你合寫一篇論文,讓你列出那組你確信近期內沒有模型可以解決而對人類來說卻輕而易舉的問題,然后我們等上一兩年,再看看結果如何。我的猜測(大約 70% 的概率)是 LLM 會勝出,但我也樂于被證明錯誤,事實上我認為這是完全可能的。(這正是整篇文章的目的!)

4.它不理解!

我們會問世界上最好的國際象棋引擎 Stockfish 是否“理解”國際象棋嗎?不會。Stockfish 是否“理解”國際象棋并不重要,關鍵在于它是否能比任何人類下棋下得更好,而我們有充分的證據證明“它可以”。因此,我們何必在乎它是否“理解”國際象棋呢?

同樣,我也認為,我們真的不應該太在意今天的模型能否“理解”語言。這個問題不僅定義模糊(“理解”語言究竟意味著什么?),而且在評估它們的實用性時,它們是否理解語言也是無關緊要的。重要的只是它們是否能執行有用的任務。

或許,你認為這些模型說并不那么令人印象深刻。因此,顯然它們沒有“理解”。如果你提出這樣的論點,就像我以前那樣,我建議你停下來思考:什么樣的最小演示會讓你印象深刻?這個演示必須是最簡示例。顯然,任何人都會對能夠解決P =? NP的模型印象深刻。但你確定沒有沒有更簡單的示例會給你留下深刻印象嗎?然后寫下來。1-2 年后,再回來看看:我們是否解決了你的問題?

機器學習的歷史上充斥著這樣的人,他們聲稱 LLM 永遠無法解決某個問題,但沒過幾個月,就有一個模型正好解決了那個問題。所以,我認為你也應該嘗試一下:什么樣的最小演示可以讓你相信模型確實具有某種程度的“理解”?

(現在:也許你會指出,如果我們不了解模型如何或為何可以工作,卻依賴它們來執行任務,這是非常危險的。我同意!這確實非常危險。但“那東西可能很危險”并不是對“那東西在許多情況下可能變得非常強大”這一主張的反駁。)

5.但它們的數據效率太低了!

語言模型需要在大量數據上訓練才能發揮作用,其所需數據遠超人類學習同一任務所需的數據量。這確實如此。

但這為什么重要呢?有充分證據表明,雖然我們可能在某個時候會耗盡訓練數據,但這在未來幾年內不會發生。所以,雖然如果語言模型可以用更少數據學習新任務會更好,但這并不是一個根本性的限制,不會阻止它們在未來幾年內變得更強大。

構建能夠從更少樣本中學習的模型固然美好,但我認為這并不是阻礙我們在未來幾年內達到極高能力水平的根本性障礙。

6.它們永遠達不到人類水平!

計算機能夠達到“人類水平”嗎?即使給它下定義也基本上是不可能的:在什么方面達到人類水平?下一盤棋?像人類一樣,還是只是比人類下得更好?為對手感到遺憾?我認為這個問題基本上無法回答,也不值得我們計算機科學家討論。“人類水平”甚至無法用單一維度衡量,所以我們還是不討論這個問題了。

我認為討論“人類水平”之所以毫無益處,是因為回顧過去,曾經我們認為下棋是人類獨有的能力。后來,我們寫論文討論如何讓計算機下棋,而且比任何人都好,但顯然那些下棋程序并不具備通用智能。

隨后,我們或許認為,如果有程序能寫詩或談論歷史,那么它就必須達到人類水平并具備通用智能。但如今,我們有了能寫詩、談歷史的語言模型,但它們顯然并非通用智能。

所以,與其哲學性地討論“人類水平”意味著什么,不如問問它們是否能完成具體的有用任務,這與它們是否可以被認為是“人類水平”無關。

7.但它們會編造東西!

我理解人們對模型編造信息的抱怨。理想狀態下,我們不希望模型這樣做。

在撰寫本文時,即便是 Claude 也時常在文中編造拼寫和語法錯誤。大家都同意,如果它們不編造這些東西會更好。但這種缺陷實際上并不會阻止我們實際應用這些模型因為我們已經習慣了互聯網信息可能出錯!沒有人期望每個 Stack Overflow 的答案或 Reddit 帖子都百分之百準確。當有人說我們不能使用模型,因為“答案可能不對”時,我就不理解了,因為我們在網上看到的其他任何東西也可能出錯!

但假設對你來說,完全不能接受模型編造信息,那也沒關系,有大量應用場景實際上可以驗證正確性。這在編程領域尤其適用,這是我最關心的領域。你通常可以通過運行代碼來檢查是否得到正確答案。如果模型憑空虛構了一個不存在的 API 或寫出有錯誤的代碼,這并不是大問題——模型可以運行代碼驗證結果;如果因 API 不存在而失敗,它能識別這一點,并改用正確的 API。

這并不是說我對這些風險毫無擔憂——實際上我對此非常擔憂。但本文的主題不在于廣泛部署這些模型后可能帶來的風險,而在于我們是否首先能夠做到這一點。不過,我主要擔心的是,我們可能會有一些模型,它們編造錯誤的頻率足夠低,以至于公司會讓它們負責重要決策,因為通常來說結果沒問題;然后,哎呀,模型犯了一個錯誤,導致災難性后果。這將非常糟糕。

結論

很顯然,LLM 很有用且會越來越好。但我不知道這種趨勢會持續多久。

換一種說法:5 年后,當我們再回頭看 2023-2025 年的 LLM 炒作時,就像我們現在看到 1998-2000 年的互聯網泡沫一樣(即:一項非常新的技術最終會產生影響,但在短期內被過度炒作),這種可能性非常大。但我也認為,未來我們回顧 2020 年代中期時,很有可能會將其視為一個新時代的開端,而當我們列舉人類最重要的發明時,我們會將“AI”與車輪或印刷機并列。

我希望,我已經成功論證:你應該愿意接受這兩種未來中的任一種都是可能的。兩者都沒有百分之百的保證,但也都絕非毫無可能。

在不久的將來,我們會對這個問題有一個答案。事后回顧,答案會顯得非常明顯。我們可能會說“當然,scaling 又持續了 5 年,摩爾定律依舊成立,我們為什么不期待 AI 版的摩爾定律也成立呢?”或者我們會說“沒有無限的指數增長,很明顯 LLM 已經停滯了?”而那些過于自信但最終證明正確的人,將可以理直氣壯地說“我早就告訴過你了”。我只希望我們記住,預測未來是困難的,我們實在無法確切知道事情會如何發展。

因此,在未來幾年里,我鼓勵你保持開放的心態,愿意看到真實的情況,而不是你所期望的樣子。我們將學到很多,事情會發生巨大變化,所以我們需要愿意接受所有到來的改變,而不是僅因為不符合預期就拒之門外。

翻譯:學術君

如需轉載或投稿,請直接在公眾號內留言

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
快船99-101遭掘金絕殺,不過泰倫盧一點不擔心!快船仍有4大收獲

快船99-101遭掘金絕殺,不過泰倫盧一點不擔心!快船仍有4大收獲

毒舌NBA
2025-04-27 09:37:41
為什么說周恩來不適合當“頭頭”?

為什么說周恩來不適合當“頭頭”?

尚書喬
2025-04-26 00:00:06
恐怖的100%勝率!弗里克執教生涯的7場決賽全部獲勝

恐怖的100%勝率!弗里克執教生涯的7場決賽全部獲勝

雷速體育
2025-04-27 07:41:17
78歲林子祥在深圳,和葉倩文去吃西餐,打扮時尚,身材板正不駝背

78歲林子祥在深圳,和葉倩文去吃西餐,打扮時尚,身材板正不駝背

葡萄說娛
2025-04-25 09:49:54
全球第二大國家將與第四大國家合并?一旦成功,領土將超越俄羅斯

全球第二大國家將與第四大國家合并?一旦成功,領土將超越俄羅斯

知鑒明史
2025-04-27 09:50:03
獻給所有不關心政治的人

獻給所有不關心政治的人

霹靂炮
2025-04-25 23:48:49
氣憤!江西理工大學學生被外籍人士毆打,又挖出4個扎心真相

氣憤!江西理工大學學生被外籍人士毆打,又挖出4個扎心真相

魔都姐姐雜談
2025-04-26 15:58:31
船掘大規模沖突:約基奇哈登等6人吃T 戈登追打球迷集體喊驅逐

船掘大規模沖突:約基奇哈登等6人吃T 戈登追打球迷集體喊驅逐

醉臥浮生
2025-04-27 07:31:22
為什么說張國燾不是毛澤東對手?在這三方面,他遠遠比不上毛澤東

為什么說張國燾不是毛澤東對手?在這三方面,他遠遠比不上毛澤東

阿胡
2024-04-07 15:09:50
中國已做好最充足的準備,如果俄羅斯打贏了,我們或要做三件事

中國已做好最充足的準備,如果俄羅斯打贏了,我們或要做三件事

陣匠
2025-04-24 09:46:16
恒大有多奢侈?高管的2小時工作日常,說明一切!

恒大有多奢侈?高管的2小時工作日常,說明一切!

愛看劇的阿峰
2025-04-27 01:18:23
斯諾克賽程:趙心童沖8強,小特墨菲2虎內斗,丁俊暉提前被淘汰?

斯諾克賽程:趙心童沖8強,小特墨菲2虎內斗,丁俊暉提前被淘汰?

劉姚堯的文字城堡
2025-04-27 07:21:25
1-3被翻盤!國乒再輸日本,突尼斯賽女單全軍覆沒,張本美和強勢

1-3被翻盤!國乒再輸日本,突尼斯賽女單全軍覆沒,張本美和強勢

知軒體育
2025-04-26 21:59:19
東北小伙迎娶朝鮮女人,岳父直言:我要2噸大米、200萬彩禮

東北小伙迎娶朝鮮女人,岳父直言:我要2噸大米、200萬彩禮

蕭竹輕語
2025-04-26 17:53:22
造價1400000000巨船火了 拍攝者:想讓更多人了解中國造船業

造價1400000000巨船火了 拍攝者:想讓更多人了解中國造船業

封面新聞
2025-04-26 14:30:12
這一周,太瘋狂了!一夜變天!2.69億頂薪引爆拆隊炸彈!

這一周,太瘋狂了!一夜變天!2.69億頂薪引爆拆隊炸彈!

柚子說球
2025-04-27 10:27:13
中考躺平?黃浦區市重錄取率超50%

中考躺平?黃浦區市重錄取率超50%

戶外阿毽
2025-04-27 00:32:06
巴薩官推調侃:什琴斯尼的退役計劃,6個月內奪得2個冠軍

巴薩官推調侃:什琴斯尼的退役計劃,6個月內奪得2個冠軍

直播吧
2025-04-27 07:20:12
同學聚會上偶遇初戀女友,我假裝退休金2100,她的話讓我濕了眼眶

同學聚會上偶遇初戀女友,我假裝退休金2100,她的話讓我濕了眼眶

詭譎怪談
2025-04-16 09:11:26
武漢大學操作有問題嗎?28歲海歸博士,60萬年薪,200萬安家費…

武漢大學操作有問題嗎?28歲海歸博士,60萬年薪,200萬安家費…

火山詩話
2025-04-26 06:05:28
2025-04-27 10:43:00
學術頭條
學術頭條
致力于學術傳播和科學普及,重點關注人工智能、生命科學等前沿科學進展。
1247文章數 5069關注度
往期回顧 全部

科技要聞

賈躍亭:FF市值到百億美元能基本還完債務

頭條要聞

電瓶車放樓道充電起火 五樓夫妻倆逃生時被大面積燒傷

頭條要聞

電瓶車放樓道充電起火 五樓夫妻倆逃生時被大面積燒傷

體育要聞

裝死一個賽季,卡皇掀翻了棺材板

娛樂要聞

甜馨簽樂華出道惹爭議 維護爸媽被質疑

財經要聞

特朗普支持率全面下跌 華爾街發出警告

汽車要聞

中國汽車有多牛?來趟上海車展就知道了

態度原創

本地
房產
親子
藝術
公開課

本地新聞

云游湖北 | 漢川文旅新體驗:千年陶藝邂逅湖光

房產要聞

教育理念再進階!解碼新世界星輝如何構筑「家校社成長生態圈」!

親子要聞

50個睡前廢話,孩子將變化驚人

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 张家港市| 区。| 嘉兴市| 昌江| 重庆市| 通渭县| 东宁县| 邢台市| 澄江县| 绵阳市| 叶城县| 青田县| 从化市| 灵石县| 临安市| 静安区| 北碚区| 广元市| 米脂县| 刚察县| 论坛| 广平县| 神木县| 平果县| 琼海市| 长寿区| 隆回县| 新宁县| 土默特右旗| 三原县| 大渡口区| 岢岚县| 高雄县| 合作市| 自治县| 郴州市| 浪卡子县| 高清| 合川市| 晋城| 浪卡子县|