從不可能,到數十年,再到如今的「即將發生」,通用人工智能(AGI)到來的時間,似乎離我們越來越近了。
前不久,OpenAI 首席執行官 Sam Altman 也在個人博客中寫道,“我們現在確信,我們已經知道如何構建我們傳統上理解的 AGI 了?!?/p>
然而,對于這一定義依然不清晰的技術詞匯,人工智能(AI)行業“內部人士”做出的大膽預測,是否可信呢?即使撇開人類的「私心」,且預測是可靠的,人類采用和適應這一技術的速度也或許被高估了。也就是說,AGI 或許并不會如洪水般迅速涌入我們的日常生活。
日前,賓夕法尼亞大學沃頓商學院教授 Ethan Mollick在題為“Prophecies of the Flood”的文章中闡述了上述觀點。他言辭犀利地表示:
我們不相信這些“內部人士”的理由有很多,因為他們在做出這些大膽預測時,是有明確的動機的:他們在籌集資金、提高股票估值,或許也想試圖說服自己相信自己的歷史重要性。他們是技術專家,不是預言家,而歷史上(很多)充滿自信的宣言,被證明早了幾十年。
盡管如此,Mollick 教授在談到 agent 時表示,“過去幾周的情況表明,實用的 agent,至少在狹義但具有重要經濟意義的領域,現在是可行的......如果通用 agent 系統能夠可靠、安全地工作,將真正改變一切。
此外,他還以“水獺在飛機上使用 wifi”的案例展示了多模態模型的快速進展。
最后,他在博客文章末尾寫道,“即將到來的智能洪流本質上并無好壞之分——但我們如何做好準備、如何適應它,以及最重要的是,我們如何選擇使用它,將決定它是進步還是破壞的力量。”
學術頭條在不改變原文大意的情況下,對整體內容做了精編,如下:
最近,人工智能(AI)行業發生了一些變化。
研究人員開始迫切談論超級聰明的 AI 系統的到來,好似智能如洪水一般正在涌來(a flood of intelligence)。不是在遙遠的未來,而是即將發生。
他們經常提到通用人工智能(AGI)——盡管定義依然不夠精確,但大致是指“機器能夠在大多數智力任務上都能勝過人類專家”。他們認為,這種可以「按需」展示出的智能將會深刻地改變社會,而且很快就會實現。
圖|Sam Altman、Dario Amodei 等人近期預測,超級聰明的 AI 系統將很快到來。
我們不相信這些“內部人士”的理由有很多,因為他們在做出這些大膽預測時,是有明確的動機的:他們在籌集資金、提高股票估值,或許也想試圖說服自己相信自己的歷史重要性。他們是技術專家,不是預言家,而歷史上(很多)充滿自信的宣言,被證明早了幾十年。
即使撇開人類的這些「私心」不談,底層技術的實際表現也是我們保持懷疑的理由。盡管目前的大語言模型(LLM)展現出了強大的能力,但從根本上說仍然是一種不一致(inconsistent)的工具——在某些任務上表現出色,而在看似簡單的任務上卻略顯拉垮。這種“鋸齒狀邊界”(jagged frontier)是當前人工智能系統的一個核心特征,不太容易被輕易磨平。
另外,即使假設研究人員關于“AGI 將在未來一兩年內到來”的預測是正確的,他們也很可能高估了人類采用和適應一項技術的速度。一個組織的變革需要很長時間。工作、生活和教育體制的變革則更為緩慢。在世界上找到這項技術的重要具體用途,這本身就是一個緩慢的過程。
我們或許現在就實現了 AGI,而大多數人都不會注意到(事實上,一些觀察家認為這種情況已經發生,他們認為 Claude 3.5 等最新的人工智能模型實際上就是 AGI)。
然而,將這些預測斥為純粹的炒作可能并沒有太大意義。無論動機如何,人工智能實驗室的研究人員和工程師們似乎真的相信,他們正在見證一些前所未有的事物的出現。
他們的這種堅定本身影響并不大——只是,越來越多的公開基準和演示開始暗示,為什么他們可能認為我們正在接近人工智能能力的根本轉變。水漲船高的速度似乎快于預期。
單憑他們的確信并不重要--除非越來越多的公開基準和演示開始暗示,為什么他們會相信我們正在接近人工智能能力的根本性轉變。水上漲的速度,似乎比預期的要快。
水位漲到哪了?
引發最多猜測的事件是,OpenAI 在去年 12 月底發布了一款名為 o3 的新模型。除了 OpenAI 之外,還沒有其他人真正使用過這個系統,但它是 o1 的繼任者,而 o1 已經給人們留下了深刻印象。
o3 模型是新一代“推理模型”之一,在正式回答問題之前會花費更多時間進行“思考”,這大大提高了它們解決更困難問題的能力。OpenAI 為 o3 展示了許多令人吃驚的基準測試,表明 o3 比 o1 更強,實際上,甚至超過了我們認為的 SOTA 人工智能的水平。有三個基準尤其值得關注。
第一項測試名為“GPQA”(Graduate-Level Google-Proof Q&A),是通過一系列的選擇題來測試高層次的知識,即使是谷歌也無法提供幫助。在這項測試中,在互聯網的幫助下,人類博士答對了 34% 的專業外問題,答對了 81% 的專業內問題。經過測試,o3 首次以 87% 的正確率擊敗了人類專家。
第二項基準是 FrontierMath,這是一組由數學家構建的難以解決的數學問題,事實上,沒有一個人工智能的正確率能超過 2%,直到 o3 出現,它的正確率達到了 25%。
最后一個基準是 ARC-AGI,這是一個著名的流體智能測試,其設計對人類來說相對容易,但對人工智能來說卻很難。同樣,o3 在這項測試中擊敗了所有以前的人工智能以及人類基準水平,得分率達到了 87.5%。
所有這些測試都有重要的“注意事項”,但它們表明,我們以前認為無法逾越的人工智能性能障礙,實際上可能很快就會被打破。
1.agent
隨著人工智能模型變得越來越聰明,它們也會成為更有效的 agent。“agent”是又一個沒有清晰定義(ill-defined)的術語(看出什么規律了嗎?),一般指人工智能具有自主行動的能力,從而實現一系列目標。過去幾周的情況表明,實用的 agent,至少在狹義但具有重要經濟意義的領域,現在是可行的。
谷歌 Gemini 的 Deep Research,是一個很好的例子。它實際上是一個專門的研究 agent。我給了它一個主題,比如“從創始人的角度出發,針對高增長企業,對初創公司的融資方式進行比較研究”。在幾分鐘內閱讀完 173 個(?。┚W站后,它就想出了一個計劃,并為我編制了一份報告,給出了答案。
最終結果是:一個 17 頁的報告,足足有 118 篇參考文獻!
但這有什么用嗎?我在沃頓商學院教授創業學入門課程已經十多年了,發表過相關的作品,自己也創辦過公司,甚至還寫過一本關于創業學的書。最大的問題不在于準確性,而在于 agent 僅限于公開的非付費網站,而非學術或高級出版物。此外,它給出的內容也十分淺顯,在相互矛盾的證據面前,沒有提出有力的論據。雖然比不上最優秀的人類,但也比我看到的很多報告要好。
盡管如此,這仍然是一個具有真正價值的、顛覆性的 agent 案例。研究和撰寫報告是許多工作的主要任務。Deep Research 在三分鐘內完成的工作,人類可能要花上好幾個小時,盡管他們可能會添加更多細致入微的分析。
有鑒于此,作為一個起點,任何撰寫研究報告的人或許都應該嘗試一下 Deep Research,看看它是如何工作的,盡管一份好的最終報告仍然需要人工幫助。
我曾有機會與 Deep Research 項目的負責人交談,得知這只是一個小團隊的試點項目。因此,我猜想,其他團隊和公司如果受到激勵,也能創造出狹義但有效的 agent。狹義 agent 現在是一種真實的產品,而不是一種未來的可能性。現在已經有很多編碼 agent,你還可以使用實驗性開源 agent 進行科學和金融研究。
狹義 agent 專門從事特定任務,這意味著它們的能力在一定程度上是有限的。這就提出了一個問題:我們是否很快就能看到通用 agent,你可以向人工智能詢問任何事情,它都會利用計算機和互聯網來完成。盡管 Altman 已經提出了他的觀點,但 Simon Willison 卻并不認同。隨著時間的推移,我們將了解到更多,但如果通用 agent 系統能夠可靠、安全地工作,這將真正改變一切,因為它允許聰明的人工智能在世界上采取行動。
2.許多更小的進步正在發生
agent 和非常聰明的模型是變革性人工智能所需的核心要素,但還有許多其他要素似乎也在快速進步。這包括人工智能可以記住多少(上下文窗口)和允許它們能看和能說的多模態能力方面的進展。回顧一下過去,對了解進展情況會有所幫助。
例如,在 ChatGPT 問世之前,我就一直在使用“水獺在飛機上使用 wifi”這一提示詞(prompt)來測試圖像和視頻模型。2023 年 10 月,這個提示詞帶來了這個可怕的怪物。
圖|水獺在飛機上使用wifi,2023 年 10 月
不到 18 個月后,多種圖像創建工具都「搞定」了這個提示詞。我不得不想出一些更具挑戰性的方法(這是基準飽和的一個例子,即舊的基準被人工智能擊破)。
我決定花幾分鐘時間,看看使用谷歌 Veo 2 視頻模型制作“水獺的旅程”影片,能達到什么程度。下面這段視頻只用了我不到 15 分鐘的工作時間,盡管我不得不等待一段時間來創建視頻??纯搓幱昂凸饩€的質量。我特別欣賞水獺最后打開電腦的樣子。
為了更進一步,我決定把水獺的傳奇故事改編成一部 20 世紀 80 年代風格的科幻動畫片,以太空中的水獺為主角,并配上適合那個時代的主題曲(感謝 Suno)。同樣,我只做了很少的(人工)工作。
應對「智能洪流」
基于此,我們應該如何認真對待人工智能實驗室關于“智能洪流即將到來”的說法?
即使我們只考慮我們已經看到的——o3 基準打破了以前的障礙,狹義 agent 完成了復雜的研究,多模態系統創造了越來越復雜的內容——我們正在尋找能夠改變許多知識型任務的能力。然而,實驗室們堅持認為,這僅僅是個開始,更強大的系統和通用 agent 即將出現。
我最擔心的并不是實驗室的這一時間表是否正確——而是我們沒有為目前水平的人工智能可以做的事情做好充分準備,更不用說他們的預測可能是正確的。
當人工智能研究人員專注于對齊,確保人工智能系統以合乎道德和負責任的方式行動時,卻很少有人去設想和闡述一個充斥著人工智能的世界究竟會是什么樣子。這不僅與技術本身有關,還與我們選擇如何塑造和部署這項技術有關。
這些問題不是人工智能開發人員能夠或應該單獨回答的。這些問題需要組織領導人、那些工作生活可能發生轉變的員工,以及那些未來可能取決于這些決策的利益相關者的關注。
即將到來的智能洪流本質上并無好壞之分——但我們如何做好準備、如何適應它,以及最重要的是,我們如何選擇使用它,將決定它是進步還是破壞的力量。
開始進行這些對話的時間,不是在水位開始上升之后,而是現在。
https://www.oneusefulthing.org/p/prophecies-of-the-flood
整理:學術君
如需轉載或投稿,請直接在公眾號內留言
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.