新智元報道
編輯:編輯部 NYH
【新智元導讀】GPT-4.5比GPT-4聰明10倍!其背后的研發故事卻鮮為人知。奧特曼攜OpenAI團隊首次敞開心扉,分享了幕后細節。從海量算力引發的「基礎設施危機」,到「torch.sum bug」帶來的意外突破,團隊講述了在挑戰中實現智能飛躍。
GPT-4.5出世一個多月,鮮有人知其背后研發故事。
今天凌晨,奧特曼與三位核心研究員在線開啟播客對談,首次揭開了GPT-4.5從愿景到現實的史詩級突破。
早在兩年前,OpenAI團隊定下了一個大膽的目標,打造一款比GPT-4聰明10倍的模型。
這不僅意味著LLM性能提升,更是對計算、數據、協作的極限挑戰。
從左到右:奧特曼、Alex Paino、Amin Tootoonchian和Daniel Selsam
如今,OpenAI在2月底正式交卷,GPT-4.5情商堪稱所有模型最強的,并再次Scaling無監督學習的邊界。
這款「超級模型」究竟如何創造智能奇跡,全部濃縮在了這45分鐘的圓桌對談中。
一些精彩亮點:
GPT-4.5比GPT-4聰明10倍,研發用時2年,擁有上一代不具備的微妙「魔力」
訓練GPT-4.5為OpenAI提供了寶貴的技術經驗;現只需要大約5名員工,就可以從頭開始訓練GPT-4
算力基礎設施和大規模GPU擴展帶來的小概率問題會捅出大亂子
數據效率成為關鍵瓶頸,OpenAI下一個主要研究前沿是提高數據效率
「torch.sum bug」等趣事推動模型性能飛躍。
Scaling Law被驗證為可能長期有效的「宇宙規律」
GPT-4.5聰明10倍
奧特曼開篇說,通常他們開這種會都是為了發布新產品,不過這次打算換個玩法,聊聊GPT-4.5開發背后的故事。
GPT-4.5推出后,用戶對它的興趣特別大,這大大超出了研發團隊的預期。
他們首先從「一個巨型模型到底需要什么?」這個話題說起。
「一大堆人、一大把時間,還有海量的計算資源。」主要負責預訓練數據的Alex回答說。
Alex表示,他們光是準備階段就花了很多心思,至于正式的訓練,「本身就是個超級大的工程」。
在實際訓練中,研究團隊經常得做選擇:是推遲發布,等更多問題解決;還是早點上線,邊跑邊解決問題。
這是個平衡,不能讓整個訓練過程拖得太久。
他們謙虛地認為,對于效率更高的算法及以如何更好地利用現有數據,他們還只是「略知皮毛」。
在不久之前,我們還在受限于算力。但從GPT-4.5開始,我們更多地是處在一個受限于數據的環境里了。
他們說這是一個顛覆性的進展,「整個世界對此還沒有充分認識到。」
兩年前著手開發GPT-4.5時,他們的目標是比GPT-4聰明10倍。
現在,他們覺得自己達到了這個目標——至少在投入的有效算力下,GPT-4.5實現了比GPT-4聰明10倍的效果。
預訓練的兩個難題
不過,實際的訓練時間還是比預想的要長不少。
這里面主要有兩個問題。
一個是從1萬個GPU增加到10萬個GPU,問題會變得多得多。
尤其是一些提前沒預料到的小概率問題,在大規模計算時會捅出大亂子。
最容易出問題的就是算力基礎設施,由于他們的數據量實在是太大了,有些問題連硬件制造商都沒遇見過。
網絡架構、單個加速器,這些都會出問題。「我們的工作就是盡量把這些變量的波動降到最低。」
另一個問題是探索前沿科技這件事本身就很難。
在訓練GPT-4.5時,OpenAI投入了幾百人的努力,耗費了大量的時間,幾乎是all in。
但如果他們現在重新訓練一個GPT-4水平的模型,大概只需要5到10個人就可以搞定。
專注于數據效率和算法的Dan說,「我覺得做任何新東西都難。但是當你知道別人已經做成過某件事,難度就會大大降低」。
「因為最難的部分是下定決心去做一件事。知道某件事是可行的,簡直就像開了掛,瞬間就容易多了。」
Dan接著表示,如果想要將訓練規模再擴大10倍甚至是100倍,數據就會成為瓶頸,這時候就需要一些算法上的創新,讓模型能用更多的算力從同樣的數據里學到更多東西。
torch.sum bug趣事
研究團隊在GPT-4.5的訓練中,發現了一些特別有趣的事情。
比如,在訓練過程中不斷地優化機器學習算法,做出一些調整。
尤其是團隊解決了一些關鍵問題后,他們看到了模型性能的大幅提升。
那一刻,整個團隊的能量都不一樣了,大家都特別興奮,動力滿滿,要把最后階段沖刺完成。
「那一刻真的很震撼。這對團隊士氣的提升,真的特別美妙。」
現場OpenAI的首席系統架構師Amin Chian分享了一個「torch.sum bug」趣事。
在訓練過程中遇到bug是常事,通常是找一下到底是硬件故障、數據損壞,還是機器學習相關的Bug。
但在訓練GPT-4.5時,有一次好幾個問題一直都沒有解決。
大家沒辦法就在一起討論研究這些問題到底是由不同的Bug引起的,還是同一個Bug導致的。
他們圍著桌子投票。結果呢?后來確定的那個Bug在當時得票最少!
就是個簡單的「torch.sum」Bug,來自上游的PyTorch庫,大家都覺得太不可思議了。
所有的問題都被這一行代碼給解決了,真的特別有趣。
為了慶祝,他們還把Slack頻道從「多Bug理論」改成了「單Bug理論」,那場面可熱鬧了。
這個Bug的觸發頻率特別低,可能每100步、1000步才出一次問題,特別容易被忽略。
但他們有條紀律,在訓練過程中不能容忍這種問題出現。
整個過程就是一個堅持不放棄的故事。
壓縮即智能
幾十年來,深度學習的核心一直是提升算力效率。而且,每一次小的改進,都能帶來顯著的疊加效應。
世界上各地不同的人發現一個提升10%效率的技巧,另一個提出提升20%的優化,這些看似微小的進步累積起來,就能徹底改變模型的表現。
過去,因算力受限,數據效率的研究顯得并不劃算。但如今,數據效率每一次突破都將可能成為AI發展的臨界點。
因此,現在就去預測AI會有瓶頸,有點不明智。
他們還認為更好的預訓練和無監督學習能全面提升模型的智能,幫助模型更好地泛化,這一點跟現在模型的推理能力很是互補。
預訓練本質上是在壓縮數據。壓縮數據意味著發現不同事物之間的聯系、類比和抽象。而推理則針對某個具體問題,需要一種謹慎思考的技巧。
這種謹慎思考能解鎖很多不同領域的問題,但預訓練在跨領域壓縮數據時,學到的是一種更抽象的東西。
為什么無監督學習會有效?研究員們的答案是「壓縮」。
可以說,理想的智能形態就是所謂的「所羅門諾夫歸納」(Solomonov induction)。
簡單來說,模型更傾向于簡潔的解釋。與此同時,它嚴格遵循貝葉斯原理,把所有可能性都記住,隨時根據新信息更新自己的回答。
而他們現在做的預訓練——或者說理解預訓練的一個視角——就是在做這種「壓縮」。
試圖找到一個最短的程序(或者模型),來解釋所有的數據,以此作為對理想智能的一種近似。
Scaling Law是宇宙法則
在播客的最后,奧特曼表示,訓練GPT-4.5的整個過程,花了無數的人力、時間和金錢,其實可以看成是一場實驗。
一場驗證Scaling Law是不是還成立的實驗。
結果他們發現,Scaling Law不僅有效,而且還可能會持續很長時間。
奧特曼說他接受Scaling Law就像接受量子力學一樣,還不明白為什么Scaling Law會是一種宇宙的規律。
對此Dan試著解釋說,模型數據壓縮得越多,智能就越高,這個有很強的哲學依據。
他自己比較喜歡的一個解釋是,世界上數據的「關鍵概念」是稀疏的,符合冪律分布(power law)。
比如,第100個重要的概念,可能在每100個文檔里只出現一次。
也就是說數據有很強的「長尾效應」。
所以現實是,如果你想抓到「尾巴」里下一個重要的東西,可能得把算力和數據量翻個十倍。
而這個尾巴還很長,可以一直挖下去。
參考資料:
https://x.com/sama/status/1910363434241450171
https://www.youtube.com/watch?v=6nJZopACRuQ
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.