這兩天,AI界好不熱鬧。最有看點的,是DeepSeek和OpenAI打擂臺。DeepSeek 陸續開源了一些“干貨”,得到了大量的好評。而反觀OpenAI,則發布了備受矚目的GPT-4.5,但是從目前情況來看,還是失望多于驚喜。
最主要的是,GPT-4.5沒能帶來人們期望中的模型能力的顯著提升,而有點像“擠牙膏”,有一點進步,但不多。關鍵的是,這點進步的代價卻不小。有人對比了一下GPT-4.5和DeepSeek V3的價格,刺激就更大了。
當然,OpenAI是有苦說不出,“不是我貪心,是成本擺在那,就是收你們這個錢,我都還是血虧啊”。
目前,網絡上已經出現了很多關于GPT-4.5的使用測評,我們就不多說了。
作為專業媒體,我們討論一個更本質的問題——GPT-4.5差強人意的表現,是不是意味著Scaling Law就徹底失效了?模型的規模已經觸及天花板,以后別想擴大規模這事兒?
這是一個很關鍵的問題,不同的選擇甚至會決定整個行業的走向。
Scaling Law(規模法則)是怎么來的?
以史為鑒,可以知興替。要看清楚未來的方向,不妨先回望一下來時的路。
人工智能的發展歷程是一場技術不斷突破、理論不斷演化的漫長征程。從20世紀50年代的符號主義人工智能到今天的大規模語言模型,AI的每一次進步都伴隨著新思想的誕生和舊理論的修正。
最初的符號主義AI強調邏輯推理與知識表示,它依賴于精確的規則和符號系統,在專家系統的框架下處理特定領域的問題。到了20世紀80年代末至90年代初,機器學習逐漸成為AI領域的新方向。機器學習突破了符號主義的束縛,逐步讓計算機能夠通過數據學習而非依賴人工編碼規則。神經網絡,尤其是反向傳播算法(backpropagation)的復興,為AI的發展打開了新的大門。然而,由于計算資源的限制和數據集的匱乏,深度學習尚未成為主流,AI的應用范圍依舊局限。
在這段時間,人們腦海中基本還不存在Scaling Law這個概念,大家的專注點都在于算法模型的創新。如果這個時候有人說“單純擴大模型規模就可以了”,大部分人會罵他是個瘋子。
進入21世紀后,深度學習隨著大數據和計算能力的提升,迅速崛起。2012年,AlexNet在ImageNet圖像識別競賽中的震撼表現標志著深度學習進入了一個全新時代。隨著技術的發展,AI的進步并不僅僅依賴于算法的改進,計算資源的增長和數據的積累也起到了至關重要的作用。大數據的涌現與云計算的普及為AI提供了前所未有的算力支持,這為深度學習的迅猛發展創造了條件。
進入2010年代末,深度學習走向了一個前所未有的高峰。2018年,谷歌推出了Transformer架構,它徹底改變了自然語言處理的格局。Transformer通過自注意力機制(self-attention)能夠有效地捕捉序列數據中的長程依賴關系,成功解決了傳統RNN和LSTM在長文本處理上的瓶頸。Transformer架構的成功,不僅讓自然語言處理進入了一個新的時代,也為大模型的發展奠定了基礎。
但是,這個時候離Scaling Law才剛剛有點萌芽,還沒成為行業的成為金科玉律。
隨著Transformer架構的誕生,基于這一架構的大規模預訓練語言模型(如BERT、GPT等)迅速登上了AI的舞臺。2019年,OpenAI發布了GPT-2,模型的規模達到了15億個參數,展示了巨大的潛力。GPT-2在文本生成、語言理解和推理等方面表現出了超乎想象的能力,標志著預訓練語言模型的新時代。
然而,GPT-2的成功也引發了對更大規模模型的期待,最終導致了GPT-3的誕生。GPT-3的發布可謂是AI領域的一次革命,它的參數規模達到了1750億,幾乎超越了當時所有同類模型。GPT-3的發布不僅是技術突破,也代表了Scaling Law的成熟。
根據這一法則,規模的擴大帶來了模型能力的顯著躍升。GPT-3的能力超越了前代所有模型,特別是在生成語言的流暢性、推理能力和少樣本學習等方面表現得尤為突出。
GPT-3的成功使得Scaling Law成為AI界廣泛接受的“真理”,幾乎所有的AI大模型開發者都開始依賴這一法則來指導模型的設計。OpenAI、谷歌、Meta、Anthropic,以及中國的百度、阿里、騰訊、字節跳動、月之暗面、智譜AI等,紛紛加入了大規模預訓練模型的開發浪潮。
這個時候,大模型成為了主流技術路線,Scaling Law幾乎成為了AI發展的“金科玉律”。
但隨著事態的發展,漸漸有不少廠商對Scaling Law提出質疑,越來越多人開始提小模型。需要指出的是,我們覺得,初期很多提小模型的廠商,有不少是自己實力不夠強,玩不起這個“燒錢”游戲,但又想早點把自己模型規模沒那么大的產品落地,早點賺錢,出于這個目的來混淆視聽。
在國外,人們還是比較相信Scaling Law,尤其是谷歌、Meta、微軟、亞馬遜等巨頭,從他們2025年的資本開支就可以看出,他們是準備在今年繼續大干一場的。
然而,DeepSeek的橫空出世,讓人們猛然發現,小一點的模型、更低的成本,實現差不多的模型能力,這條路是可行的,于是國內外的風向開始轉變了。再加上這次GPT-4.5差強人意的表現,相信人們對于Scaling Law的質疑又會增加幾分。
也許,接下來,人們會從一個極端走向另一個極端,即從將Scaling Law奉為金科玉律,走向徹底拋棄Scaling Law。我們認為,Scaling Law只是遇到了階段性瓶頸,并沒有完全失效。為了說明這個問題,我們先來澄清兩個容易誤解的地方:
1、大模型的創新,一直是兩條腿走路,而Scaling Law只是其中的一條腿;
2、模型規模導致的能力提升,一直都不是線性的。
大模型的路,一直是兩條腿在走
大模型的能力提升,實際上一直是一個雙重路徑的進程。過去,我們看到的是兩條腿并行走路:一條腿代表著通過Scaling Law(規模法則)推動模型規模的不斷擴展,另一條腿則是通過算法創新與工程優化來提升模型的效率和智能水平。
最初,隨著GPT-2、GPT-3的成功,Scaling Law顯然走得更快。這一階段,模型規模的擴展成為了主導力量,幾乎所有突破性的進展都來自于規模的急劇膨脹。GPT-3的發布,尤其是其1750億個參數的模型,幾乎是一項革命性的突破,這使得“規模即智能”的理念深入人心。業界普遍相信,模型的規模越大,其表現就會越好,Scaling Law成為了不可動搖的信條。
然而,這并不意味著算法創新與工程優化在此過程中消失。實際上,雖然在前幾年里規模擴張這條腿走得更快,算法與架構的優化始終在默默推進。例如,盡管GPT系列在參數數量上不斷增加,但同時,OpenAI和其他研究者也在不斷對訓練算法、優化方法以及模型架構進行改進。包括混合精度訓練、模型稀疏化、動態計算路徑等技術的引入,都是在為提升大模型效率、減少計算成本而進行的優化嘗試。可以說,算法創新和工程優化的“另一條腿”,一直在不斷跟進并為大模型的有效擴展提供支撐。
只是,Deepseek的成功,向人們展示了工程優化的效果居然可以這么好。Deepseek的做法表明,AI的突破不僅依賴于“做得更大”,更要注重“做得更好”。這種對效率和創新的追求,促使AI研發者意識到:將來要想持續推動AI能力的突破,必須加大對算法優化和工程創新的投資。模型不再只是參數數量的堆砌,而是要在算法和架構設計上進行更深刻的優化。這也預示著,隨著Scaling Law的邊際效應漸顯,算法創新和工程優化將成為下一階段AI技術進步的核心。
Scaling Law只是遇到瓶頸,沒有完全失效
當我們回顧大模型的進化史,越來越顯而易見的一點是:模型的規模擴展并非線性。
最初,從數百萬到數億參數時,模型的性能提升幾乎是漸進的。即便是GPT-2,也不過是1.5億參數的模型,盡管在當時表現不俗,但它離顛覆性的智能突破還差得很遠。
只有當模型參數達到數百億,性能的提升才顯得顯著,特別是在GPT-3的發布中,當參數數量飆升至1750億時,模型的表現飛躍至一個新的層次。這個突破顯示了一個重要的現象:真正的“智能涌現”,即智能水平的質變,往往并不在模型的每一次擴展中出現,而是在模型規模達到某個臨界點后突然爆發。
在達到700億參數左右時,模型的推理能力、語言理解能力以及生成能力都有了質的飛躍。這是因為,隨著模型規模的擴大,計算和數據的相互作用不僅增強了模型的表達能力,還促使了更復雜的認知模式的涌現。然而,隨著模型進入數萬億參數的階段,智能提升的速度逐漸減緩,進入了所謂的“賢者時間”——一種能力提升停滯的階段。
在這一階段,擴展模型的規模似乎不會自動帶來智能的飛躍。GPT-4.5的發布便是一個明顯的例子:盡管它的參數達到了萬億級別,智能提升卻沒有呈現出GPT-3到GPT-4那樣的巨大飛躍。
GPT-4.5的表現并不是Scaling Law的“死刑判決”,而是我們可能已經進入了另一個“賢者時間”。
想要超越當前的瓶頸,或許需要模型的規模擴展到50萬億參數,甚至更大的范圍。在這個過程中,模型的涌現效應可能會再次爆發,帶來智能的質變。
這也是為什么GPT-4.5的表現并不代表AI發展的“停滯”,而只是表明現有的Scaling Law開始遇到極限效應。從理論上講,當大模型達到了某一“臨界規模”,智能的飛躍必須依賴于架構的創新,而不僅僅是參數數量的增加。
規模擴張與算法模型優化這兩條腿,需要走的更協調
上面我們提到過,大模型的發展是兩條腿走路,前兩年,主要靠Scaling Law著條腿在走,接下來,另一條腿需要多走兩步了。
在大模型的技術發展中,Deepseek等公司為我們提供了一個至關重要的啟示:模型的智能提升不僅僅依賴于規模的擴展,還可以通過精細的架構優化與算法創新,極大地提高效率和性能。Deepseek的成功并非單純通過堆砌更多的計算資源,而是通過在算法和工程架構上的深度優化,實現了更高效的計算資源使用,使得模型的智能提升以更少的資源消耗達到了類似甚至更高的效果。這一切都表明,隨著大模型規模的不斷膨脹,計算資源的浪費和效率的低下將成為最重要的瓶頸。
通過減少冗余計算、優化數據流和調度方式,Deepseek能夠在不依賴單純增加計算量的前提下,提升模型的推理速度和響應效率。通過這種精細化優化,它使得模型能夠在大規模計算資源的限制下,依然達到更高的智能水平。
這種方法將不僅推動技術的進步,還能大幅降低成本,提高大規模模型的可持續性與商業化潛力。Deepseek的成功表明,未來的大模型發展,將是效率和智能并行推進的過程,而不僅僅是規模的不斷擴張。
然而,隨著模型規模的進一步增大和效率優化的逐步實現,單純依賴現有架構和算法已經無法突破Scaling Law的瓶頸。想要真正推動大模型智能的進一步提升,根本的技術創新,尤其是架構創新,必將成為未來突破的關鍵。
當前,Transformer架構被廣泛應用于大規模語言模型中,其自注意力機制(self-attention)成功地處理了語言中的長程依賴問題,并在多種NLP任務中展現了超常表現。然而,隨著模型規模的不斷增加,Transformer的計算復雜度逐漸成為瓶頸,尤其是在處理長文本、極端大規模模型時,計算和內存的需求將變得極為龐大,限制了其應用的廣度和深度。
未來的突破可能來自于一種比Transformer更高效的架構,這種新架構能夠在保證智能水平的提升的同時,大幅降低計算復雜度和內存消耗。例如,稀疏化架構、圖神經網絡(GNN)以及混合模型架構(如結合強化學習與神經網絡的混合架構)等,可能會成為新的方向。
這些新的架構設計將不僅提高模型的計算效率,還能幫助模型在推理過程中更好地處理多任務、跨模態信息,從而進一步增強其智能能力。例如,圖神經網絡在處理非歐幾里得數據(如社交網絡、分子結構等)時表現出色,未來或許可以通過這種方式處理更加復雜的數據結構,推動語言模型向更加泛化和多樣化的能力發展。
因此,架構創新不僅僅是為了提高計算效率,更是為了從根本上推動模型智能的進一步升級,打破現有架構在大規模應用中的瓶頸,突破Scaling Law的限制。
展望未來,大模型的發展將不僅僅依賴單一的擴展路徑,而是依靠兩條腿并行走路:一方面,通過架構創新與算法優化來突破現有技術的瓶頸,另一方面,在算力和數據問題得到更好解決的基礎上,繼續擴展模型規模。這種雙管齊下的方式,將為大模型的進一步智能提升提供堅實的基礎。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.