99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

GPT-4.5判了Scaling Law“死刑”?

0
分享至



這兩天,AI界好不熱鬧。最有看點的,是DeepSeek和OpenAI打擂臺。DeepSeek 陸續開源了一些“干貨”,得到了大量的好評。而反觀OpenAI,則發布了備受矚目的GPT-4.5,但是從目前情況來看,還是失望多于驚喜。

最主要的是,GPT-4.5沒能帶來人們期望中的模型能力的顯著提升,而有點像“擠牙膏”,有一點進步,但不多。關鍵的是,這點進步的代價卻不小。有人對比了一下GPT-4.5和DeepSeek V3的價格,刺激就更大了。



當然,OpenAI是有苦說不出,“不是我貪心,是成本擺在那,就是收你們這個錢,我都還是血虧啊”。

目前,網絡上已經出現了很多關于GPT-4.5的使用測評,我們就不多說了。

作為專業媒體,我們討論一個更本質的問題——GPT-4.5差強人意的表現,是不是意味著Scaling Law就徹底失效了?模型的規模已經觸及天花板,以后別想擴大規模這事兒?

這是一個很關鍵的問題,不同的選擇甚至會決定整個行業的走向。

Scaling Law(規模法則)是怎么來的?

以史為鑒,可以知興替。要看清楚未來的方向,不妨先回望一下來時的路。

人工智能的發展歷程是一場技術不斷突破、理論不斷演化的漫長征程。從20世紀50年代的符號主義人工智能到今天的大規模語言模型,AI的每一次進步都伴隨著新思想的誕生和舊理論的修正。

最初的符號主義AI強調邏輯推理與知識表示,它依賴于精確的規則和符號系統,在專家系統的框架下處理特定領域的問題。到了20世紀80年代末至90年代初,機器學習逐漸成為AI領域的新方向。機器學習突破了符號主義的束縛,逐步讓計算機能夠通過數據學習而非依賴人工編碼規則。神經網絡,尤其是反向傳播算法(backpropagation)的復興,為AI的發展打開了新的大門。然而,由于計算資源的限制和數據集的匱乏,深度學習尚未成為主流,AI的應用范圍依舊局限。

在這段時間,人們腦海中基本還不存在Scaling Law這個概念,大家的專注點都在于算法模型的創新。如果這個時候有人說“單純擴大模型規模就可以了”,大部分人會罵他是個瘋子。

進入21世紀后,深度學習隨著大數據和計算能力的提升,迅速崛起。2012年,AlexNet在ImageNet圖像識別競賽中的震撼表現標志著深度學習進入了一個全新時代。隨著技術的發展,AI的進步并不僅僅依賴于算法的改進,計算資源的增長和數據的積累也起到了至關重要的作用。大數據的涌現與云計算的普及為AI提供了前所未有的算力支持,這為深度學習的迅猛發展創造了條件。

進入2010年代末,深度學習走向了一個前所未有的高峰。2018年,谷歌推出了Transformer架構,它徹底改變了自然語言處理的格局。Transformer通過自注意力機制(self-attention)能夠有效地捕捉序列數據中的長程依賴關系,成功解決了傳統RNN和LSTM在長文本處理上的瓶頸。Transformer架構的成功,不僅讓自然語言處理進入了一個新的時代,也為大模型的發展奠定了基礎。

但是,這個時候離Scaling Law才剛剛有點萌芽,還沒成為行業的成為金科玉律。

隨著Transformer架構的誕生,基于這一架構的大規模預訓練語言模型(如BERT、GPT等)迅速登上了AI的舞臺。2019年,OpenAI發布了GPT-2,模型的規模達到了15億個參數,展示了巨大的潛力。GPT-2在文本生成、語言理解和推理等方面表現出了超乎想象的能力,標志著預訓練語言模型的新時代。

然而,GPT-2的成功也引發了對更大規模模型的期待,最終導致了GPT-3的誕生。GPT-3的發布可謂是AI領域的一次革命,它的參數規模達到了1750億,幾乎超越了當時所有同類模型。GPT-3的發布不僅是技術突破,也代表了Scaling Law的成熟。

根據這一法則,規模的擴大帶來了模型能力的顯著躍升。GPT-3的能力超越了前代所有模型,特別是在生成語言的流暢性、推理能力和少樣本學習等方面表現得尤為突出。

GPT-3的成功使得Scaling Law成為AI界廣泛接受的“真理”,幾乎所有的AI大模型開發者都開始依賴這一法則來指導模型的設計。OpenAI、谷歌、Meta、Anthropic,以及中國的百度、阿里、騰訊、字節跳動、月之暗面、智譜AI等,紛紛加入了大規模預訓練模型的開發浪潮。

這個時候,大模型成為了主流技術路線,Scaling Law幾乎成為了AI發展的“金科玉律”。

但隨著事態的發展,漸漸有不少廠商對Scaling Law提出質疑,越來越多人開始提小模型。需要指出的是,我們覺得,初期很多提小模型的廠商,有不少是自己實力不夠強,玩不起這個“燒錢”游戲,但又想早點把自己模型規模沒那么大的產品落地,早點賺錢,出于這個目的來混淆視聽。

在國外,人們還是比較相信Scaling Law,尤其是谷歌、Meta、微軟、亞馬遜等巨頭,從他們2025年的資本開支就可以看出,他們是準備在今年繼續大干一場的。

然而,DeepSeek的橫空出世,讓人們猛然發現,小一點的模型、更低的成本,實現差不多的模型能力,這條路是可行的,于是國內外的風向開始轉變了。再加上這次GPT-4.5差強人意的表現,相信人們對于Scaling Law的質疑又會增加幾分。

也許,接下來,人們會從一個極端走向另一個極端,即從將Scaling Law奉為金科玉律,走向徹底拋棄Scaling Law。我們認為,Scaling Law只是遇到了階段性瓶頸,并沒有完全失效。為了說明這個問題,我們先來澄清兩個容易誤解的地方:

1、大模型的創新,一直是兩條腿走路,而Scaling Law只是其中的一條腿;

2、模型規模導致的能力提升,一直都不是線性的。

大模型的路,一直是兩條腿在走

大模型的能力提升,實際上一直是一個雙重路徑的進程。過去,我們看到的是兩條腿并行走路:一條腿代表著通過Scaling Law(規模法則)推動模型規模的不斷擴展,另一條腿則是通過算法創新與工程優化來提升模型的效率和智能水平。

最初,隨著GPT-2、GPT-3的成功,Scaling Law顯然走得更快。這一階段,模型規模的擴展成為了主導力量,幾乎所有突破性的進展都來自于規模的急劇膨脹。GPT-3的發布,尤其是其1750億個參數的模型,幾乎是一項革命性的突破,這使得“規模即智能”的理念深入人心。業界普遍相信,模型的規模越大,其表現就會越好,Scaling Law成為了不可動搖的信條。

然而,這并不意味著算法創新與工程優化在此過程中消失。實際上,雖然在前幾年里規模擴張這條腿走得更快,算法與架構的優化始終在默默推進。例如,盡管GPT系列在參數數量上不斷增加,但同時,OpenAI和其他研究者也在不斷對訓練算法、優化方法以及模型架構進行改進。包括混合精度訓練、模型稀疏化、動態計算路徑等技術的引入,都是在為提升大模型效率、減少計算成本而進行的優化嘗試。可以說,算法創新和工程優化的“另一條腿”,一直在不斷跟進并為大模型的有效擴展提供支撐。

只是,Deepseek的成功,向人們展示了工程優化的效果居然可以這么好。Deepseek的做法表明,AI的突破不僅依賴于“做得更大”,更要注重“做得更好”。這種對效率和創新的追求,促使AI研發者意識到:將來要想持續推動AI能力的突破,必須加大對算法優化和工程創新的投資。模型不再只是參數數量的堆砌,而是要在算法和架構設計上進行更深刻的優化。這也預示著,隨著Scaling Law的邊際效應漸顯,算法創新和工程優化將成為下一階段AI技術進步的核心。

Scaling Law只是遇到瓶頸,沒有完全失效

當我們回顧大模型的進化史,越來越顯而易見的一點是:模型的規模擴展并非線性。

最初,從數百萬到數億參數時,模型的性能提升幾乎是漸進的。即便是GPT-2,也不過是1.5億參數的模型,盡管在當時表現不俗,但它離顛覆性的智能突破還差得很遠。

只有當模型參數達到數百億,性能的提升才顯得顯著,特別是在GPT-3的發布中,當參數數量飆升至1750億時,模型的表現飛躍至一個新的層次。這個突破顯示了一個重要的現象:真正的“智能涌現”,即智能水平的質變,往往并不在模型的每一次擴展中出現,而是在模型規模達到某個臨界點后突然爆發。



在達到700億參數左右時,模型的推理能力、語言理解能力以及生成能力都有了質的飛躍。這是因為,隨著模型規模的擴大,計算和數據的相互作用不僅增強了模型的表達能力,還促使了更復雜的認知模式的涌現。然而,隨著模型進入數萬億參數的階段,智能提升的速度逐漸減緩,進入了所謂的“賢者時間”——一種能力提升停滯的階段。

在這一階段,擴展模型的規模似乎不會自動帶來智能的飛躍。GPT-4.5的發布便是一個明顯的例子:盡管它的參數達到了萬億級別,智能提升卻沒有呈現出GPT-3到GPT-4那樣的巨大飛躍。

GPT-4.5的表現并不是Scaling Law的“死刑判決”,而是我們可能已經進入了另一個“賢者時間”。

想要超越當前的瓶頸,或許需要模型的規模擴展到50萬億參數,甚至更大的范圍。在這個過程中,模型的涌現效應可能會再次爆發,帶來智能的質變。

這也是為什么GPT-4.5的表現并不代表AI發展的“停滯”,而只是表明現有的Scaling Law開始遇到極限效應。從理論上講,當大模型達到了某一“臨界規模”,智能的飛躍必須依賴于架構的創新,而不僅僅是參數數量的增加。

規模擴張與算法模型優化這兩條腿,需要走的更協調

上面我們提到過,大模型的發展是兩條腿走路,前兩年,主要靠Scaling Law著條腿在走,接下來,另一條腿需要多走兩步了。

在大模型的技術發展中,Deepseek等公司為我們提供了一個至關重要的啟示:模型的智能提升不僅僅依賴于規模的擴展,還可以通過精細的架構優化與算法創新,極大地提高效率和性能。Deepseek的成功并非單純通過堆砌更多的計算資源,而是通過在算法和工程架構上的深度優化,實現了更高效的計算資源使用,使得模型的智能提升以更少的資源消耗達到了類似甚至更高的效果。這一切都表明,隨著大模型規模的不斷膨脹,計算資源的浪費和效率的低下將成為最重要的瓶頸。

通過減少冗余計算、優化數據流和調度方式,Deepseek能夠在不依賴單純增加計算量的前提下,提升模型的推理速度和響應效率。通過這種精細化優化,它使得模型能夠在大規模計算資源的限制下,依然達到更高的智能水平。

這種方法將不僅推動技術的進步,還能大幅降低成本,提高大規模模型的可持續性與商業化潛力。Deepseek的成功表明,未來的大模型發展,將是效率和智能并行推進的過程,而不僅僅是規模的不斷擴張。

然而,隨著模型規模的進一步增大和效率優化的逐步實現,單純依賴現有架構和算法已經無法突破Scaling Law的瓶頸。想要真正推動大模型智能的進一步提升,根本的技術創新,尤其是架構創新,必將成為未來突破的關鍵。

當前,Transformer架構被廣泛應用于大規模語言模型中,其自注意力機制(self-attention)成功地處理了語言中的長程依賴問題,并在多種NLP任務中展現了超常表現。然而,隨著模型規模的不斷增加,Transformer的計算復雜度逐漸成為瓶頸,尤其是在處理長文本、極端大規模模型時,計算和內存的需求將變得極為龐大,限制了其應用的廣度和深度。

未來的突破可能來自于一種比Transformer更高效的架構,這種新架構能夠在保證智能水平的提升的同時,大幅降低計算復雜度和內存消耗。例如,稀疏化架構、圖神經網絡(GNN)以及混合模型架構(如結合強化學習與神經網絡的混合架構)等,可能會成為新的方向。

這些新的架構設計將不僅提高模型的計算效率,還能幫助模型在推理過程中更好地處理多任務、跨模態信息,從而進一步增強其智能能力。例如,圖神經網絡在處理非歐幾里得數據(如社交網絡、分子結構等)時表現出色,未來或許可以通過這種方式處理更加復雜的數據結構,推動語言模型向更加泛化和多樣化的能力發展。

因此,架構創新不僅僅是為了提高計算效率,更是為了從根本上推動模型智能的進一步升級,打破現有架構在大規模應用中的瓶頸,突破Scaling Law的限制。

展望未來,大模型的發展將不僅僅依賴單一的擴展路徑,而是依靠兩條腿并行走路:一方面,通過架構創新與算法優化來突破現有技術的瓶頸,另一方面,在算力和數據問題得到更好解決的基礎上,繼續擴展模型規模。這種雙管齊下的方式,將為大模型的進一步智能提升提供堅實的基礎。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
董明珠發現了海歸“行淫之具”

董明珠發現了海歸“行淫之具”

不正確
2025-04-26 23:02:51
閑魚變“黃魚”,表面賣女生自用自行車,實則做著見不得人的交易

閑魚變“黃魚”,表面賣女生自用自行車,實則做著見不得人的交易

西齋青簡
2024-05-07 11:55:02
過安檢能讓多少人“身敗名裂”?網友分享太炸裂,一看一個不吱聲

過安檢能讓多少人“身敗名裂”?網友分享太炸裂,一看一個不吱聲

奇特短尾矮袋鼠
2024-06-26 20:24:41
日產決定撤出中國武漢工廠,將生產基地從6個減少到4個。

日產決定撤出中國武漢工廠,將生產基地從6個減少到4個。

三農老歷
2025-04-27 00:11:59
中醫:人體的最佳狀態是陰在上陽在下,可惜現代人都顛倒了

中醫:人體的最佳狀態是陰在上陽在下,可惜現代人都顛倒了

太極本草
2025-04-19 17:40:04
快訊丨賈躍亭:FF市值達到百億美元基本能還完中國債務

快訊丨賈躍亭:FF市值達到百億美元基本能還完中國債務

每日經濟新聞
2025-04-26 10:01:07
方濟各葬禮!50位國家元首出席,馬克龍座位最前排,特朗普很尷尬

方濟各葬禮!50位國家元首出席,馬克龍座位最前排,特朗普很尷尬

藍色海邊
2025-04-27 02:30:55
看了陳芋汐直播時說的話,才明白航天活動,為何只有全紅嬋被邀請

看了陳芋汐直播時說的話,才明白航天活動,為何只有全紅嬋被邀請

徐扙老表哥
2025-04-25 16:06:28
全面領先!巴薩1-0皇馬半場:射門9-1,射正4-0,控球率63%-37%

全面領先!巴薩1-0皇馬半場:射門9-1,射正4-0,控球率63%-37%

直播吧
2025-04-27 05:01:15
阿德巴約談樂福:他曾1-3逆轉&想聽他的建議 但他正在經歷很多事

阿德巴約談樂福:他曾1-3逆轉&想聽他的建議 但他正在經歷很多事

直播吧
2025-04-27 05:23:10
安徽鐵塔的大瓜!

安徽鐵塔的大瓜!

妮妮玩不夠
2025-04-25 17:22:16
大戰一觸即發!莫迪發表全球講話,巴全國動員,中美俄聯合國發聲

大戰一觸即發!莫迪發表全球講話,巴全國動員,中美俄聯合國發聲

說天說地說實事
2025-04-26 18:54:17
已釋懷!王菲去看謝霆鋒演唱會,同天張柏芝戴千萬珠寶拍大片

已釋懷!王菲去看謝霆鋒演唱會,同天張柏芝戴千萬珠寶拍大片

明月聊史
2025-04-26 17:46:49
中國不宰游客的6座城市,游客幾乎零差評!爭取每年去一個!!

中國不宰游客的6座城市,游客幾乎零差評!爭取每年去一個!!

三人行旅行記
2025-04-26 09:14:47
90后攝影師鏡頭下的重慶再被外交部發言人全球推薦:外交部特別寵愛重慶風光

90后攝影師鏡頭下的重慶再被外交部發言人全球推薦:外交部特別寵愛重慶風光

上游新聞
2025-04-26 21:25:21
江西一家三口被開快車泄憤男子撞死后 失獨老人發現兒子的獻血證和聯合國兒童基金會“月捐”證書

江西一家三口被開快車泄憤男子撞死后 失獨老人發現兒子的獻血證和聯合國兒童基金會“月捐”證書

閃電新聞
2025-04-25 22:54:13
演員李飛無戲可拍,和母親街邊賣魚近一年,他究竟為何淪落至此

演員李飛無戲可拍,和母親街邊賣魚近一年,他究竟為何淪落至此

嘆知
2025-04-26 17:49:48
歐美高科技為啥不賣給中國?荷蘭:我70萬的平衡車,他們600拿下

歐美高科技為啥不賣給中國?荷蘭:我70萬的平衡車,他們600拿下

看世界的人
2025-04-26 11:21:26
朱杰,被查

朱杰,被查

新京報政事兒
2025-04-26 17:01:33
再見,皇馬!“老弗爺”正式決定出售“億元廢星”!頂級后腰來投

再見,皇馬!“老弗爺”正式決定出售“億元廢星”!頂級后腰來投

頭狼追球
2025-04-26 11:18:55
2025-04-27 05:36:49
數據猿DataYuan incentive-icons
數據猿DataYuan
數據智能產業創新服務媒體
2046文章數 582關注度
往期回顧 全部

科技要聞

百度心響實測:“能用版Manus”開了個好頭

頭條要聞

特朗普將舉行集會慶祝執政100天 美媒:時機不妙

頭條要聞

特朗普將舉行集會慶祝執政100天 美媒:時機不妙

體育要聞

廣廈19分勝遼寧獲開門紅 孫銘徽13分3助崴腳

娛樂要聞

金掃帚獎出爐,包貝爾意外獲“影帝”

財經要聞

韓國的"宇樹科技" 是怎樣被財閥毀掉的?

汽車要聞

充電5分鐘續航100公里 探訪華為兆瓦超充站

態度原創

游戲
家居
藝術
本地
時尚

夢幻西游:出了雙固傷玉魄卻難過,口袋版成刷80級環裝首選

家居要聞

清徐現代 有溫度有態度

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

本地新聞

云游湖北 | 漢川文旅新體驗:千年陶藝邂逅湖光

她美得好邪乎,讓人又怕又愛

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 麟游县| 沐川县| 托克逊县| 阳东县| 岳阳县| 河间市| 襄汾县| 贞丰县| 高阳县| 横峰县| 龙陵县| 涞水县| 三明市| 五华县| 南郑县| 西乌| 讷河市| 临邑县| 汉源县| 石河子市| 扎鲁特旗| 东至县| 洛宁县| 长葛市| 青川县| 聂荣县| 大理市| 铜川市| 济源市| 阳江市| 东乌珠穆沁旗| 孝感市| 双鸭山市| 乌兰县| 旬阳县| 正安县| 遂溪县| 舞阳县| 双江| 嵩明县| 益阳市|