李萌
全國(guó)政協(xié)委員、科學(xué)技術(shù)部原副部長(zhǎng)
聽了專家和各金融機(jī)構(gòu)的介紹很受鼓舞也很受啟發(fā)。金融業(yè)在引入DeepSeek時(shí)間不長(zhǎng),但形成了很多應(yīng)用場(chǎng)景,無(wú)論是金融巨頭還是中小機(jī)構(gòu)在態(tài)勢(shì)感知、智能風(fēng)控、流程重塑、服務(wù)優(yōu)化、投研決策、業(yè)務(wù)創(chuàng)新(人機(jī)協(xié)同)等多種場(chǎng)景上做的各有特色。目前應(yīng)用剛剛起步相信會(huì)漸入佳境。這反映了金融業(yè)的敏銳眼光、技術(shù)積淀、業(yè)務(wù)積累和對(duì)大模型技術(shù)發(fā)展趨勢(shì)的把握。
DeepSeek技術(shù)在模型架構(gòu)、訓(xùn)練策略和開源等方面的創(chuàng)新,意義重大,影響深刻。DeepSeek現(xiàn)象從技術(shù)層面、應(yīng)用層面、影響層面、甚至從文化層面都是值得討論的。
DeepSeek的架構(gòu)創(chuàng)新、軟硬件優(yōu)化和訓(xùn)練策略開啟了一場(chǎng)效率革命。
其實(shí)在業(yè)內(nèi)相對(duì)于大廠和大機(jī)構(gòu)而言,OPENAI和DeepSeek等都有點(diǎn)用亂拳打死老師傅的方式逆天改命,然后開宗立派。在人工智能研發(fā)理念上DeepSeek更遵循企業(yè)邏輯,不以智能涌現(xiàn)最大化為唯一目標(biāo),而是追求高智能水平之上的綜合最優(yōu),能效比最好。OPENAI更遵循研究邏輯,盡管成本極高,但仍然以追求最大程度地涌現(xiàn)智能為唯一目標(biāo)。DeepSeek大大降低了全社會(huì)智能化的經(jīng)濟(jì)門檻,帶來了廣泛的產(chǎn)業(yè)應(yīng)用,包括金融領(lǐng)域,也推動(dòng)了眾多中小企業(yè)和ToC端應(yīng)用的興起。
DeepSeek把核心技術(shù)開源且開源模型首次達(dá)到閉源模型的性能。
這大大降低了技術(shù)門檻,推動(dòng)了高端大模型的技術(shù)平權(quán)-----從“寡頭玩物”向“普惠工具”轉(zhuǎn)變,DeepSeek大模型在各行各業(yè)本地化部署,各類平臺(tái)應(yīng)用爭(zhēng)相接入,用戶在短期內(nèi)暴增,普通百姓開始體驗(yàn)大模型。DeepSeek的開源效應(yīng)使人們認(rèn)識(shí)到開源是一種思想,是一種范式,是值得全社會(huì)重視的一種事業(yè)。
DeepSeek現(xiàn)象帶來了AI價(jià)值體系重構(gòu)。
大模型價(jià)值重估正在引領(lǐng)投資行為的調(diào)整,甚至對(duì)全球金融市場(chǎng)也產(chǎn)生影響。面向未來,投資界可能會(huì)更加積極布局高性能低成本的大模型產(chǎn)業(yè),同時(shí)也要面對(duì)過去估值體系下投資策略的一些后遺癥。
DeepSeek的成功帶給我們很多啟示,其中關(guān)鍵的是推動(dòng)行業(yè)競(jìng)爭(zhēng)邏輯發(fā)生轉(zhuǎn)變:
1.復(fù)合創(chuàng)新替代單一路徑。
模型、算力、數(shù)據(jù)三者協(xié)同突破,實(shí)現(xiàn)了模型效率的顯著提升。DeepSeek的創(chuàng)新否定了尺度定律(ScalingLaw)的單項(xiàng)思維,當(dāng)前行業(yè)對(duì)尺度定律的理解已從單一維度理解向多階段復(fù)合性理解轉(zhuǎn)變。
2.效率優(yōu)化成為競(jìng)爭(zhēng)的新維度。
DeepSeek模型在低功耗芯片、動(dòng)態(tài)資源分配等優(yōu)化能耗技術(shù)方面具有明顯優(yōu)勢(shì),這也充分展示未來軟硬件工程化創(chuàng)新對(duì)于推動(dòng)大模型可持續(xù)發(fā)展的巨大潛力。下階段大模型發(fā)展更考驗(yàn)軟硬件協(xié)同的新型開發(fā)方式與工程優(yōu)化。
3.開源生態(tài)加速技術(shù)擴(kuò)散和技術(shù)路徑分化。
閉源路線繼續(xù)追求超大規(guī)模參數(shù)和專用硬件集群;開源路線通過創(chuàng)新算法降低對(duì)算力的依賴,形成輕量化模型+社區(qū)協(xié)作的生態(tài)。
4.推動(dòng)算力需求開始進(jìn)行結(jié)構(gòu)性調(diào)整。
短期看推理成本下降可能抑制算力硬件的短期需求,長(zhǎng)期看AI的普及應(yīng)用將推動(dòng)算力總需求持續(xù)增長(zhǎng),尤其是端側(cè)部署和多模態(tài)場(chǎng)景將帶來算力需求的暴增。
通過觀察有幾點(diǎn)認(rèn)識(shí)與大家分享:
首先,DeepSeek大模型是沒有顛覆TRANSFORMER。
理論上在TRANSFORMER框架下模型參數(shù)可以無(wú)限放大,GPT1是一億參數(shù),GPT2是1.5億參數(shù),GPT3.5是1750億參數(shù),GPT4就達(dá)到了1.8萬(wàn)億了,GPT4.5沒有公布,有說法在20-100萬(wàn)億之間。大模型是目前實(shí)現(xiàn)智能涌現(xiàn)的主流形式,模型規(guī)模擴(kuò)大仍有空間,只不過參數(shù)可能不會(huì)向過去那樣暴力增長(zhǎng)。在預(yù)訓(xùn)練階段模型參數(shù)與智能涌現(xiàn)的邊際效果在下降,大概處于頂點(diǎn)之下拐點(diǎn)至上的區(qū)間。有企業(yè)在探索非TRANSFORMER 架構(gòu),能否走通有不確定性但很值得贊賞。至于有研究開發(fā)者提出探索更接近人類認(rèn)知本質(zhì)的新范式,還需假以更多時(shí)日驗(yàn)證。
其次,DeepSeek在強(qiáng)化推理方面的創(chuàng)新對(duì)延續(xù)尺度定律做出貢獻(xiàn)。
這是接著上一個(gè)問題的,尺度定律的提出最初是基于TRANSFORMER架構(gòu)的實(shí)踐,DeepSeek沒有否定尺度定律的核心邏輯---大模型規(guī)模(參數(shù)量、數(shù)據(jù)量、算力投入量)與性能的正相關(guān),而是通過效率革命拓展了應(yīng)用邊界。大模型的規(guī)模與性能與呈正相關(guān)這一規(guī)律在預(yù)訓(xùn)練階段仍被驗(yàn)證有效,但邊際效果下降引發(fā)人們對(duì)尺度定律還能延續(xù)多久的擔(dān)憂,而是以DeepSeek為代表的模型強(qiáng)化訓(xùn)練方法提升長(zhǎng)鏈推理能力,在后訓(xùn)練階段開啟智能涌現(xiàn)通道,使尺度定律繼續(xù)驅(qū)動(dòng)大模型性能提升。DeepSeek的顛覆性源于對(duì)尺度定律的工程優(yōu)化而非理論的否定,對(duì)尺度定律持批判態(tài)度的楊立昆也并不完全否定其價(jià)值,還是認(rèn)可數(shù)據(jù)與模型平衡的重要性,當(dāng)然他更強(qiáng)調(diào)需結(jié)合新架構(gòu)突破。
第三,從摩爾定律(芯片)到尺度定律(大模型)的技術(shù)革命通道軌跡表明重大技術(shù)突破往往呈現(xiàn)基礎(chǔ)理論與應(yīng)用工程的交替式上升。
半導(dǎo)體革命中摩爾定律(觀察的理論)與FINFET晶體管(工程創(chuàng)新)就是共生演進(jìn),晶體管進(jìn)入納米尺度后熱管理和信號(hào)的完整性遇到了挑戰(zhàn),胡正明先生發(fā)明了三維魚鰭結(jié)構(gòu)是一項(xiàng)革命性的工程優(yōu)化技術(shù),這個(gè)發(fā)明為延續(xù)摩爾定律作出了重要貢獻(xiàn)。現(xiàn)在AI發(fā)展中又有尺度定律(經(jīng)驗(yàn)規(guī)律)與MOE(混合專家專家模型)、MLA(多頭潛在注意力機(jī)制)的工程創(chuàng)新交叉推進(jìn)。DeepSeek尚未形成顛覆性的理論框架,也沒有底層理論突破,但其MOE(混合專家模型)和MLA(多頭潛在注意力機(jī)制)等架構(gòu)創(chuàng)新、多信息單元(TOKEN)預(yù)測(cè)的訓(xùn)練方法,以及結(jié)合底層硬件指令PTX語(yǔ)言的軟硬件協(xié)同優(yōu)化創(chuàng)新,實(shí)現(xiàn)了模型效率的顯著提升,證實(shí)了當(dāng)理論擴(kuò)展遇到物理極限時(shí),工程創(chuàng)新能打開新的空間。這種理論與工程交替式上升也符合近80多年來科研范式演進(jìn)的結(jié)果:從萬(wàn)尼瓦爾.布什的基礎(chǔ)研究---應(yīng)用研究---試驗(yàn)發(fā)展的“線性模式”,到斯托克斯由應(yīng)用引發(fā)基礎(chǔ)研究的巴斯德“象限模式”,再到文卡特希的發(fā)明---發(fā)現(xiàn)的“循環(huán)模式”,認(rèn)識(shí)到這一點(diǎn)對(duì)于形成中國(guó)特色的科研組織和研發(fā)模式意義重大。因此,科技發(fā)展進(jìn)程中可能理論指導(dǎo)和工程優(yōu)化作用的權(quán)重在某一階段會(huì)出現(xiàn)偏重哪一邊的問題,但我們一定不能偏廢哪一邊。
第四,未來大模型技術(shù)的發(fā)展將長(zhǎng)期處于尺度定律和效率革命的動(dòng)態(tài)平衡中。
對(duì)于堆砌大參數(shù)、對(duì)大算力的反思不能走向另一個(gè)極端,認(rèn)為算力可以松口氣了。算力是個(gè)好東西,是智能社會(huì)最重要的基礎(chǔ)設(shè)施,我們跟美國(guó)的算力水平差距仍然比較大,必須深耕算力不能放松。過去訓(xùn)練階段的算力占比較大,現(xiàn)在大量應(yīng)用以后推理生成占用算力資源大幅度提升,有人甚至講占95%以上。算力不足仍然是我們需要面對(duì)的最重要的問題,不能被所謂的“小力出奇跡”帶偏了。孫正義提出,未來12-18個(gè)月內(nèi)會(huì)出現(xiàn)三個(gè)10倍,芯片產(chǎn)量提高10倍,模型性能提高10倍,計(jì)算能力提高10倍,是他們提出“星際之門”計(jì)劃的基礎(chǔ)依據(jù)。DeepSeek開始提升了國(guó)產(chǎn)GPU的地位和使用面,我們要堅(jiān)持探索國(guó)產(chǎn)算力芯片自主可控路徑,探索通算、智算、超算、量算協(xié)同發(fā)揮作用。盡快建立以國(guó)產(chǎn)GPU為主的超級(jí)智算集群,探索有效和穩(wěn)定的異構(gòu)算力體系,雖然面臨技術(shù)挑戰(zhàn)但對(duì)AI產(chǎn)業(yè)發(fā)展至關(guān)重要。
第五,DeepSeek在金融領(lǐng)域的應(yīng)用必將大放異彩。
DeepSeek已經(jīng)在全球形成了技術(shù)路線上一定的共識(shí),在金融領(lǐng)域的廣泛應(yīng)用正在推動(dòng)金融工程從“少數(shù)機(jī)構(gòu)專屬”轉(zhuǎn)向普惠化的“生態(tài)共建”;正在推動(dòng)傳統(tǒng)金融工程依賴的統(tǒng)計(jì)模型升級(jí)為因果推理+實(shí)時(shí)知識(shí)更新的復(fù)合架構(gòu),長(zhǎng)期存在的形式合規(guī)掩蓋實(shí)質(zhì)風(fēng)險(xiǎn)控制的難題將得到緩解。
DeepSeek在金融領(lǐng)域的應(yīng)用由于其因果鏈可視化而可解釋性、可信度更強(qiáng)。DeepSeek的技術(shù)架構(gòu)(尤其是多模態(tài)推理+輕量化部署)與金融行業(yè)數(shù)據(jù)驅(qū)動(dòng)強(qiáng)、合規(guī)要求嚴(yán)、安全標(biāo)準(zhǔn)高、實(shí)時(shí)性敏感的特性形成深度耦合,未來可能在實(shí)時(shí)高頻交易、監(jiān)管技術(shù)與模式等領(lǐng)域,成為替代傳統(tǒng)規(guī)則引擎的技術(shù)變量。DeepSeek落地需要突破金融數(shù)據(jù)閉環(huán)生態(tài)與可解釋之間的平衡難題,還有能否在人機(jī)協(xié)同、數(shù)據(jù)安全與效率之間找到平衡點(diǎn)也將是機(jī)構(gòu)之間競(jìng)爭(zhēng)的一個(gè)焦點(diǎn)。這里有一點(diǎn)值得重視,就是構(gòu)建金融知識(shí)圖譜,整合企業(yè)股權(quán)結(jié)構(gòu)、供應(yīng)鏈關(guān)系等非結(jié)構(gòu)化數(shù)據(jù),建立風(fēng)險(xiǎn)傳導(dǎo)的路徑,比如企業(yè)發(fā)生資金鏈斷裂和信用危機(jī)對(duì)上下游企業(yè)的連鎖影響。
總之,DeepSeek模型出道即巔峰影響了全球,DeepSeek現(xiàn)象更是在國(guó)內(nèi)形成了高度的文化共識(shí),極大地增強(qiáng)了全民的創(chuàng)新自信。中國(guó)是全球最大的文化共識(shí)單體市場(chǎng),從DeepSeek和哪吒迅速火爆就能反映出文化共識(shí)對(duì)市場(chǎng)規(guī)模形成的巨大影響。金融業(yè)過去在淺人工智能和大模型的應(yīng)用上做了很多探索,對(duì)行業(yè)發(fā)展和效率提升發(fā)揮了重要作用。DeepSeek正在形成新的應(yīng)用浪潮,中國(guó)當(dāng)前也不是DeepSeek一家在戰(zhàn)斗,而是有一群DeepSeek。過去有句老話“所有的行業(yè)都值得用AI重做一遍”,我引申一下,“所有用過AI的行業(yè)都值得用DeepSeek們重做一遍”,相信接下來DeepSeek們必將在國(guó)內(nèi)的金融業(yè)開枝散葉。
本文為全國(guó)政協(xié)委員、科學(xué)技術(shù)部原副部長(zhǎng)李萌在3月2日“DeepSeek在金融行業(yè)的實(shí)踐與展望”閉門研討會(huì)上所作的專家點(diǎn)評(píng)。文章觀點(diǎn)不代表主辦機(jī)構(gòu)立場(chǎng)。
◆ ◆ ◆
編輯郵箱:sciencepie@126.com
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.