網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

李萌：關(guān)于DeepSeek大模型以及在金融業(yè)應(yīng)用的幾點(diǎn)思考

2025-03-14 18:41:03　來源: 三思派

上海舉報(bào)

分享至

李萌

全國(guó)政協(xié)委員、科學(xué)技術(shù)部原副部長(zhǎng)

聽了專家和各金融機(jī)構(gòu)的介紹很受鼓舞也很受啟發(fā)。金融業(yè)在引入DeepSeek時(shí)間不長(zhǎng)，但形成了很多應(yīng)用場(chǎng)景，無(wú)論是金融巨頭還是中小機(jī)構(gòu)在態(tài)勢(shì)感知、智能風(fēng)控、流程重塑、服務(wù)優(yōu)化、投研決策、業(yè)務(wù)創(chuàng)新（人機(jī)協(xié)同）等多種場(chǎng)景上做的各有特色。目前應(yīng)用剛剛起步相信會(huì)漸入佳境。這反映了金融業(yè)的敏銳眼光、技術(shù)積淀、業(yè)務(wù)積累和對(duì)大模型技術(shù)發(fā)展趨勢(shì)的把握。

DeepSeek技術(shù)在模型架構(gòu)、訓(xùn)練策略和開源等方面的創(chuàng)新，意義重大，影響深刻。DeepSeek現(xiàn)象從技術(shù)層面、應(yīng)用層面、影響層面、甚至從文化層面都是值得討論的。

DeepSeek的架構(gòu)創(chuàng)新、軟硬件優(yōu)化和訓(xùn)練策略開啟了一場(chǎng)效率革命。

其實(shí)在業(yè)內(nèi)相對(duì)于大廠和大機(jī)構(gòu)而言，OPENAI和DeepSeek等都有點(diǎn)用亂拳打死老師傅的方式逆天改命，然后開宗立派。在人工智能研發(fā)理念上DeepSeek更遵循企業(yè)邏輯，不以智能涌現(xiàn)最大化為唯一目標(biāo)，而是追求高智能水平之上的綜合最優(yōu)，能效比最好。OPENAI更遵循研究邏輯，盡管成本極高，但仍然以追求最大程度地涌現(xiàn)智能為唯一目標(biāo)。DeepSeek大大降低了全社會(huì)智能化的經(jīng)濟(jì)門檻，帶來了廣泛的產(chǎn)業(yè)應(yīng)用，包括金融領(lǐng)域，也推動(dòng)了眾多中小企業(yè)和ToC端應(yīng)用的興起。

DeepSeek把核心技術(shù)開源且開源模型首次達(dá)到閉源模型的性能。

這大大降低了技術(shù)門檻，推動(dòng)了高端大模型的技術(shù)平權(quán)-----從“寡頭玩物”向“普惠工具”轉(zhuǎn)變，DeepSeek大模型在各行各業(yè)本地化部署，各類平臺(tái)應(yīng)用爭(zhēng)相接入，用戶在短期內(nèi)暴增，普通百姓開始體驗(yàn)大模型。DeepSeek的開源效應(yīng)使人們認(rèn)識(shí)到開源是一種思想，是一種范式，是值得全社會(huì)重視的一種事業(yè)。

DeepSeek現(xiàn)象帶來了AI價(jià)值體系重構(gòu)。

大模型價(jià)值重估正在引領(lǐng)投資行為的調(diào)整，甚至對(duì)全球金融市場(chǎng)也產(chǎn)生影響。面向未來，投資界可能會(huì)更加積極布局高性能低成本的大模型產(chǎn)業(yè)，同時(shí)也要面對(duì)過去估值體系下投資策略的一些后遺癥。

DeepSeek的成功帶給我們很多啟示，其中關(guān)鍵的是推動(dòng)行業(yè)競(jìng)爭(zhēng)邏輯發(fā)生轉(zhuǎn)變：

1.復(fù)合創(chuàng)新替代單一路徑。

模型、算力、數(shù)據(jù)三者協(xié)同突破，實(shí)現(xiàn)了模型效率的顯著提升。DeepSeek的創(chuàng)新否定了尺度定律（ScalingLaw）的單項(xiàng)思維，當(dāng)前行業(yè)對(duì)尺度定律的理解已從單一維度理解向多階段復(fù)合性理解轉(zhuǎn)變。

2.效率優(yōu)化成為競(jìng)爭(zhēng)的新維度。

DeepSeek模型在低功耗芯片、動(dòng)態(tài)資源分配等優(yōu)化能耗技術(shù)方面具有明顯優(yōu)勢(shì)，這也充分展示未來軟硬件工程化創(chuàng)新對(duì)于推動(dòng)大模型可持續(xù)發(fā)展的巨大潛力。下階段大模型發(fā)展更考驗(yàn)軟硬件協(xié)同的新型開發(fā)方式與工程優(yōu)化。

3.開源生態(tài)加速技術(shù)擴(kuò)散和技術(shù)路徑分化。

閉源路線繼續(xù)追求超大規(guī)模參數(shù)和專用硬件集群；開源路線通過創(chuàng)新算法降低對(duì)算力的依賴，形成輕量化模型+社區(qū)協(xié)作的生態(tài)。

4.推動(dòng)算力需求開始進(jìn)行結(jié)構(gòu)性調(diào)整。

短期看推理成本下降可能抑制算力硬件的短期需求，長(zhǎng)期看AI的普及應(yīng)用將推動(dòng)算力總需求持續(xù)增長(zhǎng)，尤其是端側(cè)部署和多模態(tài)場(chǎng)景將帶來算力需求的暴增。

通過觀察有幾點(diǎn)認(rèn)識(shí)與大家分享：

首先，DeepSeek大模型是沒有顛覆TRANSFORMER。

理論上在TRANSFORMER框架下模型參數(shù)可以無(wú)限放大，GPT1是一億參數(shù)，GPT2是1.5億參數(shù)，GPT3.5是1750億參數(shù)，GPT4就達(dá)到了1.8萬(wàn)億了，GPT4.5沒有公布，有說法在20-100萬(wàn)億之間。大模型是目前實(shí)現(xiàn)智能涌現(xiàn)的主流形式，模型規(guī)模擴(kuò)大仍有空間，只不過參數(shù)可能不會(huì)向過去那樣暴力增長(zhǎng)。在預(yù)訓(xùn)練階段模型參數(shù)與智能涌現(xiàn)的邊際效果在下降，大概處于頂點(diǎn)之下拐點(diǎn)至上的區(qū)間。有企業(yè)在探索非TRANSFORMER 架構(gòu)，能否走通有不確定性但很值得贊賞。至于有研究開發(fā)者提出探索更接近人類認(rèn)知本質(zhì)的新范式，還需假以更多時(shí)日驗(yàn)證。

其次，DeepSeek在強(qiáng)化推理方面的創(chuàng)新對(duì)延續(xù)尺度定律做出貢獻(xiàn)。

這是接著上一個(gè)問題的，尺度定律的提出最初是基于TRANSFORMER架構(gòu)的實(shí)踐，DeepSeek沒有否定尺度定律的核心邏輯---大模型規(guī)模（參數(shù)量、數(shù)據(jù)量、算力投入量）與性能的正相關(guān)，而是通過效率革命拓展了應(yīng)用邊界。大模型的規(guī)模與性能與呈正相關(guān)這一規(guī)律在預(yù)訓(xùn)練階段仍被驗(yàn)證有效，但邊際效果下降引發(fā)人們對(duì)尺度定律還能延續(xù)多久的擔(dān)憂，而是以DeepSeek為代表的模型強(qiáng)化訓(xùn)練方法提升長(zhǎng)鏈推理能力，在后訓(xùn)練階段開啟智能涌現(xiàn)通道，使尺度定律繼續(xù)驅(qū)動(dòng)大模型性能提升。DeepSeek的顛覆性源于對(duì)尺度定律的工程優(yōu)化而非理論的否定，對(duì)尺度定律持批判態(tài)度的楊立昆也并不完全否定其價(jià)值，還是認(rèn)可數(shù)據(jù)與模型平衡的重要性，當(dāng)然他更強(qiáng)調(diào)需結(jié)合新架構(gòu)突破。

第三，從摩爾定律（芯片）到尺度定律（大模型）的技術(shù)革命通道軌跡表明重大技術(shù)突破往往呈現(xiàn)基礎(chǔ)理論與應(yīng)用工程的交替式上升。

半導(dǎo)體革命中摩爾定律（觀察的理論）與FINFET晶體管（工程創(chuàng)新）就是共生演進(jìn)，晶體管進(jìn)入納米尺度后熱管理和信號(hào)的完整性遇到了挑戰(zhàn)，胡正明先生發(fā)明了三維魚鰭結(jié)構(gòu)是一項(xiàng)革命性的工程優(yōu)化技術(shù)，這個(gè)發(fā)明為延續(xù)摩爾定律作出了重要貢獻(xiàn)。現(xiàn)在AI發(fā)展中又有尺度定律（經(jīng)驗(yàn)規(guī)律）與MOE（混合專家專家模型）、MLA（多頭潛在注意力機(jī)制）的工程創(chuàng)新交叉推進(jìn)。DeepSeek尚未形成顛覆性的理論框架，也沒有底層理論突破，但其MOE（混合專家模型）和MLA（多頭潛在注意力機(jī)制）等架構(gòu)創(chuàng)新、多信息單元（TOKEN）預(yù)測(cè)的訓(xùn)練方法，以及結(jié)合底層硬件指令PTX語(yǔ)言的軟硬件協(xié)同優(yōu)化創(chuàng)新，實(shí)現(xiàn)了模型效率的顯著提升，證實(shí)了當(dāng)理論擴(kuò)展遇到物理極限時(shí)，工程創(chuàng)新能打開新的空間。這種理論與工程交替式上升也符合近80多年來科研范式演進(jìn)的結(jié)果：從萬(wàn)尼瓦爾.布什的基礎(chǔ)研究---應(yīng)用研究---試驗(yàn)發(fā)展的“線性模式”，到斯托克斯由應(yīng)用引發(fā)基礎(chǔ)研究的巴斯德“象限模式”，再到文卡特希的發(fā)明---發(fā)現(xiàn)的“循環(huán)模式”，認(rèn)識(shí)到這一點(diǎn)對(duì)于形成中國(guó)特色的科研組織和研發(fā)模式意義重大。因此，科技發(fā)展進(jìn)程中可能理論指導(dǎo)和工程優(yōu)化作用的權(quán)重在某一階段會(huì)出現(xiàn)偏重哪一邊的問題，但我們一定不能偏廢哪一邊。

第四，未來大模型技術(shù)的發(fā)展將長(zhǎng)期處于尺度定律和效率革命的動(dòng)態(tài)平衡中。

對(duì)于堆砌大參數(shù)、對(duì)大算力的反思不能走向另一個(gè)極端，認(rèn)為算力可以松口氣了。算力是個(gè)好東西，是智能社會(huì)最重要的基礎(chǔ)設(shè)施，我們跟美國(guó)的算力水平差距仍然比較大，必須深耕算力不能放松。過去訓(xùn)練階段的算力占比較大，現(xiàn)在大量應(yīng)用以后推理生成占用算力資源大幅度提升，有人甚至講占95%以上。算力不足仍然是我們需要面對(duì)的最重要的問題，不能被所謂的“小力出奇跡”帶偏了。孫正義提出，未來12-18個(gè)月內(nèi)會(huì)出現(xiàn)三個(gè)10倍，芯片產(chǎn)量提高10倍，模型性能提高10倍，計(jì)算能力提高10倍，是他們提出“星際之門”計(jì)劃的基礎(chǔ)依據(jù)。DeepSeek開始提升了國(guó)產(chǎn)GPU的地位和使用面，我們要堅(jiān)持探索國(guó)產(chǎn)算力芯片自主可控路徑，探索通算、智算、超算、量算協(xié)同發(fā)揮作用。盡快建立以國(guó)產(chǎn)GPU為主的超級(jí)智算集群，探索有效和穩(wěn)定的異構(gòu)算力體系，雖然面臨技術(shù)挑戰(zhàn)但對(duì)AI產(chǎn)業(yè)發(fā)展至關(guān)重要。

第五，DeepSeek在金融領(lǐng)域的應(yīng)用必將大放異彩。

DeepSeek已經(jīng)在全球形成了技術(shù)路線上一定的共識(shí)，在金融領(lǐng)域的廣泛應(yīng)用正在推動(dòng)金融工程從“少數(shù)機(jī)構(gòu)專屬”轉(zhuǎn)向普惠化的“生態(tài)共建”；正在推動(dòng)傳統(tǒng)金融工程依賴的統(tǒng)計(jì)模型升級(jí)為因果推理+實(shí)時(shí)知識(shí)更新的復(fù)合架構(gòu)，長(zhǎng)期存在的形式合規(guī)掩蓋實(shí)質(zhì)風(fēng)險(xiǎn)控制的難題將得到緩解。

DeepSeek在金融領(lǐng)域的應(yīng)用由于其因果鏈可視化而可解釋性、可信度更強(qiáng)。DeepSeek的技術(shù)架構(gòu)（尤其是多模態(tài)推理+輕量化部署）與金融行業(yè)數(shù)據(jù)驅(qū)動(dòng)強(qiáng)、合規(guī)要求嚴(yán)、安全標(biāo)準(zhǔn)高、實(shí)時(shí)性敏感的特性形成深度耦合，未來可能在實(shí)時(shí)高頻交易、監(jiān)管技術(shù)與模式等領(lǐng)域，成為替代傳統(tǒng)規(guī)則引擎的技術(shù)變量。DeepSeek落地需要突破金融數(shù)據(jù)閉環(huán)生態(tài)與可解釋之間的平衡難題，還有能否在人機(jī)協(xié)同、數(shù)據(jù)安全與效率之間找到平衡點(diǎn)也將是機(jī)構(gòu)之間競(jìng)爭(zhēng)的一個(gè)焦點(diǎn)。這里有一點(diǎn)值得重視，就是構(gòu)建金融知識(shí)圖譜，整合企業(yè)股權(quán)結(jié)構(gòu)、供應(yīng)鏈關(guān)系等非結(jié)構(gòu)化數(shù)據(jù)，建立風(fēng)險(xiǎn)傳導(dǎo)的路徑，比如企業(yè)發(fā)生資金鏈斷裂和信用危機(jī)對(duì)上下游企業(yè)的連鎖影響。

總之，DeepSeek模型出道即巔峰影響了全球，DeepSeek現(xiàn)象更是在國(guó)內(nèi)形成了高度的文化共識(shí)，極大地增強(qiáng)了全民的創(chuàng)新自信。中國(guó)是全球最大的文化共識(shí)單體市場(chǎng)，從DeepSeek和哪吒迅速火爆就能反映出文化共識(shí)對(duì)市場(chǎng)規(guī)模形成的巨大影響。金融業(yè)過去在淺人工智能和大模型的應(yīng)用上做了很多探索，對(duì)行業(yè)發(fā)展和效率提升發(fā)揮了重要作用。DeepSeek正在形成新的應(yīng)用浪潮，中國(guó)當(dāng)前也不是DeepSeek一家在戰(zhàn)斗，而是有一群DeepSeek。過去有句老話“所有的行業(yè)都值得用AI重做一遍”，我引申一下，“所有用過AI的行業(yè)都值得用DeepSeek們重做一遍”，相信接下來DeepSeek們必將在國(guó)內(nèi)的金融業(yè)開枝散葉。

本文為全國(guó)政協(xié)委員、科學(xué)技術(shù)部原副部長(zhǎng)李萌在3月2日“DeepSeek在金融行業(yè)的實(shí)踐與展望”閉門研討會(huì)上所作的專家點(diǎn)評(píng)。文章觀點(diǎn)不代表主辦機(jī)構(gòu)立場(chǎng)。

◆ ◆ ◆

編輯郵箱：sciencepie@126.com

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.