“我們塑造了工具,此后工具也塑造了我們。”
AI大模型帶來的智能革命,媲美工業革命和電力革命,深刻改變人類社會的生產生活方式,是開啟智能時代的那一臺“蒸汽機”。
從文生文到文生圖,再到文生視頻,以ChatGPT、Sora等為代表的大模型引領了全球人工智能技術與產業的新一輪浪潮,海內外大模型相關研究與產品競相涌現、加速迭代,進入“百舸爭流”的新時代。
不過,人工智能領域似乎進入了一個微妙的節點,眾多科技巨頭和創業公司紛紛推出自己的AI大模型產品,卻難掩同質化的窘境。回顧2023年,自3月份ChatGPT-4上線后,國內科技企業紛紛跑步入場。百度“文心一言”、阿里巴巴“通義千問”、華為“盤古”、360“智腦”、昆侖萬維“天工”、京東“靈犀”、科大訊飛“星火”、騰訊“混元”、商湯“日日新” 等大模型先后登場。截至今年5月,國內已經推出超過300個大模型。其中,10億參數規模以上的大模型已超100個。
無論是何種類型的大模型,在“百模大戰”的背景下,其功能、用途、場景都難免重復。但在業內人士看來,大模型的發展還遠未觸及天花板,不僅“百模大戰”不是終點,“萬模群舞”或許就在不遠的將來。
AI大模型過剩了嗎?
近兩年來,大模型技術呈現爆發式的增長,而且在各個研究領域和實踐任務上都取得了矚目成果,諸多科技巨頭公司也紛紛投身于大模型的浪潮之中。
在最早應用大模型的自然語言處理(NLP)領域,OpenAI推出了擁有1750億個參數的ChatGPT,這一行動激發了一系列的應用熱潮:微軟將ChatGPT接入了其搜索引擎Bing;谷歌推出了自家的語言大模型PaLM和對話模型Bard,并且已經開始了PaLM2的研發;我國百度、字節跳動、華為等公司也積極推出了自己的語言大模型。
在NLP大模型取得了巨大成功的鼓舞下,其他領域也涌現出了大模型的身影。在語音識別領域,OpenAI和谷歌分別推出了擁有15億參數的Whisper模型和20億參數的USM模型,而微軟則推出了能夠在幾秒鐘內準確模仿任何人說話聲音和語調的語音生成模型VALL-E;在視覺領域,基于大模型工作的GPT-4和OpenCLIP進行了語音和視覺的跨模態訓練,使得這些模型能夠用自然語言的方式去理解圖片。
此外,谷歌和臉書公司也各自采用了監督學習和非監督學習的方式,分別訓練了220億參數和65億參數的Vision Transformer視覺大模型,這些模型在性能上大大超越了參數數量更少的模型;在強化學習領域,谷歌和DeepMind公司開發的PaLM-E和Gato,也開始探索和實驗強化學習大模型的可能性。
從去年開始,中國涌現出大量的行業大模型。這種現象背后隱含的一個事實是:打造行業大模型的技術門檻相對較低。隨著開源技術的普及,技術上的壁壘逐漸被打破。許多優質的預訓練技術、框架和工具已經被廣大研發者和機構所采納和使用。相對于開發一個全新的大模型,微調現有的通用大模型更為簡單快捷,只需要大量、高質量的行業數據即可。
打造一個強大的通用大模型卻是一項長期且復雜的任務,這需要巨大的計算資源、多樣化的數據和深厚的技術積累。因此,相比之下,行業大模型的產生,就顯得更為便捷了。
但這種便捷性帶來的是雙刃劍效應。大量涌現的所謂行業大模型,并不具備真正的競爭壁壘。技術上,它們大多基于相似的開源技術和通用大模型進行微調,很少有真正的技術創新。數據上,盡管行業數據是關鍵,但許多企業并沒有真正挖掘、整合和利用這些數據的能力,使得其微調的效果并不理想。
事實上,底層通用大模型的每次迭代,都將“淹沒”一大批所謂的行業大模型。大模型技術的快速迭代就是一個典型的例子,每次通用大模型的升級都使其前一代的技術變得陳舊。
以OpenAI的GPT系列為例,從GPT到GPT-4,每當OpenAI發布一個新版本,它都會因為更多的參數、更先進的算法和更高的性能,使前一版本相形見絀。而這種進化不僅僅局限于通用模型,實際上,它更多地影響到了基于前一代模型微調出的行業大模型。
試想,一個企業可能已經投入大量資源在GPT-3上,開發出一套專門為醫療領域設計的AI系統。但當GPT-4問世時,這家企業突然發現,他們的專業系統在新的通用模型面前相對落后,甚至可能不如直接使用GPT-4的效果。這就是因為,每次通用大模型的迭代都意味著一個巨大的技術飛躍,其對特定任務的處理能力會顯著增強。
值得深思的是,中國在AI領域已取得了許多值得驕傲的成果。然而,與國外相比,中國在AI大模型的算法創新和理論研究上仍存在差距。尤其是美國在AI大模型的基礎算法和架構創新方面領先,例如Transformer模型和BERT等創新技術,對全球AI發展產生了深遠影響。
這對于中國的技術界來說是一個挑戰,也是一個機會。挑戰在于如何在短時間內彌補這一差距,機會則在于一旦做到,國內的行業大模型將能夠站在一個更高的起點。
要卷應用,不要卷模型
也有一種觀點認為,不要重復造輪子,AI十倍的機會在別處。百度董事長兼CEO李彥宏此前曾表示:“重新做一個ChatGPT沒有多大意義。基于語言大模型開發應用機會很大,但沒有必要再重新發明一遍輪子。”
今年7月,李彥宏在2024世界人工智能大會呼吁:“不要卷模型,要卷應用!”。他認為,AI技術已經從辨別式轉向了生成式,但技術本身并不是目的,真正的價值在于如何將這些技術應用于實際場景,解決實際問題。
通用大模型發展至今,面臨算力需求大、訓練和推理成本高、數據質量不佳等挑戰。一個成功的且可對外商業化輸出的通用大模型,要求廠商擁有全棧大模型訓練與研發能力、業務場景落地經驗、AI安全治理舉措、以及生態開放性等核心優勢。
另外,訓練基礎模型的成本也是非常之高,做一個千億級的大模型,需要單機群萬卡以上的算力。從國內外來看,真正做通用模型的公司并沒有那么多。相反,訓練垂直領域模型所需要的代價和資源遠遠小于從零開始做通用模型。
因而,從商業邏輯的角度來看,大部分公司不具備做通用大模型的能力,巨頭更適合做通用大模型,擁有豐富場景數據積累的公司更適合做垂域模型或者AI原生應用。
AI原生應用開發的具體思路主要包含三個方面。
首先是MoE(Mixture-of-Experts,專家混合),其前身是“集成學習”,作為一種由專家模型和門控模型組成稀疏門控制的深度學習技術,MoE由多個子模型(即專家)組成,每個子模型都是一個局部模型,專門處理輸入空間的一個子集。在“分而治之”的核心思想指導下,MoE使用門控網絡來決定每個數據應該被哪個模型去訓練,從而減輕不同類型樣本之間的干擾。
通俗來講,MoE就像復仇者聯盟,每個子模型(專家)都是一個超級英雄,門控網絡則是尼克·弗瑞,負責協調各個超級英雄,決定在什么情況下召喚哪位英雄。之后選擇最合適的專家進行處理,并將各位專家的輸出匯總起來,給出最終的答案。
需要強調的是,MoE不是通常意義上的學術概念,更準確地說,是大小模型的混用,不依賴一個模型來解決所有問題。什么時候調用小模型、什么時候調用大模型、什么時候不調用模型,需要針對應用的不同場景做匹配。
其次是小模型。相比大模型,小模型推理成本低,響應速度快,在一些特定場景中,經過SFT精調(在一個已經訓練好的模型基礎上,通過進一步訓練模型的一部分參數,以適應新的任務或數據集)后的小模型,使用效果可以媲美大模型。小模型的獨特價值在于通過大模型,壓縮蒸餾出來一個基礎模型,然后再用數據去訓練,這比從頭開始訓小模型,效果要好很多,比基于開源模型訓練出來的模型效果更好、速度更快、成本更低。
第三是智能體。智能體以云為基礎,以AI為核心,構建一個立體感知、全域協同、精準判斷、持續進化、開放的智能系統。智能體能力提升會不斷催生出大量新應用。智能體機制,包括理解、規劃、反思和進化,它讓機器像人一樣思考和行動,可以自主完成復雜任務,在環境中持續學習、實現自我迭代和進化。
智能體還有一個特點,在一些復雜系統中,可以讓不同智能體互動,形成群體智能,通過相互協作,更高質量地完成任務,這就好比一個無人機群,可以完成一架無人機難以完成的工作。當前火熱的車路云一體化也可以借助群體智能,賦予城市交通協同感知、協同計算、融合決策等能力,從而助力整個城市的交通效率實現全局最優。
AI Infra將是下一個應用熱點?
每個科技巨頭都希望在自己的生態中形成閉環,一定程度上也是因為整個國內開源的生態不夠強大。
目前,大模型產業鏈大致可以分為數據準備、模型構建、模型產品三個層次。在國外,AI大模型的產業鏈比較成熟,形成了數量眾多的AI Infra(架構)公司,但這一塊市場在國內還相對空白。
而在國內,巨頭們都有一套自己的訓練架構。
比如,華為的模型采用的是三層架構,其底層屬于通識性大模型,具備超強的魯棒性的泛化性,在這之上是行業大模型和針對具體場景和工作流程的部署模型。這種構架的好處是,當訓練好的大模型部署到垂類行業時,可以不必再重復訓練,成本僅是上一層的5%~7%。
阿里則是為AI打造了一個統一底座,無論是CV、NLP、還是文生圖大模型都可以放進去這個統一底座中訓練,阿里訓練M6大模型需要的能耗僅是GPT-3的1%。
百度和騰訊也有相應的布局,百度擁有覆蓋超50億實體的中文知識圖譜,騰訊的熱啟動課程學習可以將萬億大模型的訓練成本降低到冷啟動的八分之一。
整體來看,各個大廠之間的側重點雖然有所不同,但主要特點就是降本增效,而能夠實現這一點,很大程度上就是受益于“一手包辦”的閉環訓練體系。
反觀國外,成熟的AI產業鏈形成了數量眾多的AI Infra公司。如果用云計算三層構架做類比,AI Infra與PaaS層級相似,是鏈接算力和應用的中間層基礎設施,包括硬件、軟件、工具鏈和優化方法等,為大模型應用開發提供一站式模型算力部署和開發工具平臺。算力、算法、數據可以看作IaaS層,各種開源和閉源模型則是SaaS在大模型時代的新演變,即MaaS。
如果把開發AI應用看成建房子,那么AI Infra就是提供水泥鋼筋的施工隊。AI Infra施工隊的價值點在于它是一個集成平臺,將下層的算力芯片層與上層的AI應用層打通,讓開發者實現一鍵調用,并且實現降低算力成本、提升開發效率并且保持模型優秀性能的效果。
讓應用更簡單,讓AI落地更便捷,是AI Infra的使命。可以說,AI應用的市場有多大,AI Infra的機會就有多大。
AI Infra公司有的專門做數據標注、做數據質量、或者模型架構等。這些企業的專業性,能夠讓他們在某一個單一環節的效率、成本、質量上都要比大廠親自下場做得更好。
比如,數據質量公司Anomalo就是Google Cloud和Notion的供應商,它可以通過ML自動評估和通用化數據質量檢測能力,來實現數據深度觀察和數據質量檢測。
這些公司就像汽車行業的Tier 1,通過專業的分工,能夠讓大模型企業不必重復造輪子,而只需要通過整合供應商資源,就能快速地搭建起自己模型構架,從而降低成本。
但國內在這一方面并不成熟,原因在于:一方面國內大模型的主要玩家都是大廠,他們都有一套自己的訓練體系,外部供應商幾乎沒有機會進入;另一方面,國內也缺乏足夠龐大的創業生態和中小企業,AI供應商也很難在大廠之外找到生存的空間。
以谷歌為例,谷歌愿意將自己訓練的數據結果分享給它的數據質量供應商,幫助供應商提高數據處理能力,供應商能力提升之后,又會反過來給谷歌提供更多高質量數據,從而形成一種良性循環。
國內AI Infra生態的不足,直接導致的就是大模型創業門檻的拔高。如果將在中國做大模型比喻成吃上一頓熱乎飯,那必須從挖地、種菜開始。目前,在AI 2.0的熱潮中,一個重要的特點就是“兩極化”:最熱門的要么是大模型層、要么就是應用層。而類似AI Infra的中間層,反而是很大的真空地帶,也可能是下一個機遇所在。
伴隨AI應用的快速發展,未來誰能夠為多樣化的應用場景提供高效便捷的大模型一站式部署方案,誰就有可能在這場競爭中勝出。而這其中,底層技術、中層平臺、上層應用缺一不可,只有讓各方面能力得到更全面、均衡地發展,才能在AI之路上走得更遠、更穩健。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.