大模型競爭的下半場將是從閉源過渡到基于開源,如今優秀的開源模型能力已達到全球領先閉源模型能力的80%甚至更高,但成本卻是閉源模型的1/20甚至更低,未來場景里或多或少會選擇基于開源的模型。
文|趙建琳
ID | BMR2004
在人工智能領域越發激烈的競爭中,圍繞大模型開源還是閉源的討論,已成為各家企業博弈的一個縮影。
曾出于商業競爭和安全考慮選擇做閉源模型的OpenAI,在2025年2月初再次發生轉向,其CEO薩姆·奧爾特曼(Sam Altman)表示,公司的閉源策略“站在了歷史的錯誤一邊”。OpenAI曾經是一家致力于開源人工智能技術的公司,但自2020年發布GPT-3模型以來,它開始轉向了閉源。同樣在2月,百度宣布文心一言于4月1日0時起全面免費,同時,3月16日推出的文心大模型4.5系列也將開源。而在2024年,百度CEO李彥宏一度堅持閉源模型在性能和成本上更具優勢,如今他的想法也發生了改變。
近日,《商學院》雜志與中國信通院云計算與大數據研究所所長何寶宏進行了一場訪談,請他聊聊當前大模型開閉源之爭的本質與規律。何寶宏的本碩博求學之路都在計算機相關專業學習中度過,但在專業研究之余,他愛讀歷史、哲學類書籍,這些人文社科書籍幫他豐富了看待問題的視角。何寶宏說:“研究技術不能只看技術本身,這樣會被局限住,要適當跳出來,從更廣的視野去看,一切就會豁然開朗。”
中國信通院云計算與大數據研究所所長何寶宏
01
“優先變現還是優先拓市場”?
提文:開源的商業模式與互聯網早期“燒錢”鋪市場的商業模式高度相似,歷史總是變換著外衣在“重復”。
研究技術多年,何寶宏深深體會到,任何事物的相似性與差異性都取決于我們從怎樣的視角去觀察它。“當你把鏡頭拉近,再相似的兩個事物都能從中發現差異;當你把鏡頭拉遠,再不同的兩個事物也能找出相似性,如果還有差異,那就再拉遠些?!?/p>
在何寶宏看來,開源與閉源之爭始終存在于科技發展史中,從操作系統到數據庫,再到如今的大模型,都歷經過開源還是閉源的討論,也都誕生了不同策略下的巨頭企業。拿操作系統來說,ios系統是閉源的,安卓系統是開源的;拿數據庫來說,Oracle是閉源的,MariaDB是開源的。那么在大模型時代,也不會背離這一邏輯。
從科技史呈現出的規律來看,坐上某一技術領域“鐵王座”的企業通常都會選擇閉源。此時,排在“老大”后面的企業絕大多數的最佳抉擇就是基于主流的開源產品做二次開發,進一步增加功能或易用性,形成以開源為主導的態勢。伴隨著這種競爭,開源與閉源將在市場上長期并存。
就大模型賽道來說,目前仍處在大量企業入局的探索成長階段。因此,除了那些堅持開源或堅持閉源的企業外,還有相當一部分企業同時推出開源和閉源模型。在這種情況下,在某方面閉源的模型通常會比該企業推出的開源模型表現更好,它可能是性能、效果、成本等。
基于上述基本觀察,我們便不難明白,今天業內圍繞開源還是閉源的討論,本質上是一場技術優勢與生態擴張之間的博弈。何寶宏用更通俗易懂的語言作了解釋:“本質就是你想優先掙錢,還是優先擴大市場?!边x擇閉源,更容易商業化,也能給用戶或客戶提供更穩定的服務,但相對地,獲得反饋和拓展市場的速度會比開源慢;選擇開源,能廣泛吸收開發者的精華促進模型優化迭代,快速擴大市場占有率,但商業化變現比閉源慢。值得注意的是,“開源并非沒有商業模式?!焙螌毢陱娬{,開源只是不以賣開源代碼為生,但可以在其他方面賺錢,比如推出訂閱服務,推出功能更強大或需要個性化定制的商業版??梢哉f,開源的商業模式與互聯網早期“燒錢”鋪市場的商業模式高度相似,歷史總是“變換著外衣”在重復。
總的來說,大模型開源還是閉源,在發展初期都是一個優先級選擇的問題,這種選擇無關對錯,“適合你的,就是好的。”何寶宏在訪談中多次強調,不能將開源與閉源對立起來,選擇本身不能決定模型乃至企業的成功或失敗,任何一種選擇都有可能到達“羅馬”,其根本還是取決于模型的能力是否足夠領先和成本控制是否足夠優秀;更不能將開閉源的選擇進行“道德綁架”,本質上它只是一種理性權衡下的商業策略問題。
02
大模型競爭,終局會怎樣
提文:隨著競爭的深化,面向公眾的通用大模型大概率最終只有一到兩家能“雄霸市場”,但還有大量行業垂直場景等待大模型廠商們進入。
“先發”有時不一定“制人”,時間會篩選出真正的強者。2024年ICT行業趨勢年會上,何寶宏提到,大模型競爭的下半場將是從閉源過渡到基于開源,如今優秀的開源模型能力已達到全球領先閉源模型能力的80%甚至更高,但成本卻是閉源模型的1/20甚至更低,未來場景里或多或少會選擇基于開源的模型。可以預見,大模型時代你追我趕式競爭將越來越激烈。
一款模型的誕生,需要代碼、數據集、訓練過程、模型權重共同發揮作用。何寶宏指出,當前大模型領域在數據、算法等方面的優化上還有很大空間,“任何一個瓶頸都可以去突破,它就像排列組合,單項都最優不一定結果最優,最終看的是綜合最優?!?/p>
何寶宏指出,任何大規模的商業變現,一定會經歷把成本“打下來”的階段。“大家從過去買不到、買不起(高算力芯片)到現在買得到、買得起、用得起,這就是大模型大規模商業化的臨界點,而開源是降低成本、降低技術門檻的重要方法?!笨梢韵胂?,面對開源模型帶來的競爭壓力,閉源模型必須在模型能力和成本表現上繼續突破才能“殺出重圍”。
大模型的構成包含代碼、數據集、訓練過程、模型權重等組成部分,這就涉及開源模型究竟要開放哪些部分的話題了。何寶宏在訪談中指出,開源模型中的“開源”不等同于開源軟件中的“開源”,開源軟件指的是開放源代碼。但大模型不同,其組成部分眾多,傳統的開源定義已不太適應今日的大模型發展情況。因此,2024年10月,OSI(Open Source Initiative,開放源代碼促進會)發布了“開源AI定義”,其要求真正的開源AI大模型必須提供訓練數據的相關細節,包括來源和處理方式,提供用于訓練和運行的源代碼以便能復現,提供訓練時的設置和權重等,要求相當嚴格?!澳壳耙阎拈_源模型仍以開放源代碼為主,沒有公司能做到開放訓練數據集。一方面,因為數據集是模型的核心競爭力之一;另一方面,圍繞數據集尚有很多數據歸屬等方面的法律界定不清晰、不統一,企業不會輕易公布。”何寶宏說。
何寶宏認為,隨著競爭的深化,面向公眾的通用大模型大概率最終只有一到兩家能“雄霸市場”,但企業也不必為此焦慮,還有大量行業垂直場景等待大模型廠商們進入?!皞€性化定制需要開源,開源給的是底座,大模型廠商要在底層通用知識基礎之上融合行業知識做二次開發,交付閉源垂直模型。如此,既降低了風險,又降低了行業模型的學習和使用成本,未來這部分市場潛力也會相當廣大。”
而C端大模型也有望從現在服務所有人的通用型服務演化到提供個性化服務。何寶宏說:“用戶的使用習慣也會被灌注到模型中,用戶與模型的互動會影響模型的參數配置,這就是智能體。智能體也需要個性化,只是我們目前還沒到那個階段而已。”
來源 | 2025年4月刊
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.