2月21日至23日,2025全球開發者先鋒大會(GDC)將在上海徐匯舉辦,近日,《國際金融報》記者前往人工智能企業商湯科技、大模型創業公司稀宇科技(下稱MiniMax)探營。
兩家企業負責人就同行企業深度求索(DeepSeek)的技術突破發表了各自見解,既折射出中國大模型領域差異化競爭的技術格局,也揭示了頭部企業在保持技術特色的同時,正構建起協同創新的產業生態。
推動大模型“免費普惠”
今年春節,國產AI大模型DeepSeek爆火,帶動大模型競爭進入“免費普惠階段”。
商湯科技于2月8日正式宣布在萬象平臺上架DeepSeek系列模型,包括DeepSeek-V3和DeepSeek-R1等版本,并為企業客戶和開發者提供3個月內1000萬tokens的免費使用權益。
商湯科技方面表示,DeepSeek的推出預計將引發一系列應用浪潮,推動算力需求的增長。
“隨著DeepSeek的普及,其將成為更多人工作流程的一部分,進一步推動AI技術的應用和發展。”商湯大裝置產品總監劉葉楓指出。
商湯科技產品總監、小浣熊家族產品負責人賈安亞認為,DeepSeek帶來的浪潮主要體現在三個方面——成本降低、模型能力增強和多模態融合。成本降低得益于架構優化、訓練和推理成本的減少,這對于AI技術的產業落地至關重要。模型能力增強則體現在通過長思維鏈實現的更強推理能力。另外,多模態融合則為醫療、金融、教育、工業等多個行業以及輔助編程、智能辦公、智能客服和營銷等場景帶來更多應用機會。
從技術差異化角度,劉葉楓分析稱,“DeepSeek的核心競爭力體現在其卓越的上下文理解與深度推理能力,而商湯的模型體系在多模態融合領域構筑了獨特優勢。不同技術路徑意味著各家企業能在差異化的應用場景中發揮所長。”
賈安亞表示,隨著DeepSeek的普及,AI技術的應用門檻逐漸降低,更多用戶開始嘗試使用AI技術。這對于整個AI生態和產業發展來說是一個非常利好的消息。此外,在本周末舉行的全球開發者先鋒大會上,商湯科技將發布功能更豐富的代碼小浣熊2.0,并邀請實際用戶展示使用體驗。
“與以往版本相比,代碼小浣熊2.0在編程輔助能力上實現了質的飛躍。它不僅能在單個任務點進行修改,還能跨文件執行多任務修改,覆蓋了更廣泛的開發流程操作。”賈安亞表示,這一升級使得代碼小浣熊從個人生產力工具轉變為面向企業軟件研發的端到端解決方案。它不僅能進行代碼資產管理、篩查和優化迭代,還涵蓋了需求分析、測試環節等多個方面,為企業提供全面的技術支持。
值得一提的是,商湯科技在大模型訓練和推理環節實現了成本的大幅降低。這使得公司能夠在相同硬件上部署更大、更通用的模型,為客戶提供更優質、更低成本的解決方案。
劉葉楓還透露,商湯即將在2025開發者大會上發布面向開發者的一站式開源Agent應用開發框架——LazyLLM。該框架以數據為核心,支持在應用開發過程中持續迭代數據,從而不斷提升數據效果。這一框架可滿足國內開發者面向行業和垂域的特定需求,彌補國外工具的不足,同時確保軟件自主可控。
“LazyLLM通過精細化模塊設計和符合直覺的代碼風格,使開發者能夠更快地實現想法、落地產品,同時真正像搭積木一樣,把意圖識別、知識庫檢索能力、大模型能力等快速拼到一起,實現完整應用。”劉葉楓表示。
“假設開發一個多模態客服問答機器人,傳統方法可能需要開發者花費一周時間進行模型微調、串聯各個功能,最終才能形成一個完整的Agent應用。”劉葉楓舉例稱,通過以LazyLLM為核心引擎的大模型Agent應用開發平臺,客戶可以通過低代碼拖拉拽快速實現各種功能,無論是查詢快遞、智能客服,還是轉接人工服務,通過大模型的意圖識別和分割,能夠將客戶指向不同的意圖識別的流程,讓開發更加高效。
熱議技術突破與行業生態
MiniMax,一家位于上海徐匯區、成立于2021年的大模型創業公司,擁有數百名員工。
據悉,MiniMax是國內首個將Linear Attention架構與MoE結合并應用于模型研發的大模型企業,也是國內領先的擁有文本、圖像、語音&音樂、視頻等多種模態大模型,打通產品全鏈路的創業公司。2023年8月,公司自主研發的“MiniMax-abab”大模型通過了國家第一批大模型服務備案。
據公司負責人介紹,MiniMax于今年1月開源了全球首個大規模實現線性注意力機制的模型——MiniMax-01系列。該模型的語音功能能夠識別并反映人類的情緒,目前支持17種語言,在長文、數學、寫作等能力有大幅度提升。尤其是,相比于傳統Transformer架構,新架構的原生線性計算復雜度大幅減少了大模型的訓練和推理成本。
對于同為業內“友商”的DeepSeek,MiniMax公司副總裁劉華給予了高度評價。他指出,DeepSeek在強化學習和算力調配方面展現出顯著的創新性,并迅速獲得了廣泛關注。
劉華認為,AI行業技術迭代迅速,大模型技術每隔幾個月就有重要突破,DeepSeek的創新是推動這一進程的重要力量,預計未來兩三年,大模型的能力將實現數倍量級的提升。
然而,劉華也強調,行業競爭激烈,中國大模型的發展仍需得到持續的關注和支持。以中國新能源汽車的發展為例,大模型企業也需要經歷模仿、創新、趕上和超越的階段。
劉華還提到,大模型的開源有助于推動行業加快發展,提高AI的滲透力,吸引更多開發者參與研發,“當前的問答助手只是AI大模型淺層次的應用,大模型在復雜場景下擁有更多潛力,可以對生產力產生立竿見影的效果”。
在頂層研發框架迭代的情況下,劉華強調,研發人員需要對技術變革保持極致的熱情。劉華指出,DeepSeek在招聘時注重年輕人的熱情和創新精神,而MiniMax同樣擁有一支年輕的研發團隊,大部分成員在35歲以下,許多博士還在讀書階段就加入公司作為實習生。
“DeepSeek在強化學習算法創新與算力資源優化配置方面展現出顯著突破。”劉華特別強調了技術研發的驅動力,“面對大模型技術框架的快速迭代,研發團隊必須具備對技術革新的極致熱忱。”
一個模型的成功并不排除其他模型的機會。對于行業內對DeepSeek開放接入和使用的態度,劉華認為,這種開放心態有助于整個行業的發展。當前行業呈現出良性互動態勢——多家同業機構不僅認可DeepSeek的技術成果,更以開放姿態主動進行技術對接與融合應用。
劉華透露,在即將到來的全球開發者先鋒大會上,MiniMax將展示大模型的應用場景和創新點。
(本文照片均由記者潘潔拍攝)
記者 潘潔
編輯 潘晟
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.