圖片系AI生成
不知有意還是無意,今年,火山引擎 Force Link AI 創新巡展的首站選在了杭州。這里既有新銳大模型獨角獸DeepSeek,也有老牌云計算巨頭阿里云,除了秀一秀肌肉之外,火山引擎還有更重要的訊息傳遞。
火山引擎總裁譚待表示,“如果說2024年是中國AI應用的元年,那么2025年,則極有可能是AI Agent應用的元年。”這不僅是火山引擎的洞察,也是全行業的共識,上一次大模型行業如此統一,可能還要追溯到“百模大戰”。
技術和商業層面的共識有好有壞,好處是產業方向不再分散,所有資源投入到一個大方向,促進新技術的繁榮和新商業模式的構建;壞處是競爭快速從藍海到紅海,留給參與者的時間窗口越發緊張。
火山引擎是習慣于生長在產業共識之上的,最近IDC發布的《中國公有云大模型服務市場格局分析,1Q25》報告顯示,2024年中國公有云大模型調用量,火山引擎以 46.4% 的市場份額位居中國市場第一。
該數據不計入海外用戶模型調用量及產生在C端應用上的模型調用量,純粹代表了火山引擎在B端客戶的受歡迎程度,也可以理解為火山引擎在上一次產業共識中取得的成績。
在當下Agent元年共識的大背景下,4月17日,火山引擎面向企業市場發布豆包1.5·深度思考模型,同步升級文生圖模型 3.0、視覺理解模型,并推出 OS Agent 解決方案及AI云原生推理套件,幫助企業更快、更省地構建和部署Agent應用。
有意思的是,同一天OpenAI也發布了OpenAI 系列里能力最強的推理模型,o3 模型和 o4-mini 模型,o3 是第一代能夠在思維鏈中使用圖像進行推理的模型,還能自主調用工具,還表示未來將推出一系列編程工具。
大模型都在朝著適合Agent化的方向演進,新的共識競爭更深刻說明了一個道理,未來AI的競爭既在大模型,也在與之緊密相關的云平臺。大模型廠商又踏入了同一條河流,火山引擎想繼續爭在上游。
“AI能夠解決更復雜,更完整的問題,不再僅僅是對信息的感知、處理和生成,而是能端到端的處理任務,才能稱之為一個合格的Agent。”譚待表示,要做好Agent,技術上需要做好三個準備。
首要核心是更強的模型,需要有能力做好思考、計劃和反思,而且一定要支持多模態。因為真實世界的任務需要耳朵、嘴巴和眼睛來共同完成。
其次是要有更好的架構和工具,支持大模型操作數字和物理世界,構建好OS agent。
最后是通過AI云原生,不斷降低模型推理的成本和延遲,讓應用普及。
豆包深度思考模型,更適合Agent的大模型
模型本身是重中之重,此前大模型行業掀起的價格戰,沒能推動大模型廣泛落地,本質上還是因為模型的能力有限。
深度思考模型向前走了一步,通過強化邏輯推理和思維鏈能力,能夠更好地滿足復雜場景需求,也證明了模型性能仍有潛力可挖,如推理速度、多模態能力、邏輯深度等。
當所有廠商都在“卷”深度思考模型時,深度思考模型的核心競爭力就是“效價比”,使用成本、技術門檻的降低以及性能的提高,在專業場景的可靠性和實用性等,為企業客戶提供更多商業閉環的可能,這也是本次豆包大模型的更新方向。
本次豆包1.5·深度思考模型突出體現在效果好、低延遲和多模態,包括兩個版本,一個版本是大語言模型Doubao-1.5-thinking-pro,一個是多模態版本Doubao-1.5-thinking-pro|m。前者推理能力更強,后者支持視覺推理,開發者可以按需使用。
豆包1.5·深度思考大語言模型采用了MoE架構,總參數為200B,激活參數僅20B,能夠以較小參數實現媲美頂尖模型的效果。同時基于高效算法,豆包1.5·深度思考大語言模型能在提供行業極高并發承載能力的同時,實現20毫秒的極低延遲,在很多延遲敏感的場景,也能使用深度思考模型。
根據現場公布的數據來看,豆包1.5·深度思考模型在專業領域的推理任務中表現出色,數學推理AIME 2024 測試得分追平OpenAI o3-mini-high,編程競賽和科學推理測試成績也接近o1。在創意寫作、人文知識問答等通用任務上,模型也展示出優秀的泛化能力。
為了提升模型的通用能力,豆包1.5·深度思考大語言模型優化了數據處理策略,把可驗證數據與創意性數據進行了融合處理,滿足各類任務的需求。此外,大規模強化學習是訓練推理模型的關鍵技術,通過采用創新的雙軌獎勵機制,兼顧“對錯分明”和“見仁見智”的任務,豆包1.5·深度思考大語言模型有效實現了算法的可靠優化。
推理和多模態,是目前公認的大模型兩大方向,豆包1.5·深度思考模型多模態版本也具備了視覺推理能力,能像人類一樣對看到的事物進行聯想和思考,極大拓展了智能推理的應用邊界。
譚待舉例說明,“模型可以看懂復雜的企業項目管理流程圖表,快速定位到關鍵信息,并以強大的指令遵循能力,嚴格按照流程圖,回答客戶的問題;分析航拍圖時,能結合地貌特征判斷區域開發可行性。有多模態能力的加持,豆包1.5·深度思考模型可以助力企業在更多場景實現智能化升級。”
此外,豆包·文生圖模型升級為3.0版本正式向企業開放,已在即夢AI、豆包產品上線,支持2K分辨率直出,生圖結構準確性、小字生成與排版、美感、真實度等方面具有優勢,在近期登上了權威競技場Artificial Analysis文生圖榜單第一梯隊。
Agent元年,意味著用戶對模型的要求更高,在深度思考能力、多模態、推理成本、延遲存在短板的模型,將承受來自客戶端的較大壓力,這也是大模型落地過程中的確定趨勢。
DeepSeek之后,為什么模型廠商呈兩極分化
行業內一個廣泛關注的現象是,DeepSeek之后,有的模型廠商已經轉向垂類場景或應用領域,云廠商反而以更快的速度迭代。
這是因為,DeepSeek成功不只是模型算法的更新,更是AI infra的全鏈路優化,而目前做AI infra做得好的,以云廠商為最。
國內國外云巨頭成為基礎模型的主要參與者,AI獨角獸也大多有云廠的直接投資,其中的顯性邏輯是,大模型一定會高度消耗用云量。
譚待也提到,傳統的云是伴隨著互聯網發展起來的,當時的云原生很多是互聯網應用(如 web、APP)在實踐中涉及的中間件、數據庫、容器等方面。現在范式發生了變化,以前是人通過編寫軟件規則、中間件等來實現對業務的抽象,現在則是利用數據加上模型自動去解決更多的問題。
這種情況下,上層業務對云的要求越來越多,也催生出新的產品,火山引擎把這類產品叫做 AI 云原生。原來的云原生是為了適應互聯網發展,現在的 AI 云原生是為了滿足 AI 和 Agent發展的需求。
大模型要實現更好的效果,就要做底層大量創新算法和架構優化,基于新模型再做底層基礎設施的優化,更好的模型呼喚更佳的底層基礎設施,更具性價比的底層基礎設施推動模型的廣泛普及,這也是AI與云的飛輪效應。
起初很多人低估了云在AI的作用,從百模大戰到六小龍,再到DeepSeek掀起的熱潮,大模型發展至今,本質上是一個技術和資源的棋局,與其說DeepSeek對所有云廠商是一個帶動算力消耗的利好,不如說是一個警醒,讓所有人認識到,只有更好的AI infra,才能創造出效果更佳的大模型。
一個未經驗證,卻被廣泛認可的事實是,開發者此前在火山引擎上調用豆包大模型,延遲低、成本低、效果也不錯,大家不確定豆包大模型本身好還是火山引擎的云服務好,現在有了DeepSeek開源模型做對比,當所有云廠商接入DeepSeek,火山引擎也是其中更穩定、更快的廠商,驗證了火山引擎的云服務能力。
回到模型本身,豆包大模型的迭代與火山引擎緊密相關,從數據、強化學習到AI Infra進行了更深入的探索,讓模型在較小參數下,獲得出色推理能力。AI和云是一體兩面。
以云計算基本的三大件為例, AI 時代更多的計算變成以 GPU 為核心,舊有架構難以充分發揮 GPU 高算力、高帶寬優勢,同時 GPU 訓練和推理場景,也對高速互聯、在線存儲和隱私安全提出了更高的要求。
AI 云原生,將以模型為中心重新定義云計算的技術架構與業務流程,通過云原生技術棧與AI能力的深度融合,模型的開發、部署、迭代等能力和效果,將成為基礎設施比拼的核心維度。
為此,火山引擎一直在以AI云原生為理念推陳出新,譬如本次大會新發布的AI云原生推理套件ServingKit,整合了 AI 容器編排、AI 網關、推理全鏈路觀測和 AI 加速套件的能力,支持在大規模 GPU 集群上運行推理工作負載,表現出更強的推理性能、更優的推理成本、更廣泛的生態增強。
有意思的是,火山引擎可能比所有云廠商更早看清AI云原生趨勢,字節跳動主營業務大量的搜索、廣告、推薦,就是基于人工智能技術來實現的,火山引擎對技術預判的感知有天然優勢。在大模型之前,外界多少有些看不清字節跳動為何要卷入云計算行業,結果火山引擎“等”到了大模型,新技術發展的脈絡自有“巧合”。
火山引擎此前就表示,下一個十年,計算范式應該進入 AI 云原生的新時代。這在如今已經成為一個顯學,而當通算時代的云生態被拆解,智算時代的云生態應當如何?
大模型,如何重塑云生態
如果說上一代通用算力體系培育了現在的應用生態,那么以云計算為代表的智算體系,理應孕育出AI應用生態。所有云廠商都在朝著這個方向演進,只是速度有快有慢,能力有好有壞。
云計算的能力決定大模型的天花板,大模型的能力上限決定應用的天花板,大模型的交付成本決定應用創新的加速度。
云廠商應該起到承上啟下的作用,如前所述,對下,更強的大模型需要更強的AI infra能力,更強的AI infra能力進一步推進大模型的普及,火山引擎打造了以 AI 負載為中心的基礎架構新范式。
對上,比大模型技術本身更重要的是,如何讓大模型落地,這就離不開一個完整的應用生態,云廠商是為開發者提供大模型應用平臺的最佳角色。
譚待也表示,云廠商需要有更好的模型、更低的成本,多模態也是更好模型的一種體現。但這還不夠,從 AI 應用從聊天、信息處理到 Agent 的發展過程中,需要更多的解決方案,需要 Agent 操作電腦、手機,這就需要電腦和手機的相關組件,以及能夠操作界面的模型。
此外,還包括強化學習框架、安全保障以及底層數據處理等方面。未來,火山引擎將圍繞 AI 云原生,在存儲、計算、數據、安全以及新的中間件等方面推出一系列的產品。
在本次大會上,火山引擎推出了OS Agent解決方案,并演示了由Agent操作瀏覽器,搜索商品頁,實現iPhone比價的任務,甚至由Agent在遠程計算機上用剪映進行視頻編輯、配樂。
具體來看,OS Agent解決方案包含豆包1.5·UI-TARS 模型,以及veFaaS函數服務、云服務器、云手機等產品,可實現對代碼、瀏覽器、電腦、手機以及其他Agent的操作。
其中,豆包1.5·UI-TARS 模型將屏幕視覺理解、邏輯推理、界面元素定位和操作整合在一起,突破傳統自動化工具依賴預設規則的局限性,為Agent的智能交互提供了更接近人類操作的模型基礎。
好的模型和工具能夠加速Agent的落地,但Agent也會帶來更大量的模型推理消耗。面對大規模推理需求,火山引擎打造的AI云原生·ServingKit推理套件,讓模型部署更快、推理成本更低,GPU 消耗相比傳統方案大幅下降。
在實際業務場景中,基于AI云原生·ServingKit推理套件,通過算子優化,DeepSeek R1滿血版 TPS 提升超2.4倍;智能路由提供負載感知路由和 KVCache 感知路由,使 TTFT 降低60%;EIC 在多輪次對話中,TTFT 從3s 降低到1s,長文本推理 KVCache 命中率提升了10倍以上。
去年12月,豆包大模型的日均tokens調用量是4萬億。而截至今年3月底,這個數字已經超過了 12.7 萬億,自發布以來不到一年的時間里,實現了超過106倍的高速增長。金山辦公、梅賽德斯-奔馳、浙江大學、杭州銀行等不同行業的眾多客戶,都在火山引擎上使用豆包大模型,打造自己的AI業務生態。
AI時代云競爭的終局,是能夠在底層大模型到上層應用生態的極致優化,這種價值才是難以復現的護城河。沉淀數年的火山引擎,終于在大模型時代露出了崢嶸,不是在通算時代內卷,而是在智算時代,用AI價值反向補全自己的能力版圖。
當大模型廠商又踏入了同一條河流,關鍵的勝負手就不是一兩次技術靈感的偶然,而是圍繞全棧AI深度能力的多維競爭,火山引擎沒有理由不爭在上游。(本文首發于鈦媒體APP)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.