摘要:盡管研發模型是當前最緊要的任務,但鳳凰網科技從豆包內部人士處了解到,內部對應用層的投入同樣巨大,“拿的資源不比模型層少”。
鳳凰網科技 出品
作者|徐珍
編輯|董雨晴
豆包的思考模型終于正式揭開面紗。
4月17日,火山引擎總裁譚待現身杭州,分享近四個月以來字節豆包大模型的研發進展。
其中最值得關注的,是思考模型Doubao-1.5-thinking-pro的正式上線。目前,其已通過火山引擎正式開放體驗接口。
一季度,AI賽道天翻地覆。
DeepSeek最先憑借推理模型震驚海外,大廠的步伐相對滯后,這讓去年AI戰略被打滿分的字節跳動略顯尷尬。
不過,有行業人士對鳳凰網科技表示,“豆包的步伐會慢,跟它用戶量級大有關,如何平衡投入產出比是個問題”。
據譚待表述,豆包大模型在3月底日均tokens使用量已超12.7萬億,是2024年12月的3倍,一年前的106倍。
在基座大模型愈發呈現寡頭之勢的當下,豆包大模型的一舉一動也備受外界關注。
根據官方測評,豆包深度思考模型的人類評估表現超出DeepSeek R1 8%,同時單位推理成本相比DeepSeek R1降低了50%。
在數學推理、編程競賽、科學推理等專業任務領域,該模型性能相較OpenAI o3-mini-high、Gemini 2.5 Pro等模型同樣并不遜色。用譚待的話來說,就是“均達到或接近全球第一梯隊”。
圖|Seed-Thinking-v1.5專業任務性能,圖源/豆包官網
另一亮點是多模態的能力,畢竟DeepSeek遲遲不支持除文字以外的內容。
本次豆包深度思考模型專門打造了一款視覺版,具有原生多模態深度思考能力,可以一鍵拍圖識別地點、識別外文菜單。
豆包大模型總算是扳回了一局。
目前,在AppStore內豆包已重回免費榜第一,DeepSeek目前排名第三,元寶則位于第八。
用多模態打DeepSeek?
相比元寶赤裸裸的借DeepSeek的東風,豆包的姿態略顯搖擺。
2月初,火山引擎官方即全面支持DeepSeek系列大模型,但另一邊,豆包自身還在鉚足勁進行模型研發投入。
當月下旬,字節跳動旗下AI助手豆包開始小范圍測試深度思考模型的消息,彼時豆包相關負責人對媒體回應稱,豆包App在測試的是其深度思考模型的不同實驗版本;3月5日,豆包宣布上線深度思考推理模式,并以輸入框的“深度思考”按鈕為功能入口。
不過這些小試牛刀未能濺起多大水花。
直到本次推理模型全面上線,坦誠講,雖然沒有DeepSeek R1出現時的那種驚艷,但大廠全面作戰的能力更強,在產品細節上的打磨更為細致。
比如基于豆包·深度思考模型,豆包App進行了定向訓練,讓模型具備了“邊想邊搜”的能力。思考過程中,豆包可基于推理,多次調用工具、搜索信息,提供更加全面、準確的結果。
除此之外,視覺理解模型解決了DeepSeek R1只能做文字輸入的最大難點。
這一次在發布現場,譚待演示了一個很好的應用案例:
出國旅游時遇到的最大難題之一——點菜。“只翻譯菜單是不夠的,能直接點菜才是完美”。除此之外,模型還要思考如何換算匯率來控制預算,還要弄懂外文菜單的意思,如果有老人、孩子,要照顧他們的喜好,是否過敏等等。根據譚待現場所舉的例子,豆包深度思考模型首先兌換貨幣控制預算,周全考慮老人孩子喜好,還細致避開過敏菜肴,非常出色地完成了任務。
豆包仍在憋大招
過去一個多月,是豆包團隊緊鑼密鼓的一個月。
人員架構上引入新的技術大拿,最著名的當屬從谷歌加入字節的、曾參與Gemini開發的Google follow吳永輝博士。
此后其便領導豆包大模型團隊加足馬力,與此同時朱文佳繼續負責模型應用相關工作。
盡管研發模型是當前的緊要任務,但鳳凰網科技從豆包內部人士處了解到,內部對應用層的投入同樣不低。“最近一個多月,各個產品部門都拉滿了,個別部門還在憋大招。”
去年5月“豆包大模型家族”正式發布時驚艷四座,價格屠夫成為字節在大模型市場的一個新標簽。
今年2月,百度智能云事業群總裁沈抖還曾在全員會上暗戳戳的表示,“國內大模型去年‘惡意’的價格戰,導致行業整體的創收相較于國外差了多個數量級”。當時,譚待通過朋友圈回應稱,大模型降價是通過技術創新實現的,大家應像DeepSeek一樣聚焦基本功,少做無端猜測。
不過,本次發布的Doubao-1.5-thinking-pro模型沒有特別突出它的API價格。
鳳凰網科技在查詢官方后發現,豆包推理模型的輸入、輸出價格分別為0.004元/千token和0.002元/千token,同等級模型,阿里qwen-plus輸入價格可做到0.0008元/千token,輸出價格與豆包模型一樣。DeepSeek R1的API價格在忙時段,輸入和輸出分別可達0.001元/千token和0.016元/千token。
另據官方表示,豆包深度思考模型采用MoE(混合專家)架構,總參數為200B,每次推理時激活的參數為20B,可以更低延遲。相比之下,DeepSeek-R1總參數規模為671B,激活參數為37B。
在提及本次模型更新中的難點時,譚待表示,整體來說是實現效果好最難。“因為要先用各種方法達到最好的效果,在這個基礎上再用各種方式去降低成本,這是一個優化的過程”。其認為,好效果能帶來更大的突破,解鎖更多的場景,吸引更多的用戶和企業使用。所以得以預見,豆包推理模型的API價格未來還將處于動態調整的過程中。
包括朱嘯虎在內的一眾行業人士均認為,當前國內已經有很好的開源模型,這使得應用市場出現了顯著的機會。業內越來越多人亦認為大模型的競爭最后只會剩下幾家。
如李開復所言,“中國大模型未來大概率只剩下DeepSeek、阿里和字節跳動三家”。不過即便如此,相較于DeepSeek和阿里,字節仍舊需要走出自己的路。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.