網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請入駐

字節(jié)再掀AI價(jià)格戰(zhàn)：豆包視覺理解模型價(jià)格狂降85%

2024-12-18 23:48:23　來源: 智駕網(wǎng)

北京舉報(bào)

分享至

繼大語言模型價(jià)格以厘計(jì)算之后，視覺理解模型也進(jìn)入了“厘時(shí)代”。

文丨智駕網(wǎng) 王欣

人工智能技術(shù)的迅猛發(fā)展已經(jīng)深刻改變了眾多行業(yè)，特別是在內(nèi)容創(chuàng)作和編輯領(lǐng)域。

一元錢就可處理284張720P的圖片。

千tokens輸入價(jià)格僅為3厘，相較于行業(yè)平均價(jià)格降低了足足85%。

今天，字節(jié)跳動(dòng)在上海世博中心舉辦的火山引擎 Force 大會(huì)上，正式發(fā)布了豆包視覺理解模型，其千 tokens 輸入價(jià)格僅為 3 厘！

這一價(jià)格優(yōu)勢極大地降低了應(yīng)用多模態(tài) AI 技術(shù)的成本門檻，使得更多的企業(yè)和開發(fā)者可以無負(fù)擔(dān)地接入并享用這一技術(shù)，從而推動(dòng)多模態(tài)應(yīng)用的創(chuàng)新與落地。

這同時(shí)也向外界宣告，繼大語言模型價(jià)格以厘計(jì)算之后，視覺理解模型也進(jìn)入了“厘時(shí)代”。

從解鎖的功能上來看，豆包視覺理解模型可堪稱“全能選手”。

如火山引擎總裁譚待所介紹那樣，豆包視覺理解模型不僅能精準(zhǔn)識(shí)別視覺內(nèi)容，還具備出色的理解和推理能力，可根據(jù)圖像信息進(jìn)行復(fù)雜的邏輯計(jì)算，完成分析圖表、處理代碼、解答學(xué)科問題等任務(wù)。此外，該模型有著細(xì)膩的視覺描述和創(chuàng)作能力。

它具備精準(zhǔn)識(shí)別視覺內(nèi)容的能力，不僅可以準(zhǔn)確識(shí)別出圖像中的物體類別、形狀等基本要素，還能深入理解物體之間的關(guān)系、空間布局以及場景的整體含義。

像是識(shí)別小動(dòng)物的影子并推斷出其種類，或是分辨出照片中的自然現(xiàn)象并解釋背后原理等都不在話下。

同時(shí)豆包的理解和推理能力也不遜色。

比如能夠基于所識(shí)別的文字和圖像信息進(jìn)行復(fù)雜的邏輯計(jì)算，無論是分析圖表、處理代碼，還是解答學(xué)科問題等復(fù)雜任務(wù)，都能應(yīng)對自如，為專業(yè)領(lǐng)域的應(yīng)用提供了有力支撐。

像是在學(xué)術(shù)方面，無論是面對微積分這樣的數(shù)學(xué)難題，還是像分析論文中的圖表、處理代碼邏輯以及解答高考物理題等任務(wù)，豆包視覺理解模型都能很好地理解圖片所呈現(xiàn)的問題，依據(jù)提示詞展開相應(yīng)的推理計(jì)算，進(jìn)而給出準(zhǔn)確的答案以及清晰的解題思路。

包括對于企業(yè)內(nèi)部復(fù)雜的業(yè)務(wù)流程代碼，它可以協(xié)助分析代碼邏輯，診斷流程中可能存在的問題，助力企業(yè)的技術(shù)人員更高效地完成工作，解決那些復(fù)雜且專業(yè)的問題。

當(dāng)前的視覺理解模型市場中，不同的產(chǎn)品有著各自的定價(jià)方式和價(jià)格水平。通常，這些模型大多是基于 Tokens 來進(jìn)行計(jì)費(fèi)，會(huì)把圖像編碼轉(zhuǎn)成 Tokens，然后和文本 Tokens 一同計(jì)算費(fèi)用。

像 Claude 的價(jià)格是每千 Token 兩分一里錢，gpt 4o 的價(jià)格為每千 Tokens 一分七厘，阿里的千問價(jià)格則是每千 Tokens 2 分錢。

而豆包視覺理解模型此次給出的其千 tokens 輸入價(jià)格為3厘的價(jià)格，這是繼今年5月火山引擎發(fā)布豆包模型家族后，再一次攪起視覺大模型領(lǐng)域的一場激戰(zhàn)（《詳見》）。

目前，豆包通用模型pro已全面對齊GPT-4o，使用價(jià)格僅為后者的1/8。

會(huì)上，豆包3D生成模型也首次亮相。該模型與火山引擎數(shù)字孿生平臺(tái)veOmniverse結(jié)合使用，可以高效完成智能訓(xùn)練、數(shù)據(jù)合成和數(shù)字資產(chǎn)制作，成為一套支持 AIGC 創(chuàng)作的物理世界仿真模擬器。

到明年春天，字節(jié)還將推出具備更長視頻生成能力的豆包視頻生成模型1.5版，豆包端到端實(shí)時(shí)語音模型也將很快上線，解鎖多角色演繹、方言轉(zhuǎn)換等新能力。

譚待表示，豆包大模型雖然發(fā)布較晚，但一直在快速迭代進(jìn)化，目前已成為國內(nèi)最全面、技術(shù)最領(lǐng)先的大模型之一。

量子位數(shù)據(jù)顯示，截止至11月底，豆包在2024年的累計(jì)用戶規(guī)模已經(jīng)超過1.6億，每日平均新增用戶下載量穩(wěn)定維持在80萬，成為全球排名第二，國內(nèi)排名第一的AI APP。

AI產(chǎn)品榜全球總榜數(shù)據(jù)顯示，11月份，ChatGP穩(wěn)坐第一，擁有2.8億活躍用戶；豆包僅次第二，活躍用戶近6000萬。

截至12月中旬，豆包通用模型的日均tokens使用量已超過4萬億，較七個(gè)月前首次發(fā)布時(shí)增長了33倍。

現(xiàn)在看來，豆包大模型無疑有望成為繼ChatGPT之后的又一重量級(jí)產(chǎn)品。

One more thing：
豆包上奔馳，怎么樣了？

隨著大模型技術(shù)的深入應(yīng)用，汽車行業(yè)可能會(huì)迎來一次質(zhì)的飛躍，汽車成為一個(gè)新物種。

眾多企業(yè)紛紛投身其中，造成了“百模大戰(zhàn)”的現(xiàn)象，但不同公司的技術(shù)、算法水平參差不齊。大模型雖開啟了汽車智能化的下半場，為那些在激烈競爭中尋求突破的車企提供了一把新鑰匙，但大模型究竟是不是汽車智能化的終局，或許在實(shí)現(xiàn)真正的自動(dòng)駕駛之前，這個(gè)問題都沒有標(biāo)準(zhǔn)答案。

比如2024年6月份，辰韜資本關(guān)于大模型上車的行業(yè)報(bào)告顯示，46%的人認(rèn)為大模型是終局，50%的人認(rèn)為大模型是未來的技術(shù)方向之一。

雖然在競爭中，只有那些技術(shù)更先進(jìn)、更符合發(fā)展趨勢的大模型會(huì)脫穎而出，但大模型上車后的智能座艙中，除了模型能力，生態(tài)能力也不可或缺。

而奔馳之所以與火山引擎合作，生態(tài)能力就是重要原因。

2024年8月13日，梅賽德斯-奔馳（中國）投資有限公司和字節(jié)跳動(dòng)旗下的火山引擎科技有限公司簽署戰(zhàn)略合作備忘錄，將在大模型、生成式人工智能和大數(shù)據(jù)等前沿技術(shù)領(lǐng)域開展合作和探索。奔馳未來的新車型將在智能座艙中接入字節(jié)跳動(dòng)自研的豆包大模型。

目前，豆包大模型已經(jīng)與八成主流汽車品牌合作，其中搭載豆包AI大模型的smart精靈（參數(shù)丨圖片）#5已于10月28日上市，是搭載豆包AI大模型的首款車型。

而未來smart精靈#5在為用戶提供更連貫的體驗(yàn)時(shí)，跨域的生態(tài)打通就成了影響產(chǎn)品體驗(yàn)的關(guān)鍵。

火山引擎作為字節(jié)跳動(dòng)的云服務(wù)商，豆包大模型通過火山引擎向客戶提供的服務(wù)正是基于這一生態(tài)能力，去助力大模型生態(tài)體系的搭建，這也會(huì)拓寬更大的成長空間。

【關(guān)注智能駕駛，關(guān)注智駕視頻號(hào)】

關(guān)注汽車的智駕時(shí)代上智駕網(wǎng)（http://autor.com.cn）
合作or新聞線索提供，聯(lián)系郵箱：editor@autor.com.cn
聯(lián)絡(luò)交流，文章轉(zhuǎn)載，添加作者微信：xinwell0709

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.