繼大語言模型價(jià)格以厘計(jì)算之后,視覺理解模型也進(jìn)入了“厘時(shí)代”。
文丨智駕網(wǎng) 王欣
人工智能技術(shù)的迅猛發(fā)展已經(jīng)深刻改變了眾多行業(yè),特別是在內(nèi)容創(chuàng)作和編輯領(lǐng)域。
一元錢就可處理284張720P的圖片。
千tokens輸入價(jià)格僅為3厘,相較于行業(yè)平均價(jià)格降低了足足85%。
今天,字節(jié)跳動(dòng)在上海世博中心舉辦的火山引擎 Force 大會(huì)上,正式發(fā)布了豆包視覺理解模型,其千 tokens 輸入價(jià)格僅為 3 厘!
這一價(jià)格優(yōu)勢極大地降低了應(yīng)用多模態(tài) AI 技術(shù)的成本門檻,使得更多的企業(yè)和開發(fā)者可以無負(fù)擔(dān)地接入并享用這一技術(shù),從而推動(dòng)多模態(tài)應(yīng)用的創(chuàng)新與落地。
這同時(shí)也向外界宣告,繼大語言模型價(jià)格以厘計(jì)算之后,視覺理解模型也進(jìn)入了“厘時(shí)代”。
從解鎖的功能上來看,豆包視覺理解模型可堪稱“全能選手”。
如火山引擎總裁譚待所介紹那樣,豆包視覺理解模型不僅能精準(zhǔn)識(shí)別視覺內(nèi)容,還具備出色的理解和推理能力,可根據(jù)圖像信息進(jìn)行復(fù)雜的邏輯計(jì)算,完成分析圖表、處理代碼、解答學(xué)科問題等任務(wù)。此外,該模型有著細(xì)膩的視覺描述和創(chuàng)作能力。
它具備精準(zhǔn)識(shí)別視覺內(nèi)容的能力,不僅可以準(zhǔn)確識(shí)別出圖像中的物體類別、形狀等基本要素,還能深入理解物體之間的關(guān)系、空間布局以及場景的整體含義。
像是識(shí)別小動(dòng)物的影子并推斷出其種類,或是分辨出照片中的自然現(xiàn)象并解釋背后原理等都不在話下。
同時(shí)豆包的理解和推理能力也不遜色。
比如能夠基于所識(shí)別的文字和圖像信息進(jìn)行復(fù)雜的邏輯計(jì)算,無論是分析圖表、處理代碼,還是解答學(xué)科問題等復(fù)雜任務(wù),都能應(yīng)對自如,為專業(yè)領(lǐng)域的應(yīng)用提供了有力支撐。
像是在學(xué)術(shù)方面,無論是面對微積分這樣的數(shù)學(xué)難題,還是像分析論文中的圖表、處理代碼邏輯以及解答高考物理題等任務(wù),豆包視覺理解模型都能很好地理解圖片所呈現(xiàn)的問題,依據(jù)提示詞展開相應(yīng)的推理計(jì)算,進(jìn)而給出準(zhǔn)確的答案以及清晰的解題思路。
包括對于企業(yè)內(nèi)部復(fù)雜的業(yè)務(wù)流程代碼,它可以協(xié)助分析代碼邏輯,診斷流程中可能存在的問題,助力企業(yè)的技術(shù)人員更高效地完成工作,解決那些復(fù)雜且專業(yè)的問題。
當(dāng)前的視覺理解模型市場中,不同的產(chǎn)品有著各自的定價(jià)方式和價(jià)格水平。通常,這些模型大多是基于 Tokens 來進(jìn)行計(jì)費(fèi),會(huì)把圖像編碼轉(zhuǎn)成 Tokens,然后和文本 Tokens 一同計(jì)算費(fèi)用。
像 Claude 的價(jià)格是每千 Token 兩分一里錢,gpt 4o 的價(jià)格為每千 Tokens 一分七厘,阿里的千問價(jià)格則是每千 Tokens 2 分錢。
而豆包視覺理解模型此次給出的其千 tokens 輸入價(jià)格為3厘的價(jià)格,這是繼今年5月火山引擎發(fā)布豆包模型家族后,再一次攪起視覺大模型領(lǐng)域的一場激戰(zhàn)(《詳見》)。
目前,豆包通用模型pro已全面對齊GPT-4o,使用價(jià)格僅為后者的1/8。
會(huì)上,豆包3D生成模型也首次亮相。該模型與火山引擎數(shù)字孿生平臺(tái)veOmniverse結(jié)合使用,可以高效完成智能訓(xùn)練、數(shù)據(jù)合成和數(shù)字資產(chǎn)制作,成為一套支持 AIGC 創(chuàng)作的物理世界仿真模擬器。
到明年春天,字節(jié)還將推出具備更長視頻生成能力的豆包視頻生成模型1.5版,豆包端到端實(shí)時(shí)語音模型也將很快上線,解鎖多角色演繹、方言轉(zhuǎn)換等新能力。
譚待表示,豆包大模型雖然發(fā)布較晚,但一直在快速迭代進(jìn)化,目前已成為國內(nèi)最全面、技術(shù)最領(lǐng)先的大模型之一。
量子位數(shù)據(jù)顯示,截止至11月底,豆包在2024年的累計(jì)用戶規(guī)模已經(jīng)超過1.6億,每日平均新增用戶下載量穩(wěn)定維持在80萬,成為全球排名第二,國內(nèi)排名第一的AI APP。
AI產(chǎn)品榜全球總榜數(shù)據(jù)顯示,11月份,ChatGP穩(wěn)坐第一,擁有2.8億活躍用戶;豆包僅次第二,活躍用戶近6000萬。
截至12月中旬,豆包通用模型的日均tokens使用量已超過4萬億,較七個(gè)月前首次發(fā)布時(shí)增長了33倍。
現(xiàn)在看來,豆包大模型無疑有望成為繼ChatGPT之后的又一重量級(jí)產(chǎn)品。
One more thing:
豆包上奔馳,怎么樣了?
隨著大模型技術(shù)的深入應(yīng)用,汽車行業(yè)可能會(huì)迎來一次質(zhì)的飛躍,汽車成為一個(gè)新物種。
眾多企業(yè)紛紛投身其中,造成了“百模大戰(zhàn)”的現(xiàn)象,但不同公司的技術(shù)、算法水平參差不齊。大模型雖開啟了汽車智能化的下半場,為那些在激烈競爭中尋求突破的車企提供了一把新鑰匙,但大模型究竟是不是汽車智能化的終局,或許在實(shí)現(xiàn)真正的自動(dòng)駕駛之前,這個(gè)問題都沒有標(biāo)準(zhǔn)答案。
比如2024年6月份,辰韜資本關(guān)于大模型上車的行業(yè)報(bào)告顯示,46%的人認(rèn)為大模型是終局,50%的人認(rèn)為大模型是未來的技術(shù)方向之一。
雖然在競爭中,只有那些技術(shù)更先進(jìn)、更符合發(fā)展趨勢的大模型會(huì)脫穎而出,但大模型上車后的智能座艙中,除了模型能力,生態(tài)能力也不可或缺。
而奔馳之所以與火山引擎合作,生態(tài)能力就是重要原因。
2024年8月13日,梅賽德斯-奔馳(中國)投資有限公司和字節(jié)跳動(dòng)旗下的火山引擎科技有限公司簽署戰(zhàn)略合作備忘錄,將在大模型、生成式人工智能和大數(shù)據(jù)等前沿技術(shù)領(lǐng)域開展合作和探索。奔馳未來的新車型將在智能座艙中接入字節(jié)跳動(dòng)自研的豆包大模型。
目前,豆包大模型已經(jīng)與八成主流汽車品牌合作,其中搭載豆包AI大模型的smart精靈(參數(shù)丨圖片)#5已于10月28日上市,是搭載豆包AI大模型的首款車型。
而未來smart精靈#5在為用戶提供更連貫的體驗(yàn)時(shí),跨域的生態(tài)打通就成了影響產(chǎn)品體驗(yàn)的關(guān)鍵。
火山引擎作為字節(jié)跳動(dòng)的云服務(wù)商,豆包大模型通過火山引擎向客戶提供的服務(wù)正是基于這一生態(tài)能力,去助力大模型生態(tài)體系的搭建,這也會(huì)拓寬更大的成長空間。
【關(guān)注智能駕駛,關(guān)注智駕視頻號(hào)】
關(guān)注汽車的智駕時(shí)代上智駕網(wǎng)(http://autor.com.cn)
合 作or新聞線索提供,聯(lián)系郵箱:editor@autor.com.cn
聯(lián)絡(luò)交流,文章轉(zhuǎn)載 ,添加作者微信:xinwell0709
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.