人在字節(jié)火山發(fā)布會現(xiàn)場。
眼睜睜看著他們發(fā)了一大堆的模型升級,眼花繚亂,有一種要一股腦把字節(jié)系的AI底牌往桌上亮的感覺。
有語音的,有音樂的,有大語言模型的,有文生圖的,有3D生成。
真的過于豪華了,字節(jié)真的是,家大業(yè)大。。。
但是看完了全場,我覺得最值得寫一寫,聊一聊的,還是這個:
豆包視覺理解模型。
效果不僅出奇的好,最關(guān)鍵的是,他們的價格。
價格直接低85%,直接把視覺理解模型拉入了“厘時代”。
字節(jié),還是那個字節(jié)。
說實話,過去一兩年,人人都在講文字推理,講大語言模型的爆點。
但是視覺理解,才一直是我們認知世界的第一道關(guān)卡。
當你來到這個世界睜開眼睛的第一刻,沒有學會語言的時候,靠的就是你的眼睛。
我們先看到光影、顏色,才逐漸分辨出父母的面孔,屋子的空間,那時沒有詞匯、沒有句子,只有模糊的光影與輪廓。
當我們對這個世界,通過視覺,一步步認識父母的臉,認識身邊的玩具,認識窗外的樹影,有了基本的認知后,然后才有了咿呀學語的過程。
它是我們觸及世界的第一道門,不僅僅是看見了什么,更是用看去建立理解,進而觸發(fā)思考與關(guān)聯(lián)。
語言是有門檻的,你要先懂詞語的意思。可視覺先于語言,是不需要翻譯的輸入。
有太多普通人,不知道如何描繪自己的需求,無法組織語言清楚的表達一件事,但是把圖片扔給AI,問一下,這是任何人都會的。
上至80歲老人、下至10歲孩童,都可以。
所以,對于視覺理解模型,我才如此看重。
而這次新發(fā)布的豆包視覺理解模型,除了在火山開放了API,也已經(jīng)在豆包上上線可以直接體驗了。
我也第一時間,在發(fā)布會現(xiàn)場拉著我的朋友@賽博禪心和@Max,在會場廁所門口,從早上跑到中午,飯都沒吃,跑了大概100個case,跟GPT4o對比做了個詳細評測。
雖然感覺有點對不起他兩,但是最后的結(jié)果,還是很讓人有點驚喜的。
我們測的第一波例子,也是很多視覺大模型最痛苦的,就是數(shù)數(shù)。
我這有一個萬惡之源的圖,在好多論文里面都出現(xiàn)過,就是讓大模型來數(shù)這張圖里面有幾只狗。
正常人類直接數(shù)中間的狗頭,都非常清晰的能數(shù)清楚,一共是12只狗。
但是對于AI來說,那就炸了。數(shù)數(shù)這事,是最難的。
GPT4o非常自信的給了一個11只的答案。
Claude3.5也一個樣,自信的爆出了11只的答案,Claude和GPT這兩冤家,差點弄的我以為自己數(shù)錯了。
直到把這張圖發(fā)給豆包。
我還怕豆包是不是幻覺了,連續(xù)roll了5次,每次都是堅定不移的12只。
而且相比于GPT,還準確的識別了這是金毛巡回犬的幼犬,在答案的準確性和豐富度上,都比GPT4o要強。
于是,我又讓它倆,做了另一件更難的事。
紅框里有幾個手辦?分別是什么角色?
不僅需要精準的識別出數(shù)量,還要知道每個角色是啥,這個能答上來,那才是真的懂了。
結(jié)果GPT上來直接抽風,上來就是忽悠我4個。
然后那些角色也在那給我瞎掰,不是,哪有孫悟飯啊?哪有金發(fā)角色啊?你家孫悟飯藍頭發(fā)啊?
真的,槽點太多,我都不知道從哪吐槽起了。
再回頭看豆包。
數(shù)量6個對了,4個《火影》系列的手辦,從左到右其實是波風水門、漩渦鳴人、迪達拉、蝎,豆包對了前面兩個水門和鳴人,再加漫威的一個雷神和綠巨人。
正確率66%,雖然沒能完美識別,但也算是一個巨大的進步了。
這一波,說一句把GPT4o摁在地上打不過分吧。。。
測完數(shù)數(shù)后,我們又測了一波看圖識景點。
直接掏出了黑悟空里面的十大景點,測了一波。
大部分GPT4o和豆包都差不太多,幾乎打了個平手,像大足石刻、懸空寺、開元寺這種都識別出來了,而像小西天、水陸庵野都一起翻車了。
本來我覺得這兩會在這個點上打個平手,結(jié)果,最后一題,GPT4o翻了車。
這個塔林,是山東濟南靈巖寺塔林。自唐以降,墓塔成林。
早為鐘,黃昏為鼓,白為方,才有了所謂“晨鐘暮鼓白天方”。
而豆包,在這最后一題上,守住了自己的榮耀,回答了上來,從而險勝GPT4o一籌。
在一些世界常識中,GPT4o也落敗了。
比如這根經(jīng)典的滾珠絲桿,做了個視覺誤導(dǎo),問哪根最長。
豆包沒啥問題,準確的回答了左邊第二根最長。
但是GPT4o,卻又翻車了,我roll了5次,每一次都信誓旦旦的告訴我,就是最左邊最長,我都甚至懷疑是不是我自己的眼睛瞎了。。。
我們也做了一個非常詳細的統(tǒng)計表格。把豆包和GPT4o的評測,每個跑三次放在了一起對比。
也能看出來,在大多數(shù)的任務(wù)上,豆包的這個視覺理解大模型都比GPT4o識別的更精準、更詳細,對中國文化的一些內(nèi)容,懂的也更多。
而且還有個很有趣的點,就是GPT4o因為那坑爹到家的安全限制,所以他沒法看到任何人臉。
但是,豆包可以。
當然,也并不是說豆包在視覺理解上,它就強到爆炸了。
不行的點,當然也有。
比如我們發(fā)現(xiàn),在一些數(shù)學公式的計算上,錯誤率還是會有一些的。
比如這道題。
答案其實是A。
但是扔給豆包的時候,會發(fā)現(xiàn),回答還是會有一些錯誤。
在一些復(fù)雜的計算上,還是會有一些差距,畢竟做題,真的一直以來都是大模型的短板。
但整體來看,這波升級就是解決了很多基礎(chǔ)的常識性問題,讓大模型,有了更強的眼睛,也有了更好的腦子。
還是非常有用的。
文章的最后,我突然想說一個關(guān)于我朋友和他想要的AI的故事。
這哥們是一個大概40歲出頭的中年人,壓力很大,背著房貸,四腳吞金獸還在地上跑。人在一線城市,平時要上班養(yǎng)家糊口,又在業(yè)余時間搞了點自己的小買賣,想減輕一點家里的壓力。
他以前和我說過,他最大的痛苦就是沒有時間學更專業(yè)的技能,他那個網(wǎng)店是賣點數(shù)碼的小玩意,但是吧自己又不會拍好看的商品圖,不懂設(shè)計,也沒有錢請專業(yè)攝影師和設(shè)計師。
我當時給他推薦了一些電商的AI生圖工具,能自動給產(chǎn)品做美化背景,能改色調(diào)、能幫他處理一些雜事。
但有個問題,這哥們沒啥想象力,審美上也有點差異,所以對于AI繪圖的那些Prompt描述能力不行,總是詞不達意,AI給出的圖經(jīng)常也有點離譜。
后來有天,他跟我說過,他真正想要的那種AI產(chǎn)品,是他不用管那些亂七八糟的,是想讓自己的數(shù)碼小玩意融入一個夏日海灘的場景的時候,他只需要拍張桌上堆滿物品的亂七八糟的圖,然后把那個產(chǎn)品圈出來,對AI說:
“給我用這件單品,搞個夏日風海報,然后把我桌面上那些雜亂的東西都變成整潔的道具擺放。”
AI看懂后,直接創(chuàng)作出一張清爽的營銷圖,就完事了。
這個哥們跟我聊天說這樣的需求時,他眼睛里放光。問我有沒有這樣的東西。
我說,現(xiàn)在還真沒有。
然后看著他可惜的眼神,嘴角輕輕的嘆了口氣。
但是我相信,隨著視覺理解模型的進步,隨著一句話改圖的進步,隨著這兩者,發(fā)光發(fā)熱繼續(xù)融合。
一定會有那么一天,能讓那哥們,有眼睛里發(fā)光的那天。
而且可能,就在不遠的將來。
讓每個人,都能享受科技的樂趣,這就是技術(shù),真正該發(fā)揮的作用。
不是替代,而是幫助。
幫助一個普通人在沉重生活里找到一絲自我創(chuàng)造的樂趣。
幫助那些有想法但缺手段的人,讓他們用更少的時間把腦中藍圖變?yōu)楝F(xiàn)實。
我覺得,這可能才是,最酷的事吧。
以上,既然看到這里了,如果覺得不錯,隨手點個贊、在看、轉(zhuǎn)發(fā)三連吧,如果想第一時間收到推送,也可以給我個星標?~謝謝你看我的文章,我們,下次再見。
>/ 作者:卡茲克
>/ 投稿或爆料,請聯(lián)系郵箱:wzglyay@gmail.com
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.