剛剛,百度的文心一言上了他們最新的模型文心4.5和推理模型X1。
早上10點多起床看到新聞有點懵逼,就,大周末的,挺突然的。。
扒拉了23年的3月16日,才發現,那一天是文心一言的正式發布。
原來文心一言都發布兩年了啊。
兩年時間,彈指一揮間。
文心4.5,是一個類似于GPT4o的原生多模態模型,能理解音頻、視頻、圖片,只不過都是理解,沒有輸出能力。而文心X1,則是一個正常的推理模型。
按照慣例,先看一下官方給的參數數據。
基準測試成績的平均分是挺高的。只不過在大家都比較看重的編程這塊,用的測試基準是HumanEval+、MBPP+、LiveCodeBench。沒有看到比如Claude他們用的SWE-bench Verified基準,不知道真實的跑分會怎么樣。
而X1,沒有跑分對比,只放出了價格。
價格說實話,文心確實有不錯的亮點。
GPT4.5發布的時候,我狠狠吐槽了一下,它的輸入是DeepSeek v3的280倍,輸出是150倍。
真的,現在想起來我還是覺得很離譜。
而文心大模型在這點上還是給我很大驚喜的。文心4.5的輸入價格為0.004元/千tokens,輸出0.016元/千tokens,約為GPT4.5價格的1%。
同樣是4.5,OpenAI你看看人家。。
推理模型X1這塊,價格僅為DeepSeek R1一半,輸入0.002元/千tokens,輸出0.008元/千tokens。
比DeepSeek還便宜,不吹不黑,這個還是有點東西的。。。牛逼。
目前這兩個模型,已經上線他們官網了。
我自己測了一早上,也說一下我實測的結論:挺全面的,什么都有,挺綜合。
大家可以先試試看,自己有一個大概的感知,再回來繼續讀。
接下來,我們一個一個說。
文心4.5。
解析圖片、視頻啥的都支持,還能直接繪圖。
圖片理解能力還不錯,測了梗圖理解,基本都能get到意思。
但是一些藏起來的梗,還是比較難識別。
感覺AI還是不能理解人類牛馬的生活。。
寫作能力上,比較的硬比較的模板,寫一些套路化的東西還是不錯的,但是寫故事,坦率的講,還需要繼續精煉。
視頻解析也比較基礎,有,能理解,但是做不了電影拉片那種級別的操作。
圖生圖,準倒是挺準的。
像不像的另說,反正挺帥的。
玩了半天,腦筋急轉彎測下來算是個強項。
比如之前在我群里這個流傳的腦筋急轉彎。
文心4.5居然答對了。
相同的問題再問一下Claude3.7+extended(因為3.7沒答對,我又加了個推理。。)
7??思考了一分多鐘的廢物。。
再來說說這個百度第一次推出的推理模型X1。
打開【聯網搜索+調用工具】后也能調用圖片理解和上傳文件。
但是在交互上非常的詭異,如果你沒開聯網的話,你是看不到上傳附件的入口的。
先打開聯網搜索,這時候調用工具亮起,成為非置灰狀態。
再打開調用工具,才能看到上傳文檔和圖片。
有點說實話,作為干了快10年的UX設計師,這個交互真的讓我有點摸不著頭腦= =
在推理能力上,效果還行。
比如一個經典的問題:
有一天,一個女孩參加數學考試只得了38分。她心里對父親的懲罰充滿恐懼,于是偷偷把分數改成了88分。她的父親看到試卷后,怒發沖冠,狠狠地給了她一耳光,怒吼道:"你這8怎么一半是綠的一半是紅的,你以為我是傻子嗎?"女孩被打后,委屈地哭了起來,什么也沒說。過了一會兒,父親突然想到了什么,抱住孩子痛哭起來父親突然想到了什么?
雖然文心X1內心戲有點多,但是最后答對了。
而X1的文筆,也有一些自己獨有的感覺了。
有一說一,這個故事,還真的挺好看的。
在圖片理解上,我傳了一張圖上去試試,本來我想讓他推斷一下我多大。。
結果給我認成韓國演員了,好好好。
我還專門去搜了一下,長這樣。
和我,像么...?倒是和之前4.5生成的有點像。。還連上了是吧。
因為DeepSeek之前太過于圓滑,情商太高,不少人都說“不愧是中國的AI”,我也測了一下X1的。
比如說,我問我和大聰明哪個寫文章更有深度。
第一遍回答的是大聰明。
但是我一說,我是數字生命卡茲克。
他就選我了哈哈哈哈,不愧是made in China。
再說個昨天很氣憤的事,315打假直接一波干沒了一堆衛生巾。。
我一個男生都看不下去了,趕緊給身邊的女生們避避雷。
當然,文心一言總體能力并沒有超出太多預期。
比如在處理超前沿專業問題時,深度還是差了一些;回答問題的靈活度也有待提高;還是會遇到模板化太AI的回答。。。
而且我也不理解,為什么今天發布,要等3個月之后才開源,為什么不像Qwen和智譜、混元那樣,發布即開源。
一聲嘆息。
但是還是得說,這次的升級,文心一言正在努力追回之前落下的距離。
回顧一下文心一言的發展歷程,其實挺有戲劇性的。
2023年3月,在那個莽荒世紀,眾人紛紛被GPT4打懵,文心一言上線,成為國內首個大規模推出的通用大模型產品,也是大家所認為的,全村的希望。
文心一言的出現給了我們一個“中國也有大模型”的信心。只要你愿意排隊,就能嘗鮮體驗這個被譽為“國產ChatGPT”的產品。
然而好景不長。隨著更多玩家入場,文心一言開始逐漸顯露出能力上的局限。
其次是產品定位的搖擺。一會兒強調搜索增強,一會兒又轉向創意創作,文心一言似乎一直在尋找自己的獨特價值,但反而模糊了核心競爭力。
當然,這是大部分模型公司共同的痛點。
最核心的,我覺得是過早的開始收費。。讓不少用戶選擇了觀望或轉投其他平臺。
直到DeepSeek出圈這一波,大家才發現,原來,模型即產品。
這次文心一言X和文心4.5的發布,從我早上的體驗來看,確實在追趕的路上取得了一些進展。
就像是文心X1對自己的評價,再合適不過了。
回到國內大模型的發展。隨著DeepSeek的崛起,豆包、Kimi等產品的持續迭代,以及文心一言此次的突發追擊,國內大模型圈正在形成一種良性競爭的態勢。
當然,前路仍漫漫。
與全球頂尖大模型相比,國產大模型在技術深度、思維廣度上還有差距。但差距正在縮小,而且縮小的速度比我們想象的要快。
希望吧。
未來有更多的光。
以上,既然看到這里了,如果覺得不錯,隨手點個贊、在看、轉發三連吧,如果想第一時間收到推送,也可以給我個星標?~謝謝你看我的文章,我們,下次再見。
>/ 作者:卡茲克、小瑞
>/ 投稿或爆料,請聯系郵箱:wzglyay@gmail.com
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.