文:王智遠 | ID:Z201440
昨天(4月6日凌晨),Meta發布了Llama 4的消息,估計你也聽說了。要是你想了解更多,可以去這兩個網址看看:
官方介紹頁面:https://ai.meta.com/meta-ai
官網地址:https://www.meta.ai
登錄后,Chatbot的頁面特別簡單,一打開就能免費試用。左邊有個小菜單,三個選項:對話框、收藏,還有Meta畫畫。
這次Meta推出了三個不同版本的Llama 4。
第一個叫Llama 4 Scout(偵察兵),它有170億個活躍參數,就像它手上有170億個小工具可以隨時用。它還有16個專家模型幫忙,總參數量加起來有1090億。
這個版本適合做輕量級的任務,比如:總結文檔、處理代碼庫之類的推理任務。能支持1000萬字的上下文。
第二個版本叫Llama 4 Maverick,有點像“特立獨行”的意思;它同樣有170億參數,但專家模型增加到了128個,總參數量達到4000億;場景適合多模態,像文檔、圖標、PDF等。
目前我看到介紹,它在很多基礎測試里表現特別好,超過了GPT-4o和Gemini 2.0 Flash,在推理和編碼任務上和DeepSeek v3差不多厲害。
最厲害的是第三個版本,叫Llama 4 Behemoth(巨獸)。官方說,它的總參數接近2萬億,活躍參數有2880億。不過,這個版本還沒正式發布,它主要是當“老師”,用自己的知識教Scout和Maverick。
很多人可能不太明白“活躍參數”是什么。我打個比方:
一個超級大廚(模型)有很多很多工具和技巧(總參數量),但做飯的時候,他只會用到其中一部分(活躍參數)。
活躍參數越多,廚師能用的工具和技巧就越多,做出來的菜(也就是任務效果)可能就越好吃(厲害)。
面對這三個版本,說實話,我都覺得太厲害,完全無法想象它的強大。尤其是2萬億參數的版本,似乎吞掉了整個世界的知識,消化掉了人類文明的精髓。
既然這樣,問題來了:
吹的這么大,到底該如何評價它的性能呢?是遙遙領先,還是一騎絕塵?說實話,我都已經沒有概念了。
不過,我直接問Llama 4:針對一個這么大的模型,該問什么問題,才能感受到它的厲害呢?
它告訴我,可以試試多步驟推理、自然語言理解問題、創造性寫作、多語言翻譯,或者對某個領域的知識進行解析;從這些角度提問,能更好地感受到Llama 4的強大之處。
索性從多步驟推理開始。我問的第一個問題:
假設你有100元,想用這些錢買一種商品。這種商品每件3元,但商家有個優惠活動:如果你一次性買超過10件,每件可以便宜1元。那我最多能買多少件呢?請快速推理并給出答案。
它不到2秒就給出了答案。我用Kimi、DeepSeek、Qwen分別測試了這個問題,結果也都差不多。毫無疑問,這種問題對模型來說太簡單了,簡直小菜一碟。
那怎么辦呢?
我向Qwen咨詢了一個問題,我對Qwen2.5-Max說:請給我一個超難的問題,來測試Llama 4的多步驟推理,越難越好。
經過一番思考,Qwen給出了一道題目,并解釋說,這道題的關鍵在于“短小精悍”,同時要覆蓋多語言翻譯、事實核查和語義分析這三項能力。
它還提到,這道題符合知識庫中的評測維度,比如翻譯技巧和幻覺檢測。問題是這樣的:請閱讀以下句子,并完成以下任務:一,將句子翻譯成法語,保留原意; 二,指出句子中可能被夸大的部分,并解釋原因。
句子如下:
盡管人工智能在醫療、金融等領域被稱為革命性力量,但其通過節能算法緩解氣候變化的效果仍存在爭議。
結果來看,Kimi回答比Llama 4更詳細。Kimi指出兩個可能被夸大的地方:一是“革命性力量”,二是“仍存在爭議”。而Llama 4只指出了其中一個。
接下來,我體驗了一個自然語言理解的難題。Qwen說,這個問題看起來很簡單,其實里面藏著很深的難度。
它不僅要識別“相關性≠因果性”的謬誤,還要補充隱含條件,考驗邏輯重構能力。我把任務交給Llama 4:請分析下中文句子的邏輯漏洞,并用英語改寫句子,讓它更嚴謹。句子是:
"所有成功企業家都早起,因此如果你想創業成功,必須每天五點起床。"
對比Kimi和Llama 4的答案,我認為Llama 4的回答更簡潔,但Kimi的表達更詳細、更清晰。
然后,我研究了一道“領域知識”。問題是:設計一個基于AI的商品智能推薦系統的測試方案。
我讓Llama 4先分析問題,再給出答案。它說,主要存在三個測試難點。不過,它給的答案和Kimi給的答案我都不太滿意,主要問題是:
答案太宏觀、太理論化,雖然也有舉例,但都沒具體說清楚“到底該怎么做”。可能因為我之前提出的問題不夠詳細。
這也給我一個提醒:雖然網上有海量公開資料,但遇到行業知識或者具體問題時,AI在個人經驗方面還是差了點火候。
最后,我試了試創造性寫作,感覺特別有意思。
題目是寫一個微小說,里面要包含“鑰匙”“雨夜”“陌生人”這三個元素,還得分析用到的文學技巧。
Llama 4給出了好幾個版本,創造力和理解力都很強。相比之下,Kimi只寫了一個版本,感覺Llama 4在處理復雜任務時更有優勢,能給出更多元化的回答。
我覺得,以后可以用這個功能寫更多好玩的段子,確實是一件很有趣的事情。
我還試了它的文生圖能力。
隨便說了一句“幫我換輪胎”,它居然生成了四張不同的圖,每張都不一樣。其中第四張看起來像在森林里換輪胎,感覺挺真實的。
我可以點進去繼續修改,只要告訴它我的想法就行。上傳照片換背景圖,也可以。不過,修改效果不太理想,不如ChatGPT 4o。
經過這一系列體驗,所以,我得出什么結論呢?
Llama 4的文本處理能力很強。會理解上下文的意思,回答問題時,能給出很準確、很貼切的答案。特別是碰到復雜的問題,或者要仔細琢磨的任務,它表現得特別好。
比如,我讓它幫我做一個測試,根據一段文本理解人類的情感,把這種情感用到別的地方,它都能搞定。
語言生成能力也很棒,寫出來的文本很流暢、很自然。有時,它還能模仿某種特定的寫作風格或者語氣;還有一個優點,多輪對話能力很強。不管后面給它什么內容,前面的內容它都不會忘。
不過,也有不足的地方。
在一些專業知識上,還不夠深入、不夠具體。但有個好處,它能帶著我一起完成任務;我有個問題自己解決不了,交給它,它就能分步驟帶著我一起做,最后把任務完成。
在交互方面,它也很厲害。
從普通的文字聊天,到生成圖片,再到上傳文件讓它幫忙修改,這些都能在一個聊天框里搞定。甚至還能基于圖片制作動畫,功能很全面。不過,它沒有語音功能,也不能聯網搜索,這有點不太方便。
但是,雖然它能進行多種交互,但有時候也會出錯。
我給它一個PDF文件,讓它把里面的內容提取出來做成表格,結果它卻生成了一個圖標。這種理解上的偏差還挺讓人頭疼的。
可能它在開源市場更有潛力吧,感興趣,可以試試。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.