關(guān)稅刷屏的一周，AI圈也“暗流涌動”：Llama 4來了，O3和O4-mini也要來了，DeepSeek R2和GPT-5也不遠了？

2025-04-06 15:01:21　來源: 華爾街見聞官方

上海舉報

分享至

本文作者：鮑奕龍

來源：硬AI

本周全球被關(guān)稅議題占據(jù)頭條，但科技界的目光卻聚焦在AI領(lǐng)域的密集動作上。

周末，Meta深夜突襲發(fā)布Llama 4系列，號稱“原生多模態(tài)+千萬級上下文窗口”，并首次披露單卡H100可運行的輕量化版本。此前OpenAI則宣布O3和O4-mini模型即將在幾周內(nèi)上線，同時確認(rèn)GPT-5因技術(shù)整合和算力部署問題推遲數(shù)月。

DeepSeek則與清華大學(xué)的研究團隊本周聯(lián)合發(fā)布了一篇關(guān)于推理時Scaling的新論文，提出了一種名為自我原則點評調(diào)優(yōu)（SPCT）的學(xué)習(xí)方法，并構(gòu)建了DeepSeek-GRM系列模型。結(jié)合元獎勵模型實現(xiàn)推理時擴展，性能接近671B大模型，暗示DeepSeek R2臨近。

Meta強勢推出Llama 4，多模態(tài)與超長上下文成亮點

周六，Meta正式發(fā)布了Llama 4系列模型，Llama 4全系采用混合專家（MoE）架構(gòu)，并實現(xiàn)了原生多模態(tài)訓(xùn)練，徹底告別了Llama 3純文本模型的時代。此次發(fā)布的模型包括：

Llama 4 Scout（17B 激活參數(shù)，109B 總參數(shù)量，支持 1000 萬+ Token 上下文窗口，可在單張 H100 GPU 上運行）；
Llama 4 Maverick（17B 激活參數(shù)，400B 總參數(shù)量，上下文窗口 100 萬+，性能優(yōu)于 GPT-4o 和 Gemini 2.0 Flash）；
以及強大的 Llama 4 Behemoth 預(yù)覽（288B 激活參數(shù)，2 萬億總參數(shù)量，訓(xùn)練使用 32000 塊 GPU 和 30 萬億多模態(tài) Token）。

此次公布的Llama 4 Maverick 和 Llama 4 Scout 將是開源軟件。然而，Llama 4 的新許可證對使用有一定限制，例如月活用戶超 7 億的公司需申請?zhí)厥庠S可，且使用時需遵守多項品牌和歸屬要求。

前kaggle總裁，fast AI 創(chuàng)始人Jeremy Howard表示，雖然感謝開源，但Llama 4 Scout 和 Maverick 都是大型 MoE 模型，即使量化后也無法在消費級 GPU 上運行，這對開源社區(qū)的可及性來說是個不小的損失

Meta強調(diào)，Llama 4 Scout 和 Llama 4 Maverick 是其“迄今為止最先進的型號”，也是“同類產(chǎn)品中多模態(tài)性最好的版本”。

Scout亮點：速度極快，原生支持多模態(tài)，擁有業(yè)界領(lǐng)先的 1000 萬+ Token 多模態(tài)上下文窗口（相當(dāng)于處理 20 多個小時的視頻！），并且能在單張 H100 GPU 上運行（Int4 量化后）
Maverick性能：在多個主流基準(zhǔn)測試中擊敗了 GPT-4o 和 Gemini 2.0 Flash，推理和編碼能力與新發(fā)布的 DeepSeek v3 相當(dāng)，但激活參數(shù)量不到后者一半

X網(wǎng)友也對Scout模型的性能感到震驚，尤其是其在單GPU上運行并支持超長上下文窗口的能力。

最令人矚目的是Llama 4 Behemoth。目前Behemoth仍處訓(xùn)練中，不過Meta將其定位為“世界上最智能的 LLM 之一”。這個擁有288B激活參數(shù)和2萬億總參數(shù)量的“巨獸”，在32000塊GPU上訓(xùn)練了30萬億多模態(tài)Token，展現(xiàn)了Meta在AI領(lǐng)域的雄厚實力。

有X網(wǎng)友指出了Behemoth訓(xùn)練的性能潛力，強調(diào)了它在階段就已經(jīng)表現(xiàn)出超越多個最高級模型的能力，例如Claude 3.7 和Gemini 2.0 Pro。

還有X網(wǎng)友調(diào)侃了 Meta 的“燒錢”策略，同時對 Llama 4 的參數(shù)規(guī)模表示驚訝。

此前《The Information》周五報道稱，在投資者向大型科技公司施壓，要求其展示投資回報的情況下，Meta 計劃今年投入高達650 億美元來擴展其 AI 基礎(chǔ)設(shè)施。

OpenAI確認(rèn)O3和O4-mini即將上線，GPT-5免費策略引轟動

在Llama 4發(fā)布的同時，OpenAI首席執(zhí)行官Sam Altman則在社交媒體上確認(rèn)，O3和O4-mini將在未來幾周內(nèi)發(fā)布，而GPT-5則將在未來幾個月與公眾見面。

盡管沒有更多關(guān)于o3和o4mini的細(xì)節(jié)內(nèi)容，但是Altman表示，OpenAI在很多方面真正改進了o3模型，一定會讓用戶大為滿意。

實際上GPT-5的功能和發(fā)布時間才是市場關(guān)注的重點。據(jù)Altman透露，GPT-5將整合語音、Canvas、搜索、Deep Research等多項功能，成為OpenAI統(tǒng)一模型戰(zhàn)略的核心。

這意味著GPT-5將不再是一個單一的模型，而是一個集成了多種工具和功能的綜合系統(tǒng)。通過這種整合，GPT-5將能夠自主使用工具，判斷何時需要深入思考、何時可以快速響應(yīng)，從而勝任各類復(fù)雜任務(wù)。OpenAI的這一舉措旨在簡化內(nèi)部模型和產(chǎn)品體系，讓AI真正實現(xiàn)隨開隨用的便捷性。

更令人興奮的是，GPT-5將對免費用戶開放無限使用權(quán)限，而付費用戶則能體驗到更高智力水平的版本。此前，奧特曼在和硅谷知名分析師Ben Thompson的深度對談中，表示因為DeepSeek 的影響， GPT-5將考慮讓用戶免費使用。

不過對于GPT-5的發(fā)布時間反復(fù)推遲，有網(wǎng)友做出了下面這個時間表來調(diào)侃。

DeepSeek攜手清華發(fā)布新論文

DeepSeek與清華大學(xué)的研究團隊本周聯(lián)合發(fā)布了一篇關(guān)于推理時Scaling的新論文，提出了一種名為自我原則點評調(diào)優(yōu)（Self-Principled Critique Tuning，簡稱SPCT）的學(xué)習(xí)方法，并構(gòu)建了DeepSeek-GRM系列模型。這一方法通過在線強化學(xué)習(xí)（RL）動態(tài)生成評判原則和點評內(nèi)容，顯著提升了通用獎勵建模（RM）在推理階段的可擴展性，并引入元獎勵模型（meta RM）進一步優(yōu)化擴展性能。

SPCT方法的核心在于將“原則”從傳統(tǒng)的理解過程轉(zhuǎn)變?yōu)楠剟钌傻囊徊糠郑鼓Ｐ湍軌蚋鶕?jù)輸入問題及其回答內(nèi)容動態(tài)生成高質(zhì)量的原則和點評。這種方法包括兩個階段：

拒絕式微調(diào)（rejective fine-tuning）作為冷啟動階段，幫助模型適應(yīng)不同輸入類型；
基于規(guī)則的在線強化學(xué)習(xí)（rule-based online RL）則進一步優(yōu)化生成內(nèi)容，提升獎勵質(zhì)量和推理擴展性。

為了優(yōu)化投票過程，研究團隊引入了元獎勵模型（meta RM）。該模型通過判斷生成原則和評論的正確性，過濾掉低質(zhì)量樣本，從而提升最終輸出的準(zhǔn)確性和可靠性。

實驗結(jié)果顯示，DeepSeek-GRM-27B在多個RM基準(zhǔn)測試中顯著優(yōu)于現(xiàn)有方法和模型，尤其是在推理時擴展性方面表現(xiàn)出色。通過增加推理計算資源，DeepSeek-GRM-27B展現(xiàn)了強大的性能提升潛力，證明了推理階段擴展策略的優(yōu)勢。

這一成果不僅推動了通用獎勵建模的發(fā)展，也為AI模型在復(fù)雜任務(wù)中的應(yīng)用提供了新的技術(shù)路徑，甚至可能在DeepSeek R2上能看到該成果的展示。

有海外論壇網(wǎng)友調(diào)侃道，DeepSeek一貫是“論文后發(fā)模型”的節(jié)奏，競爭對手Llama-4可能因此受壓。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.