導(dǎo)語
在Transformer主導(dǎo)的大模型時代,二次復(fù)雜度與長上下文成本問題日益凸顯。而RWKV-7作為新一代RNN架構(gòu),以“內(nèi)世界持續(xù)擬合外世界”的第一性原理,實現(xiàn)了訓(xùn)練高效、推理低耗且表達力超越Transformer的突破。本文旨在解析其核心思想、性能優(yōu)勢及對智能體時代的潛在影響,探討它如何為高效、強大的序列建模提供全新可能。
研究領(lǐng)域:大模型架構(gòu)、全注意力架構(gòu)、線性復(fù)雜度、序列建模、預(yù)訓(xùn)練、RWKV
吳天毅 | 作者
RWKV-7 是精確的構(gòu)造,來自于第一性原理:模型的內(nèi)部世界必須持續(xù)擬合外部世界。 從這個第一性原理就可以直接寫出 RWKV-7 的精確公式。
——RWKV架構(gòu)提出者,彭博,RWKV-7 as a meta-in-context learner:從第一性原理真正理解
論文標(biāo)題:RWKV-7 "Goose" with Expressive Dynamic State Evolution 論文地址:https://arxiv.org/abs/2503.14456 代碼地址:https://github.com/BlinkDL/RWKV-LM
模型內(nèi)世界持續(xù)擬合外世界的想法并不罕見,實際上LSTM模型提出者于爾根·施密德胡伯(Juergen Schmidhuber)在很多年前就提出過,他稱為 fast weights。學(xué)者們基于該思想做出了諸多腦科學(xué)、人工智能領(lǐng)域優(yōu)秀研究。那么,能否基于該想法,構(gòu)建一個性能超群的序列建?;A(chǔ)架構(gòu)呢?這就是RWKV-7,從第一性原理出發(fā)的序列建模架構(gòu)。
有了Transformer,
為什么還需要新的序列建模架構(gòu)?
首先明確,由于同一架構(gòu)不同參數(shù)、超參數(shù)、訓(xùn)練方式、數(shù)據(jù)進行訓(xùn)練,最終成效可能大不相同,如DeepSeek-V2、DeepSeek-V3、DeepSeek-R1架構(gòu)均為DeepSeek提出的多頭隱注意力(Multi-head Latent Attention,MLA),但模型效果不同。本文探討的主題并非具體模型,而是架構(gòu)。可能會涉及關(guān)于具體模型的討論,但這些討論的目的還是為討論架構(gòu)。
很多任務(wù)均可以被視為序列建模,雖然目前純解碼式Transformer架構(gòu)(本文中,Transformer即一般意義上的全注意力full attention架構(gòu))在序列建模任務(wù)上占據(jù)了統(tǒng)治地位,但其自回歸推理時,單個符元(token)所需的內(nèi)存和計算時間隨序列長度增加而增加,序列越長,Transformer計算越昂貴。
架構(gòu)不變的情況下計算本身是絕對的,可以做的是工程優(yōu)化,因此在筆者看來,架構(gòu)決定成本,一定程度上影響表現(xiàn)。
人們在如何改善這種所謂的“二次復(fù)雜度”問題上,進行了諸多研究。某種意義上說,這些研究的目的就是壓縮狀態(tài)(Transformer中的kv緩存),壓縮到極致,就是恒定大小的狀態(tài),這自然是一種一般意義上的RNN,或稱線性注意力(Linear Attention)模型。傳統(tǒng)的RNN模型問題有二:無法并行訓(xùn)練、難以捕捉長距離依賴。經(jīng)過一系列發(fā)展,現(xiàn)代的RNN模型這兩個問題可以說均已解決,但在RWKV-7提出前,人們一直對RNN模型能力表示懷疑,雖然在諸多指標(biāo)上RNN模型有不錯表現(xiàn),但在同數(shù)據(jù)訓(xùn)練的情況下,MMLU (Massive Multitask Language Understanding)這個重要指標(biāo)上,RNN模型表現(xiàn)依然不好。雖然有人指出MMLU范式更接近Bert等掩碼模型,對自回歸模型而言可能本身題目設(shè)置不合理,更多考驗的是模型記憶選項的能力而非本身能力,但在這個重要指標(biāo)上RNN模型不如Transformer,無疑讓很多人對RNN模型能力心存疑慮,懷疑在很大投入后能力會“撞墻”,無法達到現(xiàn)有頂尖模型水平。
另外,William Merrill等人的一系列研究表明,固定深度的Transformer在不依賴思維鏈的情況下只能解決復(fù)雜性類TC0中的問題,這是一組可以被等深度、多項式大小的閾值電路族識別的問題。實際上很多我們直觀上覺得并不復(fù)雜的問題都在此之外,例如簡單的狀態(tài)追蹤(State Tracking)問題(給出諸如x=[1,0,0,0];x[2],x[3]=x[3],x[2]這樣的序列,要求給出最終x的狀態(tài),在此僅進行了一次交換,實際可以任意多次),確定性有限自動機(Deterministic Finite Automata, DFA)模擬等。這表明固定深度的Transformer在不依賴思維鏈情況下的表達能力十分有限,但若用思維鏈,考慮二次復(fù)雜度問題,又會導(dǎo)致上下文更長,成本會大幅上升。
以上是理論上Transformer模型存在的問題,而在目前最火熱的大語言模型實踐中,也確實發(fā)現(xiàn)這些問題越來越難以忽視。主要問題有二:第一、被Grok3和GPT-4.5驗證的“預(yù)訓(xùn)練撞墻”說,及與之對應(yīng)的測試時規(guī)模法則(Test Time Scaling Law)。第二,智能體(Agent)應(yīng)用與推理模型的巨量上下文使用問題;
自2024年中開始,就有消息稱GPT-5訓(xùn)練不順利,OpenAI靈魂人物Ilya也稱由于數(shù)據(jù)已到上限,僅靠預(yù)訓(xùn)練已無法讓模型能力進一步提升,未來需要合成數(shù)據(jù)、后訓(xùn)練。單純模型、數(shù)據(jù)規(guī)模的規(guī)模法則(Scaling Law)已失效,未來是測試時規(guī)模法則,當(dāng)時對此還有些爭議,后來o1發(fā)布,驗證了這個說法的一半,也就是通過增加在使用時的符元數(shù)確實能提高模型性能,但對預(yù)訓(xùn)練是否撞墻,依然存在爭議。直到Grok3和GPT-4.5推出,在姍姍來遲,使用了超多計算資源的情況下并沒有達到如GPT-3.5到GPT-4的提升,“預(yù)訓(xùn)練撞墻”這一說法終于被大家所認(rèn)可。這可能與Transformer本身表達能力限制有關(guān)。
既然確實“預(yù)訓(xùn)練撞墻”了,那么解決方案有二:第一、更高效架構(gòu),在使用同等數(shù)據(jù)情況下性能更高;第二、在推理時更多計算,使用更多符元提高模型效果,典型代表就是o1。這要求模型具更高訓(xùn)練數(shù)據(jù)效率,且能以較低的成本使用長上下文。
自2024年10月22日以來,隨Claude Sonnet 3.5新版本發(fā)布,大語言模型能力達到了新臺階,如Windsurf、Cline等諸多基于其能力的智能體應(yīng)用如雨后春筍般涌現(xiàn)。智能體應(yīng)用的特點就是上下文使用量巨大。與問答、聊天應(yīng)用使用上下文長度較少不同,這種可以感知并操作外部世界(瀏覽器、用戶工作目錄及文件也是外部世界)的智能體由于需要大量上下文輸入外部世界情況,輸出模型本身思考、動作,并在需要時存在反饋過程,很容易使用巨量上下文。典型例子就是復(fù)雜程序調(diào)試,智能體完成程序-運行-報錯-修改-運行-報錯...可能要經(jīng)過多輪上述循環(huán)才能完成調(diào)試,過程中可能還需查閱文檔,整個過程需要超多上下文才能完成。
綜上,現(xiàn)在我們確實需要一個使用訓(xùn)練數(shù)據(jù)效率更高,且能以較低成本使用長上下文的模型。
RWKV-7能達到什么效果?
總體上,RWKV-7訓(xùn)練數(shù)據(jù)、計算效率高于現(xiàn)有頂尖模型(如Qwen2.5),由于其線性模型性質(zhì),推理時內(nèi)存占用恒定,單符元所需計算恒定,上下文越長,成本優(yōu)勢越高,且表達力嚴(yán)格強于標(biāo)準(zhǔn)Transformer模型。
具體來說,RWKV-7目前推出了約1.9億、4億、15億、29億參數(shù)模型,在訓(xùn)練數(shù)據(jù)、計算量遠(yuǎn)少于其他頂級模型(如Qwen-2.5,Llama-3.2)的情況下,達到了多語言性能達到同規(guī)模世界最強、英語性能與同規(guī)模最頂級模型相當(dāng)?shù)谋憩F(xiàn)。并且可以在固定深度下完成經(jīng)典Transformer在定深情況下無法完成的狀態(tài)追蹤與確定性有限自動機模擬任務(wù),能解決超出復(fù)雜性類TC0的任務(wù),也就是說表達能力超過經(jīng)典Transformer。
圖1 RWKV-7與典型頂尖模型多語言性能比較,左圖:訓(xùn)練FLOPs vs 平均精度;右圖:推理激活參數(shù) vs 平均精度
圖2 RWKV-7與典型頂尖模型英語性能比較,左圖:訓(xùn)練FLOPs vs 平均精度;右圖:推理激活參數(shù) vs 平均精度
圖3 RWKV-7與SmollM2、Qwen2.5、Llama3.2等模型在英語評測上的表現(xiàn)
從圖1、圖2和圖3可以明顯看出,RWKV-7在多語言性能上同規(guī)模表現(xiàn)最好,在英語性能上與同規(guī)模頂尖模型表現(xiàn)相當(dāng),同時訓(xùn)練所需算力和數(shù)據(jù)要少得多。圖中,RWKV7-World3是使用RWKV的World3數(shù)據(jù)集訓(xùn)練出的模型,而RWKV7-Pile則是使用Pile數(shù)據(jù)集訓(xùn)練出的。值得注意的是,圖3中除RWKV系列模型,其他均為全注意力模型,可以看到,在MMLU這一指標(biāo)上,RWKV-7并不遜于SmolLM2、Llama3.2這兩個非常優(yōu)秀的模型。考慮到訓(xùn)練RWKV-7使用的數(shù)據(jù)量遠(yuǎn)少于其他模型,可以認(rèn)為RWKV-7這一RNN模型在MMLU這一之前RNN一直劣于Transformer的指標(biāo)上不再有劣勢,根據(jù)圖中不同模型訓(xùn)練符元量與mmlu指標(biāo)表現(xiàn)的對比,合理推測在同等數(shù)據(jù)下,同規(guī)模RWKV-7的MMLU會優(yōu)于Transformer模型。
圖4 不同參數(shù)量RWKV-7的“大海撈針”測試結(jié)果,圖(a)(b)模型分別為RWKV7-World3-1.5B和RWKV7-World3-3B,均是在4096上下文長度下訓(xùn)練的,而圖(c)(d)中則是在128K上下文數(shù)據(jù)集微調(diào)后模型測試的結(jié)果
線性模型的長文本能力經(jīng)常被人懷疑,其中一個經(jīng)典測試就是所謂的“大海撈針”,僅在4096上下文長度訓(xùn)練過的RWKV7-World3-1.5B模型在19600符元長度的大海撈針實驗中實現(xiàn)了完美檢索,在超過20600符元時性能出現(xiàn)大規(guī)模下降,而RWKV7-World3-2.9B模型則完美通過了約35000符元的大海撈針實驗,但在超過之后性能就開始下降。對RWKV7-World3-1.5B和RWKV7-World3-2.9B在長度為128k符元的訓(xùn)練數(shù)據(jù)上進行了微調(diào),發(fā)現(xiàn)RWKV-7-1.5B可以可靠檢索多達約兩萬九千個符元,僅在約四萬左右符元長度下觀察到性能出現(xiàn)較大退化。而微調(diào)后的RWKV-7-2.9B則能可靠檢索三萬個符元,在五萬符元長度處性能出現(xiàn)較大退化,見圖4。
圖5 不同架構(gòu)在不同群狀態(tài)追蹤問題在驗證集上達到95%正確率所需要的最小層數(shù)
圖5的實驗結(jié)果表明,兩層的RWKV-7即可完成A5群的狀態(tài)追蹤任務(wù),這驗證了RWKV-7附錄中的證明。另外,論文中還證明了四層的RWKV-7可以模擬任何確定性有限自動機。而這兩個任務(wù)(狀態(tài)追蹤,模擬確定性有限自動機)均無法通過固定深度的Transformer完成。以上結(jié)果表明,RWKV-7確實在保持可以并行訓(xùn)練推理的前提下,表達力超過了經(jīng)典的Transformer模型。
圖6 推理時間隨序列長度增長變化圖
從圖6可以看出,在序列長度超過約4000時,RWKV-7的推理效率要超過目前最快的Flash Attention v3,而序列越長,推理速度優(yōu)勢越大。同時,RWKV系列還具有推理所需內(nèi)存不隨序列長度增加而增加的性質(zhì)。
RWKV-7如何做到的?
(本部分參考了RWKV-7架構(gòu)提出者彭博的知乎文章https://zhuanlan.zhihu.com/p/9397296254,按我的理解提高了可讀性)
RWKV-7能做到這些的核心正是前文所說的第一性原理:模型的內(nèi)部世界持續(xù)擬合外部世界。
首先回顧經(jīng)典的Transformer所使用的QKV-softmax-attention,其數(shù)學(xué)形式如下,在本文中,如無特殊說明,向量默認(rèn)為行向量:
對維度為D的輸入向量分別為,其中,為D×D矩陣。將 排列得到矩陣Q,K,V,即Q,K,V矩陣中第i行分別為,則輸出為。
這個式子實際上的目的是,對許多組(k1, v1), (k2, v2), …,給出一個q,使若q≈ki,則輸出≈vi,若q≈(ki+kj)/2,則輸出≈(vi+vj)/2(當(dāng)然,attention機制并不追求精確尋找用k的線性組合表示q,在此僅為方便理解)。
一個很自然的想法是,如果學(xué)到了ki到vi的變換,就能在給出q的情況下,通過這一變換得到輸出了,這也滿足QKV-softmax-attention中若q≈ki,則輸出≈vi,若q≈(ki+kj)/2,則輸出≈(vi+vj)/2的性質(zhì)。這一變換可根據(jù)(k1, v1), (k2, v2), …,動態(tài)進行學(xué)習(xí)。在這一視角下,這個變換就可以認(rèn)為是模型的內(nèi)部模型,持續(xù)擬合外部世界。
形式化的說,就是給定兩組向量{kt}和{vt},RWKV-7會使用內(nèi)模型S (一個線性變換,以矩陣形式表示)進行學(xué)習(xí),目標(biāo)是使,此時,對給定輸入向量r(起QKV-softmax-attention中q的作用),輸出為rST,在此使用v與kST間差值的平方,即L2損失作為目標(biāo),也就是,為最小化該損失,使用梯度下降更新內(nèi)模型。計算梯度為
則狀態(tài)(內(nèi)模型S)的更新公式為:
加入每維度權(quán)重衰減率wt及學(xué)習(xí)率ηt(均為向量),完整的內(nèi)模型更新公式為:
通過上式這種梯度下降的方式,內(nèi)模型S可以持續(xù)減小v與kST間的誤差,即可理解為持續(xù)擬合并適應(yīng)外部世界的變化。
以上是RWKV-7的核心思想,也就是從模型的內(nèi)部世界必須持續(xù)擬合外部世界這一想法出發(fā)得到的模型,當(dāng)然還有許多重要的額外處理和周邊組件,對此感興趣的讀者可以閱讀論文,在此不再贅述。
總結(jié)與展望
RWKV-7這種"7代"架構(gòu)還包括DeltaNet、Titans、TTT等等。彭博介紹,與這些架構(gòu)相比,RWKV-7的優(yōu)勢是細(xì)節(jié)權(quán)衡更優(yōu),因此性能更好。后續(xù)還會有RWKV-8等性能更強的新架構(gòu)。
本文簡短介紹了RWKV-7架構(gòu)的基本思想和達到的效果,若讀者對此感興趣,可閱讀論文,其中的論述、結(jié)果要遠(yuǎn)比本文詳細(xì)、豐富和深入。
在如今視角下回顧ChatGPT出現(xiàn)后大語言模型的發(fā)展,我認(rèn)為,架構(gòu)決定成本,一定程度上影響模型表現(xiàn),而如何訓(xùn)練決定模型表現(xiàn)。
在2023年,大語言模型競爭剛剛拉開序幕時,有人認(rèn)為架構(gòu)已經(jīng)確定,接下來就是拼算力和數(shù)據(jù)就行了。但事實證明,到如今,經(jīng)典的全注意力架構(gòu)遠(yuǎn)遠(yuǎn)不能滿足大語言模型發(fā)展的需要。
從公開信息看,DeepSeek探索出了MLA、NSA架構(gòu),MiniMax-01使用的線性混合架構(gòu),谷歌Gamma3使用的滑動窗口注意力+全注意力混合架構(gòu),騰訊混元Turbo S使用的是Hybrid-Mamba-Transformer架構(gòu)。可以看到,最近公開的新模型都不是純粹的經(jīng)典全注意力架構(gòu)。
谷歌、OpenAI的閉源模型并未透露相關(guān)信息,但谷歌對新架構(gòu)探索非常積極,提出了Titans等全新架構(gòu),不排除其Gemini的新模型是采用混合架構(gòu)的可能;而OpenAI的GPT-4o有報道稱其響應(yīng)延遲是亞二次的,很可能是一種混合模型。
當(dāng)然這里值得注意的是,與RWKV-7在諸如狀態(tài)追蹤等方面表達力高于全注意力架構(gòu)不同,MLA、NSA等架構(gòu),雖然確有諸多優(yōu)勢,但其表達力是嚴(yán)格低于全注意力架構(gòu)的。
實際上全注意力架構(gòu)存在一個悖論:目前看,全注意力強在長上下文表現(xiàn),但全注意力長上下文推理成本又過高,導(dǎo)致難以實際使用。目前業(yè)界對此的解決方案是使用混合架構(gòu),即線性注意力與全注意力混合,以降低長上下文推理成本。
我個人認(rèn)為,這種混合模型還是一種過渡,最終還是會往以RWKV為代表的純RNN/線性注意力架構(gòu)進一步演進。因為隨智能體應(yīng)用的普及,模型更多不只是依賴自身能力完成任務(wù),而是在可以調(diào)用外界資源、與外界進行交互的情況下完成任務(wù)。很多長上下文能力測試,如果允許模型編寫程序解決,無疑是過于簡單的,例如大海撈針任務(wù)。人也不能看一遍就記下幾萬字、幾十萬字的長文,但人可以通過記筆記、調(diào)用工具的方式完成許多遠(yuǎn)比這復(fù)雜的任務(wù)。人能寫程序解決的問題,也算人能解決,模型也一樣。
如果給模型一個虛擬環(huán)境,任務(wù)所需信息以文件形式存儲,讓模型可以在其中編寫并調(diào)用程序,寫入新的文件記錄自身想法,也可隨時查看記錄的文件內(nèi)容,這種環(huán)境中模型可以完成的任務(wù)是比單純靠模型自己要多得多的。在這種情況下,記憶可以通過外部文件外置,即使過于久遠(yuǎn)的記憶不準(zhǔn)確也可以接受,因為可以調(diào)用外部文件的記錄來重溫。但若模型推理成本越來越高,那即使在這種環(huán)境中,發(fā)揮也會很受限制,因為不能不受限制的寫入和閱讀外部文件。因此純RNN/線性模型在此時是更占優(yōu)勢的。
實際上目前Aider、Cursor、Windsurf、Cline、auto-coder等AI編程工具的Agent(智能體)模式已經(jīng)很接近這種形態(tài)了,但模型訓(xùn)練還沒充分加強這方面能力。隨智能體形態(tài)應(yīng)用的進一步普及,顯然業(yè)界在訓(xùn)練上會更加重視模型調(diào)用外界資源的能力,也會使得純RNN/線性模型更能充分發(fā)揮其優(yōu)勢。
最后,以彭博的一句話結(jié)尾:
我們需要實現(xiàn)的,不是【人腦】,而是【人腦+外部工具】的整體效果。這是問題的關(guān)鍵。
致謝:感謝彭博、張銳翀、王婷對本文提出的寶貴意見。
作者簡介:
AI+Science 讀書會
AI+Science 是近年興起的將人工智能和科學(xué)相結(jié)合的一種趨勢。 一方面是 AI for Science,機器學(xué)習(xí)和其他 AI 技術(shù)可以用來解決科學(xué)研究中的問題,從預(yù)測天氣和蛋白質(zhì)結(jié)構(gòu),到模擬星系碰撞、設(shè)計優(yōu)化核聚變反應(yīng)堆,甚至像科學(xué)家一樣進行科學(xué)發(fā)現(xiàn),被稱為科學(xué)發(fā)現(xiàn)的“第五范式”。 另一方面是 Science for AI,科學(xué)尤其是物理學(xué)中的規(guī)律和思想啟發(fā)機器學(xué)習(xí)理論,為人工智能的發(fā)展提供全新的視角和方法。
集智俱樂部聯(lián)合斯坦福大學(xué)計算機科學(xué)系博士后研究員吳泰霖(Jure Leskovec 教授指導(dǎo))、哈佛量子計劃研究員扈鴻業(yè)、麻省理工學(xué)院物理系博士生劉子鳴(Max Tegmark 教授指導(dǎo)),共同發(fā)起以”為主題的讀書會,探討該領(lǐng)域的重要問題,共學(xué)共研相關(guān)文獻。 讀書會已完結(jié),現(xiàn)在報名可加入社群并解鎖回放視頻權(quán)限。
詳情請見:
1.
2.
3.
4.
5.
6.
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.