預測編碼理論作為一種解釋大腦信息處理的理論框架,近年來在神經科學、認知科學與人工智能領域引起了廣泛關注。拉杰什·拉奧(Rajesh Rao),現任華盛頓大學計算機科學與工程系教授及神經技術中心聯合主任,早在25年前便前瞻性地運用預測編碼理論解釋視覺系統的運作機制。
在本期播客中,拉奧分享了他對預測編碼和腦機接口領域的最新研究成果與見解,并探討了他對大語言模型、大腦研究的未來方向等多個領域的思考,此外,他還討論了對破譯古印度文字的興趣以及相關的工作。以下內容整理自拉奧與保羅·米德爾布魯克斯(Paul Middlebrooks)2024年12月在“大腦靈感”(Brain Inspired)的對談。
保羅·米德布魯克斯
Paul Middlebrooks
卡內基梅隆大學助理研究員,
播客“Brain Inspired”主理人
他在匹茲堡大學馬克·索默實驗室獲得認知神經科學博士學位。隨后在范德堡大學Jeffrey Schall, Geoff Woodman, and Gordon Logan實驗室從事博士后研究,研究運動皮層和基底神經節神經群活動如何影響自由行為小鼠的自然行為。
拉杰什·拉奧
Rajesh Rao
華盛頓大學計算機科學與工程系教授及神經技術中心聯合主任
他與Dana Ballard共同提出了 1999 年的腦功能預測編碼模型。他在感知和決策的貝葉斯模型方面做出了貢獻。在腦機接口領域,他于 2007 年首次展示了直接通過大腦控制人形機器人的技術。他的研究興趣涵蓋計算神經科學、腦機接口和人工智能以及印度河文字和印度古典繪畫。 他獲得的獎項包括古根海姆獎學金、IEEE 研究員獎、富布賴特學者獎、NSF CAREER 獎、ONR 青年研究員獎、斯隆管理學院教員獎學金以及 David and Lucile Packard 獎學金。著有Brain-Computer Interfacing,合著有Probabilistic Models of the Brain,Bayesian Brain。
目錄:
01 預測編碼的起源
02 預測編碼理論的過去與現在
03 將運動引入預測編碼模型
04 增強技術與腦機接口
05 神經協同處理器
06 大語言模型的得與失
07 大腦研究的未來方向
08 后記
預測編碼的起源
保羅:預測編碼的理論源頭通常會被追溯到亥姆霍茲(Hermann von Helmholtz)基于推理和預測的感知理論。然而,就預測編碼相關的神經元的研究而言,預測編碼的起源是怎樣的呢?
?圖:艾賓浩斯錯覺(Ebbinghaus illusion,左)和繆勒-萊爾錯覺(Müller-Lyer illusion,右)都可以用亥姆霍茲的感知理論解釋。他提出了一個革命性的觀點,稱為“無意識推理”(unconscious inference),強調感知不僅僅是感官輸入的直接反映,而是大腦通過推理和預測對感官信息進行解釋和構建的結果。亥姆霍茲的理論暗示了感知的預測性,即大腦會基于過去的經驗和當前的感官輸入,預測未來的感官信息。這種預測性機制在現代認知科學中得到了進一步的發展,例如預測編碼理論(predictive coding)。圖源:@大峰_Design
拉杰什:那時我跟隨我當時的導師巴拉德(Dana Ballard)在羅切斯特大學攻讀博士學位。我和導師的相遇頗具戲劇性。原本我要攻讀理論計算機科學博士,但某天在復印室偶遇巴拉德教授。他說:“我有個暑期研究助理職位,要不要試試?”我答應了,從此迷上了計算機視覺研究。我們當時在破解一個難題:如何通過視覺皮層表征(如Gabor濾波器)重建遮擋物后面的物體。
我們的初步思路是借鑒視覺皮層的表征機制。我們嘗試使用Gabor濾波器的回應重建遮擋物之后的物體,結果發現,這些濾波器不能重建圖像,因為它們存在非正交性問題,導致簡單線性組合失效。后來我們思考能否在重建誤差成本函數上進行梯度下降,根據正交濾波器的響應重建圖像。這就引出了優化神經元回應的想法。
?圖:Gabor濾波輸出示例(上)。Gabor變換是一種短時加窗Fourier變換,Fourier變換是一種信號處理的有力工具,可以將圖像從空域轉換到頻域,并提取到空域上不易提取到的特征。但是Fourier變換缺乏時間和位置的局部信息。Gabor變換簡單理解起來就是在特定時間窗內做Fourier變換,是短時傅里葉變換中窗函數取為高斯函數時的一種特殊情況。因此,Gabor濾波器可以在頻域上不同尺度、不同方向上提取相關的特征。另外,Gabor函數與人眼的作用相仿,所以經常用作紋理識別上,并取得了較好的效果。如果在二維空間中,使用一個三角函數(a)(如正弦函數)與一個高斯函數(b)疊加,我們就得到了一個Gabor濾波器(c)(下)。圖源:@Yiwei Zhang
保羅:預測編碼的大致想法是怎樣的?我先說說我的理解。預測編碼的基本原理是,你在大腦前端有一些預測的想法,然后你通過大腦向后發送這些想法。以視覺為例,那些傳入的感官信號就會與這種預測相遇,這時預測與這些信號之間就會產生差異,這一差異會再度向前傳播。是這樣嗎?
拉杰什:這就是傳統預測編碼模型的基本想法,傳統視覺模型(如休伯爾-維澤爾理論[Hubel-Wiesel theory])強調前饋傳遞:從初級視覺皮層(V1)到顳下皮層(IT)的逐層特征提取,最終觸發認知和行為。但當我們審視皮層解剖結構時,每個腦區既發出前饋連接,也接收來自高級腦區的反饋連接。這一想法可以追溯到休伯爾與維澤爾。傳統想法通常認為感知是通過前饋傳遞完成的,一個圖像閃過時,就會有從V1、V2、V4視區一直到下顳葉皮層的前饋傳遞,而后這一圖像被識別?;谙嚓P的認知,如果你作出關于行動的決定并按下行動按鈕,行動就會隨之而來。
保羅:如果只能看到物體的邊緣部分,比如只看到了桌子的腿,還能認出那是一張桌子嗎?
拉杰什:這種分區域而治的現象在人工智能領域也屢見不鮮。整個人工智能領域被劃分為不同的子領域,有人在做視覺,有人在做運動控制機器人,還有人在做基于邏輯的高級人工智能。這與神經科學和認知科學的研究現狀非常相似,人們總是專注于對特定區域和模式的研究。
學界對反饋連接的普遍忽視實在令人震驚。如果你觀察每個皮層區域,就會發現它不僅會發送前饋連接,還會接收來自高階區域的反饋連接。但當時著名的視覺神經科學家認為反饋連接的功能不過是調控注意力,對于對象感知而言只是次要的。
預測編碼理論扭轉了這種認識,它指出大腦的根本任務是建立世界的內在生成模型,大腦持續生成假設并與感官輸入比對。二者之間的不匹配被稱為預測誤差(predictive error),預測誤差通過前饋通路反饋回去,被用來更新預測。也就是說,前饋通路實際上并不攜帶原始信號,而是攜帶預測誤差。我認為這是一個重大發現,與傳統思維不同。
保羅:這是一個史無前例的洞見嗎?
拉杰什:這個想法在當時實際上已經呼之欲出了。我當時正在閱讀戴維·芒福德(David Mumford)等人的論文,他在其中談論丘腦與皮層以及不同皮層區域之間的聯系。還有詹姆斯·阿爾伯斯(James Albus),他在人工智能的背景下討論這個問題,并就小腦做了一些工作。他對人工智能和機器人控制器中的層級結構也有非常有趣的想法。類似的想法最終可能會追溯到唐納德·麥凱(Donald MaKay),他在20世紀50年代寫過一篇論文,叫做《自動機的認識論問題》(The epistemological problem for automata)。他在其中提出這樣的想法:如果你能把誤差信號從一個模塊發送到另一個模塊,就能在層級結構的不同層級之間建立抽象表征。
我們所做的工作本質上是將許多已經隱秘存在的想法加以利用,并以數學方法來實現這些想法。我們發現,如果將神經反應解釋為預測誤差,就能更好地解釋一些令人費解的效應,如末端抑制(end stopping)、上下文調制(contextual modutation)、方向(orientation)以及對比效應(contrast effects)等。僅憑前饋模型則很難解釋這些效應。
保羅:麥庫洛克和皮茨(McCulloch-Pitts)也強調反饋的重要性。他們在繪制神經元小圖時,不同神經元構成一個反饋環路(feedback loop)。
?McCulloch-Pitts Neuron,第一個神經元計算模型,首先完成 I 和 w 的線性加權求和,然后再計算激活函數的結果。這本質是一個線性分類模型,作用是對輸入進行二分類。這符合生物神經元的特點,生物神經元對輸入信號所產生的輸出就是:興奮、抑制。那么,我們就可以通過MP神經元模型預測出樣本的目標。圖源:kenhub.com
拉杰什:是的,他們的確在強調環路的重要性。當時有很多人試圖用動力系統理論來解析這些環狀網絡的特質,但將這種基礎理論研究與解剖結構相對應,才是真正的突破。我們現在所做的是試圖將其映射到解剖學上,尤其是映射到大腦皮層上。大腦皮層可分為六層,前饋連接進入中間層,即第四層(內顆粒層),然后是來自淺層的反饋。
?皮層不同層級的細胞與成像。圖源:kenhub.com
費勒曼-范-埃森層級結構(Felleman & Van Essen Hierarchy)或許有助于理解這一點。如果我們將費勒曼-范-埃森層級結構解釋為進化過程中產生的一個生成模型,用于對世界進行本質建模。這就意味著你可以從這個生成模型中抽樣,并生成動物所面臨的情境及其與環境相互作用的例子,推理就是更新你所擁有的關于世界的預測。我認為其中的關鍵想法是,推理是在所有不同皮層區域的群體水平上快速更新的神經反應。在較慢的時間尺度上,這些不匹配或誤差則可以用來更新權重、學習或參與突觸可塑性。
?費勒曼-范-埃森對獼猴大腦視覺區域的層次結構。圖源:semanticscholar.org
預測編碼理論的過去與現在
保羅:你最有名的論文是1999年的論文*,那一定是你被引用次數最多的論文吧。你在一次演講中鼓勵研究生們說:“看,堅持你的想法,最終也許就會開花結果”。
*Rao, Rajesh PN, and Dana H. Ballard. "Predictive coding in the visual cortex: a functional interpretation of some extra-classical receptive-field effects." Nature neuroscience 2.1 (1999): 79-87.
拉杰什:我想表達的是,這篇論文能夠發表的原因之一是它提供了一種前瞻性的想法,例如,基于誤差神經元與下一皮層區域之間存在前饋連接預測它們存在于大腦皮層的第二層(外顆粒層)和第三層(外錐體細胞層);或者,能否觀察到更深層,例如第五層(內錐體細胞層)的神經元?它們會產生怎樣的反應?
根據預測編碼模型,深層神經元存儲的是對身體狀態或運動反應的評估。當時驗證其預言的實驗技術尚不成熟。直到十年后,隨著光遺傳學和雙光子成像技術的突破,學界才開始系統性驗證這些假設?,F在它已成為連接主義與貝葉斯推理的重要橋梁。
如果把時間快進到2000年末,就會發現那篇論文的引用次數開始不斷攀升。如今,越來越多的人試圖從不同方面研究這一理論。弗里斯頓(Karl Friston)在這篇論文發表10到20年后在news & views上撰寫的文章中談及這篇論文對他的研究的影響*。后來他提出的自由能原理(free energy principle)以及最近廣為人知的主動推理(active inference)都是在此基礎上的延伸。
*Friston, Karl. "Does predictive coding have a future?." Nature neuroscience 21.8 (2018): 1019-1021.
保羅:當時你能夠預測到這篇文章的影響力會如此之大嗎?
拉杰什:當時我并不相信這篇文章會激發人們去做實驗,其實論文最初備受質疑,Nature Neuroscience的編輯曾透露首輪審稿人拒絕撰寫評論,也許是因為這一理論有悖于他們對大腦皮層工作原理的傳統思考。
直到科赫(Christof Koch)和波吉奧(Tomaso Poggio)用福爾摩斯的《失馬得馬》(The Adventure of Silver Blaze)中“獵犬未吠暗示熟人作案”的隱喻,來闡釋預測編碼通過"未發生的預期"揭示深層信息。自此,學界才開始真正理解其價值。因此,這篇文章在發表初期文章的引用量實際上很少。10到15年之后,這一理論才真正流行起來。當然,反對者一直都在,事實上至今仍有很多人不相信反饋真的會影響實際感知。
?圖:偵探問福爾摩斯還有沒有什么其他要點,福爾摩斯說:晚上狗的行為很奇怪。偵探不解:那只狗在夜間明明什么也沒做。夏洛克·福爾摩斯回答:這就是不尋常之處。預測編碼的價值之一就在于,它可以通過關注"本應發生但未發生的事"揭示被忽略的信息。圖源:libro.fm
然而,我認為現在已經有明確的證據表明,在感覺運動任務中,動物做出一個運動動作之后,會有一個推理副本(inference copy)讓其做出預測。大衛·施耐德(David Schneider)實驗室和格奧爾格·凱勒(Georg Keller)實驗室提供的大量證據表明*,當運動或四肢按壓杠桿并產生聽覺反應時,聽覺皮層中能夠發現類似預測誤差信號的抑制。純粹的感覺實驗中也會看到類似預測誤差的報告。
Keller, Georg B., and Thomas D. Mrsic-Flogel. "Predictive processing: a canonical cortical computation." Neuron 100.2 (2018): 424-435.
保羅:這給我們什么啟示?預測編碼尚未被普遍接受,但技術進步正在驗證其假設?
拉杰什:科學理論的使命正在于此。好的理論應具備可證偽性。作為一名理論家,我們的工作就是提出足夠明確的理論,并將其與解剖學聯系起來。在此過程中,也許一些新的數據能夠激發新的理論,并引領這一領域向前發展。只要理論是合理的,與現有數據相匹配,提出新的理論就不足為懼。就像我們當年用"末端抑制"和"上下文調制"等現象,結合解剖證據構建預測編碼框架,即使部分假設被證偽,只要推動新實驗和新理論,就是成功。當前研究者應繼續整合實驗數據與計算建模,同時從演化角度追問大腦的根本任務。
保羅:你是否認為預測編碼是某種關于大腦運作模式的通用理論?
拉杰什:我認為這只是智能拼圖的一部分,別忘了ChatGPT和Transformer模型也基于預測機制。預測很重要,因為動物必須預測才能生存。在進化的某個階段,大腦開始建立世界模型,以便能夠預測即將出現的情境。
無論是在人工智能還是自然智能中,世界模型或預測模型都能帶來顯而易見的好處。這一模型有助于應對世界的不確定性,并彌補從肌肉傳感器到大腦的延遲,從而提高存活的幾率。此外,如果你有能力預測并擁有模型,那么你就可以做規劃。這樣一來,你就有能力做出比被動反應生物更復雜的行動。我認為,不論是從計算視角出發,還是基于演化和生物學的視角,建立這樣的一個內部模型都是必要且有益的。
將運動引入預測編碼模型
保羅:在此之后,你開始了對皮層的感覺運動理論的研究。這一轉變是如何發生的?
拉杰什:原因是多方面的。當我重新思考大腦存在的演化意義時,通常會追溯到一些最原始的生物行為——比如趨利避害或者覓食行為。在這個過程中,需要借助感知來盡量減少誤差。因此,感知與運動緊密相連,運動可以讓生物改變位置或對環境的不同部分進行采樣,感知則告訴它們運動成功與否。
保羅:從時間順序來看,是先感知后運動嗎?
拉杰什:兩者互為因果。在某種意義上可以說是先有感知,例如生物具有一個關于營養不足的內部感知,這一感知可能會驅使它行動。而當它移動并攝入一些營養物質后,內部狀態會發生改變。一個只有感知而沒有運動的生物是不可理喻的。即便是捕蠅草也有抓住昆蟲并消化的動作,它只是不會像生物那樣在空間中運動。
保羅:回到這兩篇論文之間長達25年的鴻溝,將運動引入預測編碼模型似乎是一個大的突破。我們剛剛詳細討論了運動的重要性。你能否總結一下,你是如何將運動融入預測編碼框架的?
拉杰什:我認為,真正促使我走上這條道路的第一項觀察結果是,即使是初級視覺皮層V1、初級體感皮層S1或初級聽覺皮層A1這樣的初級感覺區域中,也會觀察到運動的影響??ㄌm迪尼·哈里斯(Brooke Holey)實驗室和戴維·施耐德(David Schneider)實驗室的論文表明*,傳統的感覺區域中能夠觀察到與運動相關的反應。不僅如此,從解剖學角度來看,初級感覺區域(如V1、A1、S1、軀體感覺皮層)的第五層細胞會向皮層下運動區域發送軸突。V1將軸突發送到上丘,A1將軸突發送到下丘。
*Holey, Brooke E., and David M. Schneider. "Sensation and expectation are embedded in mouse motor cortical activity." Cell reports 43.7 (2024).
有趣的是,信息不僅僅是從大腦皮層的第四層發送到第二層或第三層,而后到達第五層,第五層也會將信息傳回第二層和第三層。表層和深層之間于是形成一個循環。如果表層從第四層接收感官信息,深層將信息輸出到運動中心,那么每個皮層區域內都會形成一個感覺和運動之間的循環。
強化學習中使用的馬爾可夫決策過程(Markov Decision Process,MDP)的思想有助于澄清感覺與運動之間的循環。簡單來說,強化學習認為智能體的每個動作都會改變環境狀態,而下一個狀態僅取決于當前狀態與動作。這構成了世界運行的"前向模型"(Forward Model)。與此同時,策略函數會根據當前狀態選擇最優動作。當我們將世界模型(預測)與動作策略(決策)結合,就形成了“預測→行動→再預測”的智能循環。
?圖:馬爾可夫決策過程(Markov Decision Process, MDP)是數學和計算機科學中用于建模序貫決策問題的一種框架。它是強化學習(RL)的基礎理論之一,廣泛應用于人工智能、控制理論、經濟學和機器人學等領域。MDP的核心思想是:在馬爾可夫性的假設下,通過策略選擇動作,以最大化累積獎勵。
強化學習的目標是學習策略(policy),即給定世界狀態中的最佳行動模式。如果將頂部的模型和底部的策略結合起來,就會得到一個根據你的感覺輸入預測下一個狀態的函數,并形成預測與行動之間的循環。任何皮層區域的感官運動模塊都在自己的時空尺度上按照這種模式運行。
最后的問題是,不同的層次結構和不同的大腦皮層區域之間是如何相互作用的?為什么會有反饋連接?事實證明,從計算的視角來看,如果你想以一種非常豐富的方式模擬世界,那么你需要做的就是讓較高層次調節較低層次的動態。大腦需要根據任務的不同,改變低層計算的函數。例如如果你的任務是開車去某個地方 ,那么你要加載的程序就是上車、確定目的地然后開車。你唯一需要做得是將已經學習到的策略植入到當前的目標中。加載新程序可以通過自上而下的調節來完成。也許前額葉皮層會將這些程序加載到低級區域。
保羅:那么前額葉皮層是怎么形成的?
拉杰什:我們的假設是,所有區域最初都在各自的時空尺度上運行,而隨著皮層層級的升高,信息處理的時間尺度逐漸延長,抽象程度遞增。這時會有一群神經元對當前的情境或任務進行編碼,特定目標在前額葉皮層被實例化并被維持,直到目標實現為止。在維持目標的同時,前額葉皮層還會調節包括軀體感覺區域在內的其他所有與實現目標相關的區域。因此,即使是軀體感覺皮層、視覺皮層、聽覺等初級感覺區域也有來自高級區域的背景信息。
在不同尺度運作的皮層區域會構成層級結構。整個過程中,復雜任務被分解為層層嵌套的子任務,直到脊髓層面對肌肉的毫秒級控制。這就是脊髓環路的工作原理。隨著不同區域的層級遞增,子任務被逐層實現,進而向更高層級翻轉,進入下一個目標。
?前額葉皮層。圖源:flintrehab.com
保羅:這種目標序列編程機制從何而來?
拉杰什:對目標進行編程是通過“學習”實現的,人工智能領域將之稱作課程學習(curriculum learning)。我們人類在出生后 ,甚至在母親的子宮中時,就開始學習這些模塊。從胎兒期的肢體運動嘗試,到幼兒期的抓取練習,我們逐步積累動作基元庫。簡單技能組合成復雜能力。前額葉的抽象目標建構,正是基于這些底層運動原語的豐富儲備。
保羅:我想我們都有過特定目標完成之后的迷茫,這種感覺會持續到下一個目標的出現。不同目標之間是如何轉換的呢?前額葉皮層如何參與其中?
拉杰什:在當前的模型中,你首先要有一個高層級的目標,并將之向下分解,隨著在每個更高層次的抽象動作或策略中向下延伸,它會在較低層次生成一個函數。該函數的輸出基本上是狀態到動作的映射。然后,每個實際的行動都是另一個抽象行動的子目標,對于更低級的狀態而言,這一實際行動又是一個需要繼續分解的抽象行動。抽象行動會不斷分解下去,直到脊髓。這意味著大腦的不同層級在復制相同的模塊。這似乎印證了蒙卡斯特爾的想法:大腦皮層中有類似的東西,不同的大腦皮層區域的算法可能是相似的。
這種想法對于一名理論家而言有不可抗拒的誘惑力。當前的核心挑戰在于:能否在計算科學框架下構建與之等效的數學模型?盡管尚無法確證大腦是否真實存在此類生物機制,但這并不妨礙我們進行理論建模的探索。值得注意的是,主動預測編碼理論展現出跨問題域的應用潛力,然而該機制與神經生物系統的實際運作模式之間的對應關系,仍需通過跨學科實驗進行系統性驗證。
我所相信的是一種更為廣泛的觀點,即不同皮層區域的區分不是依靠其功能,而是在于它們與什么區域相聯系。實際情況并非如傳統的觀點所認為的,不同皮層區域有著截然不同的編碼方式,有些人可能覺得視覺皮層在進行邊緣檢測,而聽覺皮層不可能進行邊緣檢測,運動皮層則更不相同。然而,從感覺和運動的角度來思考,就會發現不同區域總是同時包含著二者,只是在某些區域,感覺或運動被著重強調,但它們仍然具有感覺推理和運動控制的基本原理,而且在多個層面上共同運作。
增強技術與腦機接口
保羅:鑒于你剛才的描述,前額葉皮層中有更高層次、更抽象的目標,這一目標在更低的層次上實現。從演化的視角來看,人類的下一步會走向何處?我們會變得更加抽象嗎?演化的下一個里程碑是什么?
拉杰什:在預測這方面,人類總是變現很差,我們對未來發展大加猜測,但歷史證明我們總是猜錯。
話說回來,至少就人類進化而言,從生物學的角度來看,我們可能不會增加新的大腦皮層區域或新的大腦結構,但在使用工具、文化知識和工具方面,我們確實取得了驚人的進步。從人類自我增強的角度來思考,人類最初利用石頭等工具來自我增強,我們還使用輪子來提高移動速度,最近我們能夠用飛機飛行。與此類似,由于記憶容量的局限性,我們使用書寫和語言將事情記錄下來。
如果這些都屬于工具使用,那么我們當然可以借助當前已有的設備增強知識和信息獲取能力。腦機接口或許就是利用當前的設備進行自我增強。如果大腦本身在生物學上的運行速度和記憶能力是有限的,那么用人工記憶、人工處理能力和人工通信能力就能補足這種不足。但這會涉及很多倫理問題,大多數學者不想過多涉及這一領域。
保羅:你是如何將倫理考量融入研究中的?
拉杰什:我是一個神經技術中心的合作領導人,我們中心有一個神經倫理學團隊。每個開發腦機接口應用的工程團隊中都有一名倫理學家,負責向他們積極反饋最終用戶會如何看待這個項目以及項目的長期影響。作為工程師,我們對建造偉大或新穎的事物感到興奮,但我們并不能像訓練有素的倫理學家那樣預見后果。
很多時候,使用設備的患者不能提供明確的描述,這時候倫理學家的訪談就有必要?;颊呖赡軙f自己失去了主觀能動性,或患者的家屬報告說患者性情大變。迫在眉睫的任務就是如何阻斷這種變化,讓患者重拾能動性。通過倫理學家來找到這些問題的答案,能幫我們在問題變得更糟糕之前找到其解決方法。往往這是技術商業化之前亟需解決的問題。
保羅:這在學術研究中也是懸而未決的問題。如果我在大腦里加入腦機接口或某種假肢后性情大變,那么這到底是假肢的錯,還是我自己的錯?誰該為此負責?
拉杰什:這些一直以來都是爭論不休的問題,腦機接口和人工智能讓這些問題變得更加棘手。
神經協同處理器
保羅:你當前在做的是神經協同處理器。可以簡單介紹一下相關的研究嗎?
拉杰什:我認為,當前談論腦網絡,即腦與腦之間的直接交流,還為時尚早。但如果我們接受這個挑戰,就應當檢視當前的技術能做什么 ,以此來促進腦對腦交流的發展。腦電圖或許是很好的開始。
腦電圖可以用來解碼一些簡單的信息,例如,當你看著一個閃光燈——我們稱之為穩態視覺誘發電位——借助腦電圖可以解碼你盯著它看的頻率。如果你盯著兩盞不同的閃光燈,其中一盞會觸發你視覺皮層的振蕩,我們就能從中解碼你的意圖;如果你正在想象做某個動作,比如移動你的手,腦電圖就能從運動皮層中解碼出這一意圖。此外,我們還可以用經顱磁刺激直接向大腦傳遞信息。
保羅:經顱磁刺激就像是在大腦外加了一個線圈,然后對準大腦的一小部分發出非侵入性的、無損傷的脈沖。這些脈沖可能會影響原有的思維或行為。
拉杰什:特別是當脈沖被送到視覺皮層時,你會看到類似于小光點或條狀物的閃光,也就是光幻視。我們做了一些概念驗證,并發表了幾篇論文,但并不意味著可以將這項技術商業化,這些設備太笨重了。然而,如果能夠在不同的人身上連接腦電圖與經顱磁刺激,它們就能刺激大腦并記錄大腦的信息,這就形成了雙向腦機接口。我們可以從一個大腦記錄信息,經解碼編碼后傳遞給另一個大腦,并實現真正意義上的腦際通信系統。這就是我們所說的“增強”。現在,我們利用神經技術來增強人腦的交流和處理信息的能力。
?圖:《黑客帝國》劇照。劇中對未來腦機接口和腦際通訊技術的暢想,即便到今天也攝人心神?!澳闶沁x擇紅色藥丸,還是選擇藍色藥丸?”圖源:《黑客帝國》
保羅:我們當前發展到了什么階段?未來人類會是怎樣的?
拉杰什:我認為,從某種意義上說,當前正在做的是神經協同處理器。也就是說,一種設備可作為大腦的輔助工具,既能解碼來自大腦的信息,又能將信息編碼傳回大腦。
保羅:這意味著它在聆聽大腦的聲音,然后按照算法對其進行編碼并將大腦的內容進行分類。這是一個信號傳遞過程,還是說它能理解信號?
拉杰什:大腦協同處理器必須內置某種形式的人工智能。我們提出的神經協同處理器是一個人工神經網絡。這本質上是生物神經網絡與人工神經網絡的交互系統,兩者需要協同適應。當前面臨的挑戰是,它們如何共同適應以真正實現目標?
從醫學視角來看,如果想要替代失去的功能,比如有人中風了,你想讓他恢復運動功能,那么這個設備就可以通過刺激脊髓替代受損的皮層功能。此時,人工智能需要自我訓練,同時患者也需學習控制這個替代回路。這里有一個核心的人工智能問題,如何確保人腦與這種人工設備能夠實現共同的目標?例如,當患者無法自主抓取物體時,設備通過視覺誤差信號(如目標物位置偏差)觸發脊髓刺激。理論上可采用反向傳播算法訓練人工智能——但難點在于反向傳播需通過患者身體和大腦完成,這顯然不符合傳統人工智能訓練范式。
在理想情況下,如果你想訓練提供刺激的神經網絡,就必須以某種方式獲得誤差信號。不幸的是,誤差信號現在處于外部任務空間中。為了能夠完成這一任務,人工智能需要一個內部模型,或者說前向模型。你的大腦就是這樣一個前向模型。接下來對它進行刺激,會導致你的大腦動力學以特定方式運動,如果你能預測這種動態變化,就能想出實現特定目標的最佳刺激方式,使其變成了一個控制問題。
保羅:作為神經科學家,我想大腦最神奇的地方之一就是它的適應能力很強。那么大腦會進行錯誤的學習嗎?這一點可以檢驗嗎?
拉杰什:這實際上是一個非常重要的問題,尤其是在感覺刺激領域。例如,人們試圖通過人工刺激軀體感覺皮層恢復觸覺。我們是否應該讓刺激盡可能自然?當你刺激軀體感覺皮層時,病人通常會說,我感覺這與我用自己的手觸摸時產生的觸覺感受不一樣。有時候研究者會說,你只是還不習慣。如果你的大腦一直接收這些新奇的信號,它們就會成為一種自然觸覺。
保羅:這就像訓練,就像我試圖說服我的孩子們:“別擔心,繼續練習,會越來越容易的”。但這個過程很痛苦。
拉杰什:是的。痛苦感在此起著關鍵作用,因為如果你未能傳遞"自然化刺激",學習過程可能變得異常漫長。這里存在權衡:若能以某種方式使用大腦的"語言"——即通過電刺激、光刺激等方式傳遞脈沖,使其更易被大腦解析——相較于人工脈沖集式的刺激,學習速度可能大幅提升。我認為這是個值得探討的問題。
?圖源:Mitch Blunt
保羅:那么,這些刺激更像是噪音,還是世界的自然統計?
拉杰什:這要參考特定區域的神經元從其他神經元接收信息的方式。例如,如果已知在群體水平上存在特定頻率的活動模式(如β頻段振蕩),就可以考慮在振蕩的特定相位施加刺激,或嘗試與這種振蕩同步。這可能比不考慮腦區當前狀態隨意施加刺激更有效。關鍵在于必須同時進行記錄和刺激。不能只是刺激腦區,還必須通過記錄了解該腦區正在發生什么,然后根據實時情況調整刺激參數,以持續傳遞可理解的刺激信號。
保羅:你剛才提到需要以一種特定腦區期待的方式輸入刺激,這是一種非常具有預測編碼意味的想法。
拉杰什:是的,這是一種讓大腦更快學習的方法。你可以忽視大腦的反應,只是不停地輸入,大腦最終可能會理解這種刺激模式。問題是,這個過程可能非常漫長。因此,在提供刺激的過程中,對大腦區域發生的情況進行反饋是有意義的。
保羅:應當如何研究大腦與這個向大腦輸入信息的外部設備之間的相互作用呢?
拉杰什:神經協同處理器是解決這個問題的一種方法,即如果你能夠調整提供刺激的神經網絡,使外部任務空間中的誤差最小化,那么你就能減輕大腦的學習負擔。這不是一個穩態系統,我們稱其為“共適應系統”。如果只有單方具有適應性(如大腦自適應而刺激模式固定),學習壓力將完全由大腦承擔。若雙方都具備適應能力,則挑戰在于能否使兩者優化相同的成本函數或目標函數——這正是構建協同適應、共同進化系統的核心工程難題,也是未來人工智能與腦機接口一起發展的可能方向。
保羅:在神經協同處理器方面,你還有什么需要補充的嗎?
拉杰什:神經協同處理器的想法與我們早期做的腦對腦交流工作有關。經顱磁刺激并不是一個全新的想法。我們的真實想法是,科幻小說中關于心靈感應的討論由來已久,隨著生物識別技術不斷進步,越來越多的公司對其產生了興趣,現在也許可以嘗試將之帶入現實。有趣的是,如果在多名患者身上植入腦機接口,可能真的會出現非常原始的腦對腦交流。因為只要你有能力進行刺激,就可以把非常簡單的信息從一個人的大腦傳送到另一個人的大腦。一旦這被證明可行,我們就向實現心靈感應邁出了一步。
?圖源:Matt Chinworth
大語言模型的得與失
保羅:當前人們會基于特定的人工智能模型假設大腦就是如此運作的,然后將目前正在運行的人工智能模型映射到大腦過程中,并經常發揮作用。這是否影響了你對大語言模型的思考?
拉杰什:是的,當相關論文發表的時候,我被深深吸引住了。其核心思想就是預測編碼,只是他們沒有利用預測誤差進行推理,內部表征也沒有更新,但學習顯然是由預測誤差驅動的。其分層架構同樣引人注目——通過軟注意力層逐步構建動態表征——每個時間步都將表征傳遞至所有層級,規模極其龐大。這種純基于預測的人工系統僅通過預測下個詞語就能實現如此成就,實在令人著迷。它甚至沒有循環反饋結構,也就是說,這不是一個回歸模型(regressive model)。實際上,它同時處理過去與未來的信息。這與在主動預測編碼模型的感覺方面類似,感覺處理模塊持續基于先前狀態預測未來,但缺失動作生成模塊。
在主動預測編碼架構中,除預測網絡之外,還有一個策略網絡(或控制網絡)控制著下一個輸入的生成,二者密切互動。根據任務的不同 ,控制網絡會向預測網絡提供行動信息,這正是Transformer中所缺失的。近期將強化學習引入Transformer的嘗試,可視為控制器的回歸。更值得注意的是,研究表明Transformer實現了某種超網絡(hyper networks)機制——這正是我們主動預測編碼模型的核心:高級皮層通過超網絡調控低級皮層的功能運算。
保羅:我想了解你對Transformer這個深度學習模型架構的看法。
拉杰什:我認為它們很棒但不夠完善。作為預測模型,其捕捉世界統計規律、物理動態的能力卓越,但不足以構成真正的智能。正如Paul Cisek和Buzsaki等學者指出的,智能本質關乎行動與運動。缺乏控制模塊(如ChatGPT等Transformer模型不具備能動性感知)是其根本缺陷。
保羅:如何實現能動性呢?
拉杰什:對于能動性而言,必須通過與環境交互的行動能力獲得。我們因能作用于世界(包括言語這種運動行為)而建立能動性——行動引發后果,通過觀察后果與目標達成的關系,逐步構建"我能改變世界"的認知。而純預測的系統缺乏以行動引導預測、實現目標的機制,因此難以具備真正的能動性。
保羅:你認為能動性能夠被建構起來嗎?
拉杰什:是的,我認為任何開始與世界互動的系統,其所具有的與環境交互的行動能力和目標生成機制都與能動性有關。能動性需要策略或控制系統,以及一個與之相匹配的世界模型。
?圖源:Matt Chinworth
大腦研究的未來方向
保羅:早些時候,我們只能記錄單個神經元的活動。當時的技術還不足以測試預測編碼理論框架下的假設。后來,神經元的連接組學發展起來,現在,我們有了超高密度記錄技術,神經元記錄技術,除此之外,我們還有人工智能模型和強大的算力。這些技術突破中,你認為哪項最具革命性?
拉杰什:這是個棘手的問題,選擇其中一個很可能會得罪一大批其他領域的同行。對理論神經科學家而言,這是黃金時代,也是思考更大規模理論的大好時機,畢竟,有如此多的數據可供使用。
我讀研究生的時候,只有芒福德的書和論文,還有科赫和喬爾·戴維斯(Joel Davis)寫的一本叫做《大腦大規模神經元理論》(Large-Scale Neuronal Theories of the Brain)的書。這些理論在當時就已經存在了,只是沒有數據加以驗證。如今情況截然不同:某天我可能沉浸于大規模神經記錄數據,驗證預測編碼理論中的層級誤差傳遞;次日則鉆研連接組學,檢驗解剖連接是否符合理論假設。
當然,人工智能始終是新創意的源泉。人工智能領域瞬息萬變,可以從中挑選出一些瑰寶,看看它們是否與理解大腦有關。身處信息爆炸時代,要想真正取得進步,就必須訓練大腦成為高效的信息采集者,從海量數據中構建新理論。雖然任務艱巨,但相比數據匱乏的年代已是巨大進步。我認為,現在是積極合作的階段,計算機科學家、人工智能專家、神經科學家和心理學家都應勇于提出宏大理論,這正是突破學科邊界的最佳時機。
保羅:這里可能存在一個悖論:當工具極大豐富時,宏觀理論思考反而變得更困難。在數據洪流中,如何培養理論思維?
拉杰什:這是一個很好的問題。對我而言,理論構建始于計算視角的規范性思考,即先從規范性的角度來思考,之后再尋找與之相關的大腦中的數據,從計算開始,自上而下地深入到神經科學的研究。另一種方法是自下而上的研究,這種方法是從對特定腦區的研究出發,試圖從理論上超越這一個腦區,因而對這一區域與所有其他相連區域的互動角度來進行思考。在此之后是對更大范圍的行為的考量。
我在特里(Terry)的實驗室做博士后的時候, 作為理論家訪問了許多不同的實驗室。我詢問研究V1區域的人,既然V2與V1是相通的,為什么不同時研究V2區域以及它們之間的相互作用呢?那個人回答說,他會在弄明白V1之后研究V2區域。
然而,如果大腦的工作方式不能進行還原,如果V1的特性與V2和其他結構密切相關,他的研究路徑注定是走不通的。我認為,作為神經科學家,我們所面臨的挑戰是,大腦是一個經由數千年進化而成的復雜機器。如果使用還原論 ,就很難理解整個大腦發生了什么。也許我們沒有能力了解整個大腦,但我們必須設法選擇正確的抽象層次,并希望能將這些抽象層次從行為層一直聯系到分子層。這需要群體的通力合作。特別是在這個信息大爆炸的時代,進行整體性的研究尤為困難,但我們不能失去希望。我們已經在路上了,應該對此持樂觀態度。
后記
預測編碼理論為理解大腦的信息處理機制提供了強有力的框架,其在神經科學、人工智能與腦機接口等領域的應用前景廣闊。隨著技術的進步與跨學科合作的深入,我們有望在未來揭示大腦的更多奧秘,并推動人類智能與技術的進一步發展。
拉杰什的研究經歷對于許多研究者而言也是一種鼓舞,他的理論從提出到獲得大范圍的認可和驗證之間間隔了10-20年。然而,正如他激勵后輩時所言:“堅持你的想法,也許最終就會開花結果”。
為了閱讀體驗,本文對聽稿進行了適當地編輯。
原對話指路:
https://www.thetransmitter.org/brain-inspired/rajesh-rao-reflects-on-predictive-brains-neural-interfaces-and-the-future-of-human-intelligence/
關于追問nextquestion
天橋腦科學研究院旗下科學媒體,旨在以科學追問為紐帶,深入探究人工智能與人類智能相互融合與促進,不斷探索科學的邊界。如果您有進一步想要討論的內容,歡迎評論區留言,或后臺留言“社群”即可加入社群與我們互動。
關于天橋腦科學研究院
天橋腦科學研究院(Tianqiao and Chrissy Chen Institute)是由陳天橋、雒芊芊夫婦出資10億美元創建的世界最大私人腦科學研究機構之一,圍繞全球化、跨學科和青年科學家三大重點,支持腦科學研究,造福人類。
Chen Institute與華山醫院、上海市精神衛生中心設立了應用神經技術前沿實驗室、人工智能與精神健康前沿實驗室;與加州理工學院合作成立了加州理工天橋神經科學研究院。
Chen Institute建成了支持腦科學和人工智能領域研究的生態系統,項目遍布歐美、亞洲和大洋洲,包括、、、科研型臨床醫生獎勵計劃、、等。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.