新智元報道
編輯:Aeneas KingHZ
【新智元導讀】MIT物理學大牛Max Tegmark團隊,再出重磅力作。他們發現:AI能夠在沒有任何先驗知識的情況下,完全獨立地提出哈密頓物理量,或拉格朗日方程式。僅僅通過嘗試解釋數據,AI就自己收斂到了這些物理原則,發現了宇宙間的奧秘!
充滿想象力的MIT大牛團隊,又有新作了!
大佬Max Tegmark、Ziming Liu等人在一項新研究中發現,AI能夠在沒有任何先驗知識的情況下,能夠完全獨立地提出哈密頓物理量。
論文地址:https://arxiv.org/pdf/2504.02822v1
不過要注意,這里的AI是LNN,而非LLM。
他們提出一種新的架構MASS(Multiple AI Scalar Scientists),允許單個神經網絡學習跨多個物理系統的理論。
MASS在來自各種物理系統(擺或振蕩器)的觀測數據上進行了訓練,且事先并未被告知底層的物理定律。
結果,神奇的事來了。
MASS開發的理論,往往與已知的經典力學哈密頓或拉格朗日表述高度相似,具體取決于其分析的系統的復雜性。
也就是說,AI僅僅通過嘗試解釋數據,就收斂到了這些已經成熟的物理原理!
果然Max Tegmark出品,必屬精品。
驚人腦洞:AI科學家大PK,結果如何?
這項研究,源于研究者們的一個腦洞:如果兩個AI科學家是在相同的訓練數據上訓練的,他們會不同意彼此的觀點嗎?
有趣的是,他們發現,這些AI科學家在學習經典物理學之后,起初可能會存在分歧,但當數據變得多樣化之后,他們就會不約而同地收斂到拉格朗日/哈密頓這些已知的理論。
如果簡單概括這項研究的幾大發現,可以歸結如下。
1.一個AI科學家能夠學習對同一物理現象的多種不同解釋;
2.當面對更復雜的系統時,表現出色的AI科學家會對其原有理論進行修正,以適應新的觀測;
3.AI科學家學到的理論具有高度相似性,這些理論通常與哈密頓或拉格朗日描 述形式非常接近;
4.在初期所學的理論更接近哈密頓動力學,但隨著系統復雜性的提升,最終學習結果更趨近于拉格朗日描述,這表明在豐富的理論空間中,拉格朗日動力學仍是唯一正確的描述體系。
在論文開篇,他們拋出了這張有趣的圖——AI科學家的演化。
即使在如單擺這樣簡單的物理系統中,不同的AI科學家在從數據中學習時,也會得出不同的結果。無法解釋當前數據的理論會被判定為錯誤。存活下來的AI科學家,則將面對更復雜的系統,例如雙擺,并據此不斷修正自己的理論以適應新的數據。最終,剩下的AI科學家將學到什么?
縱觀人類歷史,科學的進步是由好奇心推動的。
從阿基米德的浮力原理,到伽利略對運動的系統研究,到牛頓的經典力學公式,再到愛因斯坦的相對論,這些科學家通過觀察提出假設,從而成為經典的科學原理。
而在今天,我們正見證著全新的范式:ML和數據驅動方法,開始在粒子物理、天文學、材料科學和量子化學等領域取代傳統的統計工具。
下一步,機器學習方法很可能就將轉變為完全成熟的「AI科學家」,以最少的人為干預來提出假設、設計實驗、解釋結果。
牛頓和萊布尼茨,會對同一現象(微積分)提出互補但又不同的表述。那么在架構、初始方案和訓練范式上各不相同的AI,會收斂于不同的理論公式或視角嗎?
當AI科學家涉足更大更復雜的數據集,它們學到的理論會怎樣以意想不到的方式演變?
這次,研究者在實驗中,研究了不同條件下訓練的多個AI科學家,是會在科學理論上趨于一致,還是產生分歧。
AI不依賴物理先驗,發現潛在物理規律
在論文中,團隊提出了一種新方法,在幾乎不依賴物理先驗的前提下,通過學習一個標量函數,并利用「作用量守恒原理」,來發現潛在的物理規律。
這一思路與哈密頓神經網絡(HNN)和拉格朗日神經網絡(LNN)相似。
受經典力學中哈密頓描述方式的啟發,HNN將物理系統運動方程的學習任務分解為兩個步驟:首先學習一個標量函數(即哈密頓量H),然后通過哈密頓正則方程計算運動狀態:
LNN則通過改為學習拉格朗日量來規避這一問題,并通過歐拉-拉格朗日方程來求導:
本文關注的核心問題就是:如果模型擁有學習多種理論的自由,它最終會學到什么?
MASS登場!
為此,團隊提出了MASS的模型。這是一種通用框架,同樣以「作用量守恒原理」為出發點,也從數據中學習一個自由形式的標量函數。
但與LNN和HNN不同,MASS并不會預設運動方程,而是具備自行學習運動方程的能力。
MASS背后的核心思想,就是在一個神經網絡中嵌入跨多個物理系統學習與統一信息的能力。
它的目標是內化一個共享框架,從而捕捉所有數據集中所體現的基本模式。
具體來說,它通過學習一個標量函數(類似于拉格朗日量或哈密頓量),利用其導數來編碼各個系統的特定動力學特征。
MASS 的工作流程如下:
1.數據輸入:MASS 接收來自不同物理系統的觀測數據,例如軌跡、狀態或能量值
2.假說生成:為每個系統分別設立的神經網絡將學習一個標量函數,描述該系統的特定動力學
3.理論推導:MASS在所有系統間共享的最終一層會對學習到的標量函數在系統坐標(如位置、動量和/或速度)上的導數進行計算,推導出控制方程
4.精化與泛化:模型的輸出會與真實訓練數據比對以計算誤差,然后通過累加、優化,獲得與多物理系統觀測結果一致的統一理論
實驗
單個AI科學家
在The Grand Design一書中,霍金表達過他對物理的理解:只要預測結果和實驗一致,多種理論框架,可以同樣有效地描述物理現象。
比如,對于無阻尼彈簧-質量系統,牛頓運動定律可以解釋這個系統。
但通過能量函數與守恒定律,哈密頓力學體系獲得了全新的理論視角。
相比之下,即便對于簡諧振蕩器這類相對簡單的物理系統,機器學習模型也展現出極強的數據擬合靈活性。
這引出了一個深刻問題:如果訓練單個「AI科學家」來研究簡諧振蕩系統,學習到的理論表征將呈現何種形態?
與經典的牛頓力學或哈密頓力學相比,又會有何異同?
對此,在無阻尼彈簧-質量系統的模擬數據上,研究團隊對MASS進行了訓練。
圖3展示了訓練結果。
可以看出,MASS可以很容易地模擬出振子的運動軌跡,它所給出的預測具有良好的一致性和準確性。
圖3:MASS在簡單諧振子上的訓練結果
那在對最后一層添加L1和L2正則化的情況下,模型是如何學習并簡化理論的?
這要在訓練過程中,跟蹤模型中的顯著權重數量,即在最終輸出層中貢獻了前99%總范數的權重數量。
可以觀察到,隨著訓練步數的增加,這個數量也在減少,但最終會在42這個相對較大的數值上趨于穩定。
這說明有將近42個權重項具有顯著數值,這顯然遠不能稱為一個簡單的理論。
畢竟只要4個參數,都能擬合出鼻子會動的大象!
圖4描述了在相空間中,MASS學習到的標量函數S與經典哈密頓函數H的對比。
研究發現,單個MASS智能體,能夠成功重構出勢能與動能之和的表達式。
圖4:(a)學習得到的標量函數S與(b)哈密頓量x2+y2的等值線對比圖
具體來說,MASS通常能夠學習到與傳統物理先驗相似卻存在差異的函數形式。
在圖5中,研究者將每個激活的平均范數E(a_i)與對應的權重w_i進行了比較。
總體來看,非零權重通常對應著非零的激活范數。對最終預測貢獻最大的激活項,和按權重范數排的前五項完全一樣。
這就說明,它們是MASS所學習理論中最關鍵的組成部分,對最終預測起到了重要作用。
圖5的熱力圖顯示出,顯著項形成了三個明顯的聚類。
這就說明:模型形成了某種結構化的表示方式,將不同類型的變量組合成特定模式進行預測。
總之,本節結論可以概括如下。
1. 單個AI科學家可以非常有效地學習一個簡單的系統(見圖3),而且它會隨著訓練深入自動篩選出重要理論部分。
2. 學習到的理論結構類似于我們熟悉的物理表達式(見圖4)。
3. 當模型容量增大時,單個AI科學家往往會學習到多個看似不同的理論(見圖5(a))。
4. 不過,這些不同的理論之間往往是強相關的(見圖5(b)),實質上反映的是同一種規律。
那么,當AI科學家面對更復雜的物理系統時,哪些重要項會保留,哪些會消失?
AI科學家:更復雜的系統
簡諧振子系統可能對于一個機器學習模型來說太簡單了——它只需要擬合-x就夠了。
接下來,研究者探索了當AI科學家起初只觀察單一系統,后來逐步接觸到更復雜的物理系統時,會發生什么變化。
本節關注的四個具體系統:簡諧振子、單擺系統、開普勒問題/引力勢能系統、相對論簡諧振子。
當面對多個系統時,AI科學家如何稀疏化其理論(即篩選出關鍵項)?
又如何多樣化地學習,適用于不同物理規律表達結構的?
圖6展示了MASS模型在面對逐步增加復雜度的物理系統時的訓練表現。
訓練過程的具體安排如下:
- 在第0步開始,模型首先接觸的是簡諧振子系統;
- 到了第10,000步,加入了單擺系統;
- 第20,000步時,再加入引力勢能系統(開普勒問題);
- 第30,000步時,引入最后一個系統——相對論簡諧振子。
這個訓練策略模擬了「AI科學家」逐步暴露在越來越復雜的自然規律面前的過程,進而觀察它如何在學習過程中調整和發展自己的理論結構。
可以發現如下結論。
1. 隨著系統數量的增加,模型學習到的顯著項數量反而減少了。
2. 隨著系統數量的增加,模型學習到的理論變得更加多樣化。
這說明:能同時解釋多個系統的項要比解釋單一或部分系統的項少得多。
第二個發現則體現在圖7中相關性熱圖的右下角:隨著訓練系統的增多,越來越多彼此不相關的項開始出現。
有趣的是,他們還發現:當MASS被要求同時解釋多個系統時,它最終傾向于使用幾乎相同的一組項來統一建模!
這表明在多系統學習中,模型傾向于尋找通用理論表達。
多個科學家:理論融合共生
當不同科學家回答同樣的問題時,似乎得出不同的理論,但其實只是同一硬幣的兩面(比如牛頓和萊布尼茨)。
當多個科學家去學習同樣的知識呢?
可以看出,不同智能體間的權重參數與激活值,存在顯著差異。
如下圖所示,根據初始化條件的不同,顯著項的選擇會發生劇烈變化。
然而即便如此,不同智能體篩選出的顯著項卻保持高度一致。
圖8展示了各激活項的相對強度分布,可見清晰的帶狀分布特征——這些條紋標定了可用于構建系統描述理論的可能項。
然而,激活強度與權重的大幅波動表明:雖然所有MASS學習的理論都落在圖8的暗紋區域內,但每位「AI科學家」完全可能學會不同的理論形式。
那么,這些AI科學家是否在學習完全不同的內容?
下文將證明,事實并非如此。
研究者針對MASS模型輸出層的激活矩陣,進行主成分分析(PCA),可以發現:在大多數隨機初始化情況下,僅第一主成分就能解釋90%以上的方差。
將主成分降維后的B×1激活值,分布如圖14所示——統計分布特性實際上與均勻分布等效。
這一發現,在相對論性彈簧質量系統(圖15b)和單擺系統(圖15a)的多智能體實驗中得到進一步驗證。
通過計算降維后B×1激活向量的相關系數(見圖9),可以發現:不同智能體間存在強相關性。
基于上述實驗結果,可以得出明確結論:當針對同一物理系統訓練時,不同智能體確實能夠學到相同的底層理論。
這樣,文章最初的核心問題就被證實了:兩位AI科學家確實能夠達成共識!
探索未知:Is拉格朗日all you need?
現在將分析拓展至完全普適的情形:讓多個MASS智能體在多個物理系統上進行訓練。
如果將現有框架拓展至尚未發現的系統時,會發生什么?
為此,研究者引入了合成系統。
如表I所示,通過定義每個系統的動能T與勢能V進行系統改造,特別構建了兩個附加合成系統。
核心實驗結果如圖10所示。
其中正確MASS智能體的數量定義為:在全部已見物理系統上,最大MSE損失低于5×10?3的初始化種子數;而顯著項的數量定義為:輸出層172個項中,累計貢獻95%總范數所需的最少項數。
隨著訓練系統數量的增加,始終保持正確的MASS智能體數量呈下降趨勢(圖10藍色虛線)。
研究者在所有正確的MASS科學家上進行這種受限優化擬合,結果列于表II中。
與先前的觀察結果一致,MASS幾乎可以直接被轉換為拉格朗日理論,其R^2值普遍高于0.9。
這種與拉格朗日理論之間的強相關性引出了一個更深層次的問題:我們是否還能找到第三種經典力學的描述方式?
至少,在MASS所探索的T=172個表達項的豐富理論空間中,答案似乎是否定的——拉格朗日描述就足夠了。
AI學會拓展到高維系統
盡管前文主要研究一維問題,但自然界中絕大多數物理系統都具有更高維度。
本節中,研究者以經典的雙擺混沌系統為例展開研究——該系統的兩個自由度分別為兩個擺桿的擺動角度。實驗結果表明,MASS能有效拓展至高維場景。
研究團隊成功復現了雙擺系統的解析軌跡(圖12)。
實驗實現了對擺動角度的精確預測,與拉格朗日神經網絡的結果相當。
值得注意的是,盡管沒有在架構中直接引入拉格朗日方程和歐拉-拉格朗日方程來強制能量守恒,MASS仍能自主習得該特性!
這就跟團隊的預期相一致了,他們發現:MASS學到的理論形式,與拉格朗日量高度相似。
作者介紹
Xinghong Fu
麻省理工學院數學和CS專業的本科生,在Max Tegmark實驗室做過本科研究員,工作為將機器學習應用到物理學領域。
劉子鳴(Ziming Liu)
劉子鳴,從事AI與科學交叉領域研究。
2021年2月,他進入麻省理工學院,攻讀物理學博士學位,預計今年5月畢業。
2020年9月-2021年2月,他在業界從事機器學習理論研究。
2016年9月-2020年6,他就讀于北京大學物理學專業。
Max Tegmark
Max Tegmark,MIT的明星物理學教授。
他在獲得皇家理工學院的物理學理學士學位后,于1990年離開了瑞典。之后,他就讀于加利福尼亞大學伯克利分校,并于1992年獲得碩士學位,1994年獲得博士學位。
博士畢業后,他先后在馬克斯-普朗克物理研究所、普林斯頓高等研究院、賓夕法尼亞大學任職。2004年至今,他一直在麻省理工學院物理系。
他專注于宇宙學和量子信息,但他當前研究的主要焦點是智能物理學。
參考資料:
https://arxiv.org/pdf/2504.02822v1
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.