當百億千億參數的大模型霸占著科技頭條,“若無必要,勿增實體”這把古老“剃刀”是否依舊閃耀?
在這個追求極致性能的時代,“更大即更好”似乎已成為不言自明的公理。然而,從拉瓦錫到愛因斯坦,從牛頓第一定律到量子力學,科學史上最優雅的理論往往以其簡約之美征服世人。這場復雜與簡約的“較量”,仍以意想不到的方式豐富著我們的認知世界。
復雜性與簡潔性真的是對立的嗎?本文將回溯歷史長河,探尋一個古老哲學原則與現代科技之間的微妙關聯。在這個過程中,我們或許能夠發現,復雜與簡潔之間隱藏著怎樣的辯證關系。
奧卡姆剃刀的歷史源頭
人類對簡潔的追求是跨文明的。東方的《道德經》以“為學日益,為道日損”揭示認知的辯證法則,亞里士多德在《物理學》中通過“自然界選擇最短路徑”(最小作用量原理)勾勒自然規律。牛頓在其《自然哲學原理》第三卷中曾寫到,“解釋自然界的一切,應該追求使用最少的原理。如果很少的理由就能解釋自然,那么再列舉更多的理由就是多余的了。”
而對“簡潔原則”的最簡潔表述,莫過于13世紀出生于奧卡姆的方濟會修士威廉(又名“奧卡姆”)提出的:
“若無必要,勿增實體”(Entities should not be multiplied unnecessarily)。
?圖 1. 奧卡姆的威廉素描,1341年。來源:維基百科
要理解這句話,首先要了解這句話的背景,這就需要重返中世紀經院哲學的論戰現場。
圣經故事中,亞當作為第一個男人,憑借上帝賜予他的“完美語言”,得以給伊甸園中的每種生物命名。這種完美的語言體系將“最恰當”或“最完美”的詞語與其本質聯系起來,以此揭示萬物終極真理。可隨著亞當被趕出伊甸園,完美語言也消失了。為此,哲學家/神學家寄希望于深入探究以復原完美的亞當語(Adamic language)[1]。
但后來,哲學家們對“共相”、“本質”等抽象概念的爭論愈演愈烈,奧卡姆率先意識到這場思辨已陷入虛無,他拒絕談論那些看不到摸不著的“東西”,只承認確實能夠用感官觀察到的存在,那些所謂的普遍性要領都是無用的累贅,應當被無情地“剃除”。
奧卡姆提出,概念基于感知行為。就像中世紀酒館的主人在門前放置桶箍來傳遞“新酒到貨”的信息,雖然桶箍本身不是酒,但傳遞了預期的意義。同理,環境中的物體將預期的意義傳遞出來,而人類自帶感知能力,能夠在腦中形成概念。我們的感知與環境中的物體之間存在因果關系,概念則作為這一關系的副產品出現。
而“剃刀”這個比喻,直到1649年才被創造出來。“剃刀”的意象,來源于中世紀作家的刮刀。在抄錄羊皮紙手稿時,為了不破壞周圍文本的情況下擦除單個字母和單詞,就需要使用刮刀。“奧卡姆剃刀”取其喻義,旨在改進思想的表達,保證措辭的優雅的同時節省變量的考慮。雖然剃刀最初被描繪成一種用來打擊奧卡姆本人的武器,但剃刀的引入,為簡潔原則提供了令人信服的代言形象。
?圖 2. 中世紀的抄寫室中,刮刀是抄寫經書的人員必不可少的工具。
用當下計算機的自然語言處理算法(NLP)來解釋。當語言學家還在討論“不同語言之間的語法規則有哪些共性”、“不同人類語言的本質特征是什么”時,奧卡姆剃刀指出,將單詞轉換成向量,以此計算向量間的關系,只要讓機器獲得足夠的感官體驗(訓練數據),算法會自動會總結出“男人+國王=女人+女王”。
奧卡姆剃刀代表的唯名論(Nominalism)認為,科學發展不必受限于既有框架,而是取決于能觀察到什么;如果觀測和現有理論不符合,那就更換理論框架。唯名論取代了之前占據主導的唯實論(Realism),自此這種對簡單解釋的偏好,更是指導著之后數百年間的科學發展。
奧卡姆剃刀的應用及濫用
17-18世紀,化學家試圖解釋燃燒現象,曾提出“燃素”(phlogiston)這一假想實體。“燃素說”認為,可燃物質含有“燃素”,燃燒是燃素釋放的過程,金屬煅燒后變成金屬灰(氧化物),被視為“失去燃素”。又因為金屬煅燒后重量增加的實驗發現,燃素被額外假設“具有負重量”。
與之相對的是,拉瓦錫(Lavoisier)提出的“氧化理論”,即用氧氣與物質的結合解釋燃燒。這一理論不需要引入新的神秘物質,僅用已知元素的相互作用就能自洽地解釋現象。值得一提的是,當時普利斯特利(Priestley)通過加熱紅色氧化汞獲得了一種"特殊的空氣",這種氣體能使蠟燭燃燒更旺、老鼠呼吸更順暢,這就是后來被拉瓦錫命名的“氧氣”。
在技術條件有限的當時,既無法直接觀測到燃素,也難以提純出純氧,但因為拉瓦錫的氧化理論更簡潔,符合奧卡姆剃刀原則,逐步收獲了科學社區的廣泛認可。而正確的理論,又推動了后續科學的進步。
類似的例子在科學史上屢見不鮮。愛因斯坦提出狹義相對論時,大膽拋棄了“以太”這一當時普遍接受的假設介質,用更為簡潔的數學框架統一了力學和電磁學。達爾文的進化論用“自然選擇”這一優雅機制,解釋了物種多樣性的起源,無需訴諸超自然的創造力量。這些理論的成功,強化了科學界對“奧卡姆剃刀”原則的信心。
?圖 3. 光如何在以太中傳播。注釋中提到“光能從節點激發,沿著路徑傳播”,“垂直標量壓縮(Perpendicular Scalar Compression)作為光的起源”,以及“光子不沿波的路徑傳播”。圖源:robertedwardgrant.com
但奧卡姆剃刀追求的“簡潔”,不應被簡單化理解為降低理解門檻。實際上,我們并沒有確鑿證據表明自然界總是遵循最簡單的規律。隨著科學研究的深入,許多理論反而變得更加復雜,因為新發現的現象往往需要更精細的解釋框架。
奧卡姆強調的是“必要”——何為“必要”,取決于要解釋的現象。
以廣義相對論為例,雖然它的數學框架遠比牛頓力學復雜,但這種復雜性是必要的,因為它成功解釋了水星近日點進動、引力紅移等經典力學無法闡明的現象。因此,評判一個理論時,不能僅以其復雜程度為標準,而應該考察其解釋力與復雜性是否相稱。
?圖 4. 《奧卡姆剃刀》,來自《虛構科學之友》系列插畫. 作者:Ele Willoughby, PhD
相對地,機械降神*雖然提供了看似簡單的解決方案,但這種表面的簡單性恰恰違背了奧卡姆剃刀的本質。
以睡眠癱瘓為例,用“外星人綁架”來解釋雖然直觀易懂,但這種解釋需要我們額外假設外星人的存在、其跨越星際的能力、以及選擇性造訪地球等一系列未經證實的前提。相比之下,異態睡眠(Parasomnia)的神經生理學解釋雖然較為復雜,但它建立在已知的科學發現之上,無需引入額外的未經驗證的假設。
*“機械降神”(Deus ex Machina)是一種戲劇敘事手法,指在劇情陷入困境時,通過意外的外部力量或超自然介入強行解決問題,最早出現在古希臘悲劇中,在現代文學和影視中多被視為削弱故事邏輯的生硬轉折。
?圖 5. 《哈利·波特與火焰杯》中,哈利與伏地魔在墓地的魔杖對決。由于兩根魔杖的杖芯來自同一只鳳凰的羽毛,它們產生了“閃回咒”現象,魔杖之間的連接迫使伏地魔魔杖中的靈魂碎片和受害者影像顯現出來,最終哈利借此機會成功逃脫。這個場景被一些劇評人評為哈利波特系列電影中十大機械降神場景之一。來源:CBR.com
合理應用奧卡姆剃刀,應注意避免不必要地引入多重獨立的解釋機制,其核心在于排除不可能的假設。
神經病學領域曾發生過一次“烏龍”——“哈瓦那綜合征”。2016年,美國駐古巴大使館的工作人員報告出現頭痛、眩暈、注意力和記憶問題等癥狀,媒體迅速將其歸因于“聲波攻擊”。隨后,世界各地的外交人員也陸續報告類似癥狀。然而,這些癥狀在普通人群中也普遍存在,并未呈現出針對性攻擊所應有的系統性特征。
從奧卡姆剃刀的視角來看,“聲波攻擊”的解釋需要我們接受一系列未經證實的假設:存在能夠定向發射的聲波武器、攻擊者能夠精確選擇目標以及這種武器能在全球范圍內部署等。相比之下,將這些癥狀解釋為功能性神經障礙或環境因素(事實上最終證實是由蟋蟀的鳴叫聲引起)則簡單得多。
這個案例提醒我們,在評估數個競爭性假說時,奧卡姆剃刀的應用前提是這些假說具有相近的解釋力和預測能力,而不是簡單地選擇表面上看起來最簡單的解釋。這一點在當代科學實踐中顯得尤為重要,現實世界中的許多問題往往具有概率性,并受到觀測噪聲的影響,這都使得我們需要以更嚴謹的數學框架來重新審視“奧卡姆剃刀”原則。
當奧卡姆剃刀遇到概率——貝葉斯剃刀
當代許多問題具有概率性,并且受到觀測噪聲的影響,這使得單純偏好簡潔的解釋不再適用。統計學家哈羅德·杰弗里斯(Harold Jeffreys)在其經典著作《概率論》(Theory of Probability)中提出的“定量形式奧卡姆剃刀”,本質上是將傳統的奧卡姆剃刀原則數學化,并融入貝葉斯概率框架,從而為模型選擇和科學推理提供了一種基于概率的嚴格方法。
其中,
A表示假設;
B表示觀察到的證據;
P(A)是先驗概率,表示在沒有觀察到具體結果之前對每個假設的初始信念;
P(B|A) 是似然性(likelihood),表示在給定假設下觀察到當前結果的概率;
P(B)是證據的總概率,用于對結果進行歸一化處理。
用書中“擲骰子”的例子來說明。假設有兩個骰子(一個六面骰和一個六十面骰),暗中擲了其中一個,然后告知結果,讓人猜擲的是哪個骰子。
嘗試擲出數字39
若不考慮投擲結果,僅憑奧卡姆剃刀原則,會傾向于選擇更簡單的六面骰。
而根據貝葉斯方程,A表示“擲六面骰”或“擲六十面骰”的假設,B表示擲出數字39的事件,假設先驗概率P(A)均為0.5,P(B)可以視為1,P(B|A)就是在使用某種骰子的條件下擲出39的概率)。那么,
貝葉斯推斷:
? 對于“擲六面骰”假設,六面骰不可能擲出39,即P(B|A)等于0,最終擲出六面骰的概率P(A|B)也為0。
? 對于“擲六十面骰”假設,六十面骰子擲出39的P(B|A)等于1/60;將這個值與先驗概率0.5相乘,得到后驗概率為1/120。
比較這兩個假設,結果一目了然,六十面骰比六面骰更有可能。
嘗試擲出數字5
現在假設擲出的數字是5,這個結果既可能是六面骰也可能是六十面骰,其先驗概率相同(假設無偏),那么兩個骰子的可能性是否相等?
實際上在這種情況下,奧卡姆剃刀和貝葉斯推斷還是會認為,更簡單的假設(即六面骰)應該被優先考慮。
貝葉斯推斷:
先驗概率0.5保持不變,六十面骰擲出數字5的概率仍是1/60,六面骰擲出數字5的概率變為1/6。
那么,計算下來:
六十面骰擲出5的后驗概率,是1/120,
六面骰擲出5的后驗概率,是1/12。
比較兩種假設,六面骰的概率比六十面骰高十倍,所以更可能是六面骰。
在這個案例中,為了比較不同模型的證據強度,杰弗里斯提出了貝葉斯因子(Bayes Factor),用數學計算直接量化了奧卡姆剃刀。
貝葉斯因子,定義為兩模型邊際似然的比值。
若貝葉斯因子顯著大于1,則支持模型A,反之則支持模型B。
物理學家約翰·馮·諾伊曼曾說過:“用四個參數我可以擬合一頭大象,用五個參數我可以讓他搖動鼻子。”量化后的奧卡姆剃刀,能夠在不同復雜度的模型間進行概率比較,而不再依賴于確定性的判斷。
當然,六十面骰也會擲出5 點,就像復雜解釋有時也是正確的。但如果簡單和復雜模型、理論或假設都能同樣很好地解釋數據,那么根據“奧卡姆剃刀+貝葉斯推斷”,簡單的模型更可能是產生這些數據的來源。
計算微生物代謝通量分布
假設在一條微生物代謝通路中,1摩爾代謝物A 可以通過三種中間體(B、C或D)轉化為1摩爾的代謝物E。研究者需要確定實際的代謝通量分布。
?圖6. 微生物的3條代謝通路
最簡單的假設是代謝僅通過單一通路(中間體B、C或D),其歸一化值(normalized value)為1。這種假設符合奧卡姆剃刀原則,單一通路顯然比三條通路更簡單。
然而,實驗數據本身大多存在噪聲,單一通路的假設并不能完全解釋所有數據。因此,通過最大似然法或貝葉斯方法將實驗數據和噪聲擬合到模型中,也是常見的數據處理方法。
? 貝葉斯方法,采用奧卡姆剃刀原則,仍會傾向于最簡單的模型,因此這類方法的典型結果是預測所有代謝都通過其中一條通路(如通路B)。
? 最大似然方法,則傾向于使數據與模型擬合,因此可能會引入一個更復雜的模型,例如90%的代謝通過通路B,大約5%的通過通路C和D。
如此看來,偏好簡單解決方案的貝葉斯方法,可能會將科學家推向“真理”的反方向。
但這不意味著當下奧卡姆剃刀不再適用。事實上,基于真實情況的復雜方法,也可能會導致錯誤,例如將實驗噪聲錯誤地擬合到非活躍的代謝路徑中。而使用簡單模型,能讓噪聲能夠保持其噪聲特性,而不是被過度擬合到模型參數中,這是簡單模型在生物學研究中的另一個重要優勢。
實驗和理論研究已經證明了噪聲在生物系統中扮演著重要角色,例如保證代謝系統的可控制性。如果將噪聲擬合到確定性模型中,可能會忽略噪聲的功能性作用,從而得出錯誤結論。
機器學習如何從簡潔原則吸收養料
在機器學習實踐中,如何權衡模型的簡潔性與復雜性一直是個重要議題。假設要訓練一個基于卷積神經網絡(CNN)的視覺識別模型,下圖中的兩個不同復雜程度的模型在訓練數據上分類性能相當,應該選擇哪個模型進行進一步的訓練呢?
?圖7. 兩個不同復雜度的視覺識別模型示例。圖源:Medium
比較多個模型并不簡單。
如果只根據奧卡姆剃刀,無疑是選擇圖4a中的簡單模型。但更復雜的模型(有更多的隱藏層和濾波器),總能更好地擬合數據。模型圖4b相對4a更復雜,能解釋的數據更多(模型容量更大),在更廣泛的可能數據集上的表現可能就更好。
可是,如果只追求這種“完美擬合”,模型可能因為過度參數化而難以泛化,即出現過擬合(overfitting)。我們真正需要的是一個能良好泛化的模型,即在未見過的數據示例上表現良好。
?圖8. 復雜模型受到懲罰的基本原理.
在圖中,水平軸代表了所有可能的數據集空間D,而貝葉斯規則根據模型對實際數據的預測準確度來給予相應的獎勵,這種預測能力通過D空間上的歸一化概率分布來度量,給定模型Hi條件下的數據概率P(D|Hi)被稱為模型Hi的證據。
一個簡單模型H1只能做出有限范圍的預測,如P(D|H1)所示;而一個參數更多的模型H2能夠預測更多種類的數據集。然而,這種復雜性也相應地付出了預測強度上的代價,對于特定數據集C1,H2對數據集的預測強度反而不如H1。假設兩個模型具有相同的先驗概率,那么如果數據集落在區域C1中,簡單模型H1將是更可能的模型。
圖源:Hoffmann R, Minkin VI, Carpenter BK. Ockham's Razor and Chemistry. HYLE--International Journal for Philosophy of Chemistry . 1997;3:3-28.
因此,模型的選擇需要在擬合能力和泛化能力之間找到平衡。為了解決這一問題提出的一系列理論方法,都能看到奧卡姆剃刀的“如無必要,勿增實體”原則的影響。
例如,通過限制模型的復雜度來提高模型的泛化能力的正則化技術(regularization)。正則化通過在模型的損失函數中添加一個正則化項(regularization term),對模型的復雜度進行懲罰,從而約束模型的參數,使其不會過度依賴訓練數據中的噪聲,以此提高模型的穩健性。常見的正則化方法包括L1正則化、L2正則化,以及針對神經網絡的Dropout等。值得注意的是,引入正則化不意味著簡單的模型一定要好于復雜的模型。
?圖9. 一階、三階、二十階和一千階多項式回歸擬合(品紅色;從左到右)的數據來自三階多項式函數(綠色)生成的數據。三階和一千階模型都實現了低預測誤差。圖源:[3]
納夫塔利·蒂什比(Naftali Tishby)等人提出的信息瓶頸理論(Information Bottleneck, IB),最初旨在解釋機器學習模型如何在訓練過程中壓縮輸入數據并提取有用信息。其核心思想是:在輸入X和輸出Y之間找到一個中間表征T,使得T盡可能壓縮X的信息,同時T盡可能保留與Y相關的信息。信息瓶頸實現了對輸入信息的壓縮,通過保留關鍵信息:確保壓縮后的表示(representation)仍能有效預測輸出,避免過度簡化導致信息丟失。類似于奧卡姆剃刀的“如無必要,勿增實體”原則。
?圖 10. 信息瓶頸示意圖.(a)信息瓶頸,(b)作為信息瓶頸的自編碼器,以及(c)作為信息瓶頸的常規的多層神經網絡. 圖源:Ghojogh, Benyamin & Ghodsi, Ali. (2024). PAC Learnability and Information Bottleneck in Deep Learning: Tutorial and Survey. 10.31219/osf.io/vqxh8.
而信息瓶頸理論的具體工具,例如自編碼器(autoencoder),可通過無監督學習實現數據的低維表示。自編碼器通常由以下三個部分組成:編碼器(將輸入X映射到低維表示T即“瓶頸層”)、潛在表示與解碼器(將T重構為輸出X,盡可能接近原始輸入X)。自編碼器的瓶頸層強制數據通過低維表示,類似于信息瓶頸中的壓縮過程。自編碼器這種通過低維表示和重構誤差優化實現信息壓縮的方式,符合奧卡姆剃刀對復雜性的約束。而后來出現的變分自編碼器,進一步將信息瓶頸與概率建模結合,通過最大化證據下界實現信息壓縮,對應貝葉斯推斷下的奧卡姆剃刀。
?圖 11. 智能系統結構與工作原理. 來源:Wolff G. Information compression as a unifying principle in human learning, perception, and cognition, and as a foundation for the SP Theory of Intelligence. Research OUTREACH . 2019;(109).
至于多位學者(如Hinton、Schmidhuber等)提出的“壓縮=智能”(Compression as Intelligence),其核心邏輯是智能系統能夠從大量數據中提取關鍵規律,忽略冗余信息。例如,人類可以從少量示例中學習通用規則(如語言語法)。壓縮不僅僅是減少數據量,更重要的是發現數據背后的潛在規律(如物理定律、統計模式)。通過壓縮得到的簡潔規律能夠推廣到新場景,解決未見過的問題。不止機器,大腦也通過壓縮信息(如抽象概念)實現高效記憶和推理。和奧卡姆一樣,“壓縮=智能”都強調了簡約性在智能行為中的核心作用。
在可解釋機器學習領域中,同樣存在偏好簡單的模型(線性模型或決策樹),例如局部可解釋模型(LIME)、SHAP值。
?圖12. LIME示意圖. 圖源:Tyagi, Swati. (2022). Analyzing Machine Learning Models for Credit Scoring with Explainable AI and Optimizing Investment Decisions. 10.48550/arXiv.2209.09362.
局部可解釋模型:當無法全局使用簡單模型時,在局部區域內用簡單模型(如線性模型)近似復雜模型的決策,從而提供對預測結果的直觀解釋。
?圖13. SHAP 模型示例。
a)使用SHAP的事件分類器的局部解釋的示意圖。
b)使用瀑布圖本地解釋。
圖源:Pezoa, Raquel & Salinas, Luis & Torres, Claudio. (2023). Explainability of High Energy Physics events classification using SHAP. Journal of Physics: Conference Series. 2438. 012082. 10.1088/1742-6596/2438/1/012082.
SHAP值:通過博弈論方法,分配每個特征對模型預測的貢獻,將模型的預測結果分解為各個特征的貢獻值之和,既適用于單個預測,也可以用于整個數據集的全局解釋。
這些對局部/單個輸入重要性進行量化的方法,說明奧卡姆剃刀在可解釋機器學習中的應用體現為一種簡約性與解釋力的平衡。
約束簡約性與組件簡約性
然而,“簡約性”是一個多維度的概念,當人們談論模型的簡約性時,對其有不同的甚至相互矛盾的看法。
有時,人們會將“簡約性”(Parsimony)和“稀疏性”(Sparsity)混淆,但兩者在模型設計中具有本質區別。
具體來看,稀疏模型雖然有許多參數,但大部分參數為零或接近零,只有少數參數對給定模型的輸入敏感。因此,一個稀疏模型并不比一個參數較少但對多種輸入都有響應的密集模型更簡約。
最近發表在《美國國家科學院院刊》(PNAS)上的一篇論文[3],區分了兩種不同的簡約性——約束簡約性與組件簡約性。
?圖14. 約束簡約性與組件簡約性。
左圖對應“約束簡約性”。簡約性更強的模型(黃色)對事件的概率分配集中在較小的范圍內,而更復雜的模型(紫色)則廣泛地分散其預測。下:簡約性更強的模型(黃色)捕捉到更少的現象子空間,而更復雜的模型(紫色)可以容納這些現象。
右圖對應“組件簡約性”。上:簡約性更強的模型(黃色)使用比更復雜模型(紫色)更少的輸入變量。下:簡約性更強的模型(黃色)假設比更復雜模型(紫色)更少的潛在變量/原因。圖源:Dubova M, Chandramouli S, Gigerenzer G, et al. Is Ockham’s razor losing its edge? New perspectives on the principle of model parsimony. Proc Natl Acad Sci U S A . 2025;122(5):e2401230121. https://doi.org/10.1073/pnas.2401230121
所謂“約束簡約性”,通常體現為具有較少參數或有效參數的模型,具有較少表達性的函數形式、更精確的先驗分布、更短的描述長度,以及更低的秩或其他標準。建模者常會意識到目標現象與模型之間的差距,當這種差距存在時(無論是故意還是無意),模型就會過擬合,繼而引發“不適用”問題。在其他條件相同的情況下,受約束較少的模型可以從數據中提取更多的模式,因此通常面臨不適用的風險較低。
而“組件簡約性”,將模型的復雜性定義為具有有意義的組件的數量。其中組件可以包括變量的類型或實例、獨立原因或模型中表示的不同過程。
以建模人類語言為例,一個組件精簡的模型會試圖用一套最小的語法規則來解釋人類語言的豐富性。例如,喬姆斯基的普遍語法學說提出,少量的基本規則可以解釋世界各地使用的各種語言的廣泛多樣性。反之,一個不那么精簡的模型,所使用的語法規則更大,雖然可能更精確地解釋不同語言的結構,但其組件更為復雜,假設了更多的規則。
區別了兩種簡約性,能更清晰地理解何為簡潔模型。心理學和神經科學研究中,認知實驗常通過控制和觀察特定的實驗條件,研究人類或動物的認知功能,如感知、記憶、注意力、決策等。類似地,在深度學習領域,這又被稱為“消融研究”(ablation study),即將模型視為參與者,系統地移除模型的一部分以評估其對性能的影響,從而獲得對復雜模型的洞察,由此判斷究竟是簡單模型還是復雜模型。
例如,在評估一種未經測試的藥物的效果時,如果忽略因果圖上的關鍵中介變量,可能會得出完全不同的結論。例如,某種藥物可能通過中介變量(比如藥物在體內的代謝過程)間接影響治療效果,但如果忽略了這一點,我們可能會錯誤地認為藥物無效或效果顯著。因此,為了更準確地代表和解釋世界,往往需要使用因果發現,增加模型的復雜性。
再舉一個例子,樂高的價格和包裝盒上標注的“最小年齡”是否相關?如果只簡單看這兩個變量,可能會得出“年齡越大,價格越高”的結論。但實際上,這種相關性可能取決于重要的中介變量,比如樂高零件的數量和重量。更復雜的樂高套裝通常零件更多、重量更大,因此價格更高,但也可能更適合年齡較大的孩子。要解釋價格與“最小年齡”兩者間的關系,就需要引入更多中介變量,構建更復雜的模型,但這是必要的。
復雜性視角下,
奧卡姆剃刀依舊寶刀未老嗎?
近來,復雜的數據驅動型人工智能(AI)模型的興起,向簡潔假設發起了挑戰。以AlphaFold為例,這一突破性技術通過高精度預測蛋白質結構,徹底改變了生物學領域。這些依賴大量數據和復雜架構的 AI 系統,已經在許多領域超越了更簡單、更傳統的模型。
在語言學研究方面,喬姆斯基試圖通過一套“節儉”的普遍語法規則,來解釋人類語言的豐富性和表達性。而大語言模型(LLMs)則采用了截然不同的路徑:沒有強烈的先驗假設,而是從大量數據中學習,生成人類樣式的連貫文本。盡管這些模型非常復雜,但提供了傳統理論無法提供的科學見解。
那么,奧卡姆剃刀依舊有討論的價值嗎?
Marina Dubova等人認為,過于嚴格地遵循奧卡姆剃刀原則,可能會錯過有價值的見解,甚至導致模型出現錯誤。例如,在神經科學中,用簡單模型解釋實時腦掃描,結果往往是檢測到大腦呈周期性活動模式,而實際上,腦活動是隨著時間逐漸變化的。這些簡單模型依賴于對腦功能的簡化假設,未能考慮到神經過程的復雜性。同樣,在藥理學中,如果忽略了患者年齡、遺傳背景或既往健康狀況等重要特征,可能會導致藥物模型對特定個體的反應預測不準確。
此外,復雜模型靈活性更高,能夠考慮到簡單模型可能忽略的廣泛因素和相互作用。這種靈活性在氣候研究等復雜系統中尤為明顯,這些領域中的模型通常會包含從大氣動力學到洋流等各種各樣的變量。有趣的是,最近的研究發現,基于集合的方法,即整合多個不同模型,其氣候預測的準確性相較依賴單一模型要好得多。盡管這些模型在某些方面可能會相互矛盾,但通過匯集它們的見解,能夠為研究者提供更為豐富和可靠的氣候模式理解。
但是,簡約性也確實引領了科學的發展。以愛因斯坦為例,他對簡約性很是推崇。他有一句格言:“萬事萬物都應盡可能地簡潔,但不能于簡單。”具體到他要解決的問題,愛因斯坦指出:從簡單的理論出發生成復雜的輸出很容易,但通常逆向由復雜輸出推出簡單模型就很難。因為即使錯誤的理論也能做出正確的預測,而且總會存在無限數量的理論(其中大多數尚未被構想出來)能夠正確解釋任何有限數量的觀測數據。因此,逆問題沒有唯一解。
在1905年發表他的狹義相對論方程后,愛因斯坦努力尋找能夠包含重力和加速度的相對論定律。他最初的方法是追求完整性——試圖讓理論包含盡可能多的數據——而不是簡單性。他構建了盡可能包含更多觀測數據的方程,然后試圖從這些方程出發,反向構建一個簡單的統一理論。然而,在花費了大約十年的時間,不成功地研究了一個又一個復雜的方程之后,愛因斯坦最終改變了策略,只研究最簡單和最優雅的方程的方法,并在之后才將它們與物理事實進行測試。這最終讓他成功發現了廣義相對論。而這段經歷也促使他重新評估了簡單性在科學中的作用,并為理論構建中奧卡姆剃刀的有用性提供了寶貴的見解。他寫道:
“一個理論可以通過經驗來檢驗,但無法從經驗出發構建一個理論,[并且]如此復雜的方程只能通過發現一個邏輯上簡單的數學條件來確定,該條件完全或幾乎完全決定了這些方程。”
只不過,之后愛因斯坦一直醉心于大一統理論,試圖用一個方程來解釋所有物理學。但愛因斯坦之后的物理學研究卻一無所獲,這未嘗不說明過度依賴簡約性假設,同樣是引入了不必要的實體(簡單的最美),偏離了奧卡姆剃刀的原意。值得注意的是最近因斯坦稱之為他“最大失誤”的宇宙學常數(不夠簡潔),最近又以暗能量重新出現。
類似的簡約性原則在近來的生命科學領域同樣得到了印證。以神經科學為例,工作記憶計算模型包括成千上萬個神經元,這些神經元的學習動力學由它們所在區域決定。從單個神經元及其相互作用的層面上解釋困難重重,但當我們抽象到腦區層面,該模型就能夠清晰地解釋工作記憶現象。
生命系統,則提供了另一個典型案例。雖然生命現象本身極其復雜,但對其的解釋卻可以相對簡單。以元胞自動機為例,元胞自動機由大量簡單的單元(元胞)組成,每個元胞根據局部規則和鄰居狀態更新自身狀態。盡管規則極其簡單(如康威的“生命游戲”僅用幾條規則),卻能涌現出復雜的全局行為(如自組織、模式形成)。
這些研究表明,復雜系統的行為并不一定需要復雜的全局控制或額外假設,而是可以通過簡單的局部規則和最小化的實體來實現。這正是奧卡姆剃刀的精髓:用盡可能少的假設和規則解釋現象。人工生命研究的進展也進一步表明,即使是基于規則構建的虛擬生物,也能展現出智能和適應性行為,生動地展示了簡約性與復雜性的辯證統一。
總而言之,對人工智能時代奧卡姆剃刀原理的討論,啟發我們用新的思考方式來解決科學問題。多種多樣的模型可以貢獻出更全面的理解,研究人員不應受限于單一簡單的解釋。簡約性和復雜性,并非對立的概念,而是互補的工具。科學家在探索問題時,需要根據具體的研究背景、證據以及問題的需求,審慎地決定何時采用簡約性,何時引入復雜性。
建模過程不僅要關乎建模者的目標和背景,還取決于科學本身的演進。人工智能時代,統計學、計算機科學、認知科學及其他領域的的不斷進展,正在重塑我們對簡約性與復雜性的認知:簡約性并非萬能,復雜性也非累贅,關鍵在于如何根據問題的本質與需求,在兩者之間找到動態平衡。而科學的未來,就在于如何在簡約與復雜之間,找到那條通向更深刻理解的道路。
1. https://www.thecollector.com/ockham-mental-language-speaking-minds/
2. https://academic.oup.com/brain/article/145/6/1870/6575832?login=false
3. Dubova M, Chandramouli S, Gigerenzer G, et al. Is Ockham’s razor losing its edge? New perspectives on the principle of model parsimony. Proc Natl Acad Sci U S A . 2025;122(5):e2401230121. https://doi.org/10.1073/pnas.2401230121
關于追問nextquestion
天橋腦科學研究院旗下科學媒體,旨在以科學追問為紐帶,深入探究人工智能與人類智能相互融合與促進,不斷探索科學的邊界。如果您有進一步想要討論的內容,歡迎評論區留言,或后臺留言“社群”即可加入社群與我們互動。
關于天橋腦科學研究
天橋腦科學研究院(Tianqiao and Chrissy Chen Institute)是由陳天橋、雒芊芊夫婦出資10億美元創建的世界最大私人腦科學研究機構之一,圍繞全球化、跨學科和青年科學家三大重點,支持腦科學研究,造福人類。
Chen Institute與華山醫院、上海市精神衛生中心設立了應用神經技術前沿實驗室、人工智能與精神健康前沿實驗室;與加州理工學院合作成立了加州理工天橋神經科學研究院。
Chen Institute建成了支持腦科學和人工智能領域研究的生態系統,項目遍布歐美、亞洲和大洋洲,包括、、、科研型臨床醫生獎勵計劃、、中文媒體追問等。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.