導語
如果詞語的組合本質上是某種數學結構,那么意義是否就藏在統計規律之中?更驚人的是,這種分析竟揭示了信息熵與拓撲學之間隱秘的聯系,暗示數學與語言可能存在某種深層同構。這是否意味著,人類對語言的理解,本質上是一場關于‘相同與差異’的數學游戲?范疇論作為一種超越具體學科領域的研究方法,不僅在語言分析領域展現了巨大潛力,而且有希望催生出新的數學思想與工具。
關鍵詞:范疇論,語言范疇,拓撲學,數學結構,信息論,熵
Joseph Howlett丨作者
彭晨丨譯者
Quanta Magazine丨來源
小時候,Tai-danae Bradley 并不喜歡數學。 2008年,她進入紐約城市學院,為籃球隊效力,并希望開始從事運動營養方面的工作。她認為數學只有天才真正擅長。她說:“我寧愿拔掉我所有的牙,也不愿以數學謀生。”
但在她大二的時候,微積分教授改變了她的想法。她了解到,數學是書寫所有科學的語言。她說:“世界上有比教科書上的內容更深刻的東西。我們生活在一個非常令人興奮的世界里,數學是洞察其中的一種方式。” 她退出了籃球隊,決定雙修數學和物理。現在,作為人工智能公司 SandboxAQ 的一名研究員,以及加州 Master's University 的客座教授,Bradley 正在利用數學語言來更好地理解語言本身。
她的研究視角聚焦于范疇論——這是一種超越具體學科領域的研究方法,致力于構建貫通各領域的底層統一框架。通過將語言視為數學范疇,她得以運用現有工具進行解析,從而獲得新的洞見。語言學家期望她的模型能幫助驗證某些理論(例如語法和語義如何從詞串中涌現),并識別AI生成文本與人類語言的差異;而 Bradley 本人更關注的是:這種研究方式或許能催生新的數學工具。
Quanta 雜志就“數學如何啟發語言研究,語言反過來如何影響數學研究”這一主題采訪了 Bradley,以下為經過精簡和潤色的訪談內容。
Q:最初是什么問題促使您踏上這項研究之路?
我一直試圖探尋:語言的數學結構究竟是什么?它的基本單元是什么?單詞與短語間的數學關系,最終如何構建出有意義的內容?以數學方法研究語言存在多種途徑。 譬如,可將語言視作一種代數結構——正如數字相乘生成新數,英語短語亦可通過特定方式“相乘”(即組合)而衍生出新短語。此外,還可以從范疇論視角看待語言。
Tai-Danae Bradley小時候不喜歡數學。但上大學后,她開始意識到數學與我們周圍的世界是如何緊密相連的。
Q:范疇論是什么?
所謂范疇,由若干對象(objects)及對象間的態射(morphisms,即關系)構成。這些對象可以是集合、群、或是向量空間,而態射則負責建立對象間的關聯。以集合為例,態射即是將一個集合映射至另一個集合的函數。
我常將范疇論比作數學界的“填詞游戲”(Mad Libs)。游戲中,同一個框架因填入不同詞語而誕生各異的故事版本。數學領域同樣存在某些普適性構造——盡管不同分支可能采用不同術語(如用“群”替代“向量空間”),但只要按規則置換詞匯,便能發現其底層框架本質相通。
初讀研時接觸范疇論,我曾深惡痛絕。當時心想:難怪人們討厭數學,這根本就是為了抽象而抽象,毫無直覺根基。直到后來,我的博士導師 John Terilla 才讓我領悟到范疇論何以成為利器。
為了適應廣大非數學專業愛好者的需要,集智學園針對推出了兩季課程(鏈接:https://campus.swarma.org/course/2723)。完成本課程,可以沒有障礙地了解現代代數、拓撲、范疇等領域的許多基本概念,理解范疇論的抽象思維方式,掌握創新的工具。
Q:是什么讓范疇論如此強大?
它讓你雙腳騰空,從高空俯瞰數學萬象,洞察那些在地面難以察覺到的隱秘關聯。如今,范疇論反成我最樂在其中的領域,當年還尚缺少足夠的數學積淀與悟性,未能覺察到其中的妙處。
Bradley 看到了范疇論在生活中的作用,她對用它來理解語言特別感興趣。
Q:范疇論能揭示哪些獨到洞見?
數學中一個非常有意義的問題是:何謂“相同”?“相同”的含義是什么,它如何隨不同數學分支而發生改變?例如,集合就像一個盛彈珠的布袋,它沒有真正的結構。所以,兩個集合“相同”,僅需元素數量相等。而群則不然,元素間存在特定運算法則。此時判斷群是否“相同”,需要考慮這個附加結構。
范疇論為這些殊異的“同”之概念,提供了統一的描述模板。解決問題時,可以使用此模板在不同數學語境間自由切換。
Q:可以舉個例子嗎?
一個我最喜歡舉的例子來源于拓撲學。被稱為拓撲空間的形狀構成一個范疇。你可以把一個空間拉伸成另一個,這種拉伸就是它們之間的態射。假設有兩個拓撲空間,你想知道它們是否相同。如果相同,那么當你把一個空間拉伸成另一個時,它上面的孔洞數量不會改變。直接處理這些空間非常棘手,因此判斷這一點可能相當困難。但是孔洞數總是等同于來自另一個完全不同的范疇的某個數值。
范疇論使我們得以在拓撲空間范疇與其他范疇間自由切換。例如,借助函子(functor)這一工具,可以將兩個拓撲空間轉化為向量空間,若此時發現兩者維度不同(此特性更易觀測),即可判斷其原空間一定不相同。這來自跨越拓撲學與線性代數的洞見,正是范疇論賦予的獨到智慧。
Q:如何運用范疇論理解語言?
語言與范疇論本就有天然契合之處。我們不必將刻板的數學模型強加于語言之上,不妨從基礎詞頻入手,例如統計“貓”與特定詞匯的共同出現的頻率。若我說“好奇害死____”,便可計算下一詞是“貓”而非“直升機”的概率。進而,可將所有可能的單詞、短語(甚至字母組合)視為富范疇(enriched category)中的對象。每個對象皆通過轉移概率與其他對象關聯,這就是富范疇版的態射。不妨將其想象為詞語間的箭頭,每個箭頭上都標注著概率數值。
Q:為什么范疇論框架對語言研究有幫助?
如果癡迷于某種東西,就會開始發現它隨處可見。正因范疇論高度抽象且能貫通數學各領域,諸多數學家熟悉的概念皆可通過它重新詮釋。其意義不止于此。一旦將語言視作范疇,相當于解鎖了學界數十年來構建的整套工具箱。您只需翻閱這本“數學食譜”,便能擇取適用方案:無論是探究人類語言本質,還是解析大語言模型的運作機理。
Q:如何使用這些“數學食譜”獲取新認知?
學界一直以來困惑的一個問題是:如何僅憑詞匯組合的基礎信息,推演出更高階的抽象概念?當要求 ChatGPT 列舉“五種具有家寵屬性的爬行動物”時,它是如何起建立“家寵屬性”“爬行動物”這兩類概念之間的關聯?從符號串的統計特征到邏輯關系的躍遷,究竟如何實現?
我們可以借用范疇論的現成“食譜”來窺其奧秘:首先,為每個單詞構建一個范疇論理論結構,該結構需囊括該詞所有可能的短語組合及其常見度。進而,對兩個不同單詞對應的結構施加某些經典范疇論運算——這些運算本身是范疇論中非常傳統的操作。最終獲得的范疇結構會自動關聯兩個原始詞語。以“大”(big)與“黃”(yellow)為例,該結構會為“大黃太陽”(big yellow sun)等高概率短語賦予較大數值,而對“大黃紅寶石”(big yellow ruby)等低概率組合賦予較小數值。這套簡單的范疇論運算,竟生成了具有語言學意義的成果:即構建復合概念(如“又大又黃之物”)的數學表達。
由此可證,僅憑基礎統計信息,范疇論便能“數學地”推演出高層概念的形成機制。或許這正揭示了人類概念形成的某種本質(我無意斷言人腦運作機制,其奧秘仍未知):語言使用數據中確實蘊含著概念雛形——僅從詞頻出發,便可以實現概念化。
Q:您認為大語言模型是這樣運作的嗎?
我參與本研究時,大語言模型尚未興起。但它們確實與我們同源——皆始于詞頻統計。至于Transformer內部的真實運作機制,我也無從斷言。或許當今學界對LLM的機制也尚未有定論,但這可以成為這場對話的起點。
Q:您的研究對語言本質有何啟示?
我認為這表明,即使是在最基礎的句法結構中(例如詞語搭配關系),也蘊含著意義信息。觀察“藍色”(blue)常與哪些詞共現,如“藍色彈珠”(blue marble)、“藍天”(blue sky),而“藍色牛油果”很罕見(blue avocado),能否由此窺見“藍色”一詞的語義?這在語言學領域尚存爭議。作為人類,我固然能從紙面語句獲取意義,但文字并非認知世界的唯一渠道。近幾十年來,“意義寓于詞序”(meaning lives in the arrangement of words)這一傳統觀點已然式微,但語言學家們始終在辯論:理解書面語言的含義是否必須依賴外部世界模型。
然而本研究,以及 LLM 近年來的成功,共同佐證了一個觀點:詞語共同出現的統計規律中,自有意義存焉。或許,這正可為語言學界的爭辯,投下一枚新的砝碼。
在我們最新的論文中,也使用范疇論給語言研究帶來了全新的概念。我們當時研究的范疇量級(magnitude of a category)——這種與拓撲學關聯、用于表征范疇特性的“規模度量”,恰由合作者 Juan Pablo Vigneaux 新近提出算法實現該量級的計算。經改良后,我們決定在語言范疇中檢驗該理論。出乎意料的是,當推導出語言范疇的量級公式時,其數學表達式竟自然涌現出信息論的核心參量——熵(entropy),即信息量的度量方法。
Q:這一關聯揭示了什么?
它揭示了熵與拓撲學之間玄妙的聯系,這兩大理論本互無關聯,各居不同的科學領域。然而,近年來此類關聯屢現端倪,此番發現或再添佐證。我尤其著迷于這種“殊途同歸”的現象:表象迥異之物,竟在深層同構。
面對計算結果,我們亦不禁感嘆:“其中有何深意?”熵之于語言,究竟如何理解?范疇量級的計算,可否用于比照不同語言的結構差異?抑或甄別人類語言與LLM生成文本?前路亦漫漫,這僅僅只是邁出的第一步。
Q:您希望這項研究將引領我們至何方?
我期待它能帶我們抵達數學本質的更深處。誠然,研究語言現象本為更好地理解世界。但真正令人振奮的是——或許正因某些數學概念的缺席,才使語言之謎如此難解。同樣,語言也能夠幫助我們發現新的數學結構。這在數學史上屢見不鮮:數學家常邂逅無名之物,還有許多靜待發現的結構。
我預見,五年之內,源自語言研究的數學新思想或將破土而生。
范疇論系列課程
范疇論被稱為是“數學的數學”,為現代數學提供了一套基礎語言。范疇論是一個關于關系的理論,描述并研究關系的所有可能性質。它提供了一種系統、精確、抽象的跨領域科學方法論,可直接付諸于各領域考察的問題,尋求跨領域的解決之道。這種數學語言與復雜性科學有眾多相似之處,加之其本身作為數學工具的嚴密性,后續可能能為解決復雜性科學問題提供一把鑰匙。范疇論系列課程包含兩季的“范疇論入門系列課程”,和最新的「范疇論與機器學習」課程,該課程從范疇觀點切入機器學習,包括對機器學習的某些方法論建立背景的具體范疇的研究方法,以及從神經網絡架構等出發研究在范疇上的某些結構。 參看:
1.
2.
3.
4.
5.
6.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.