導語
長久以來,鯨魚歌聲被視為神秘現象,科學家難以解析其含義。2025年發表在《Science》的研究突破性地發現,座頭鯨和藍鯨的歌聲遵循與人類語言相同的統計規律——齊普夫定律和門澤拉特定律。研究團隊通過模仿嬰兒語言學習模式分析鯨歌,證明即使在親緣關系遙遠的物種間,文化傳遞的交流系統也能發展出相似結構。這一發現不僅揭開了鯨歌的秘密,還為理解跨物種交流和改進AI語言模型提供了全新視角。
研究領域:齊普夫定律、門澤拉特定律、跨物種交流、文化傳遞、語言統計結構、進化語言學
郭瑞東| 作者
論文題目:Whale song shows language-like statistical structure 論文地址:https://www.science.org/doi/10.1126/science.adq7055
劉慈欣在其科幻小說《鯨歌》中提起鯨魚的歌聲,文中寫到:“海洋科學家們研究鯨歌有很長時間了,至今無法明了其含義。”長久以來,鯨魚的歌聲被視為神秘現象,眾多文學作品中對其充滿了瑰麗的想象。 2025年發表在《科學》雜志上的一項突破性研究通過模仿兒童學習語言的過程,驚奇地發現鯨魚的歌聲與人類使用的語言存在統計相似性。這一發現不僅揭開了鯨歌的部分秘密,還為理解跨物種交流乃至人工智能語言模型提供了全新視角。
從齊普夫定律看語言的簡潔性
為了理解鯨魚歌聲與人類語言的相似性,我們需要先了解語言學中的重要規律。1949年, 語言學家喬治·齊普夫 (George Kingsley Zipf) 發現了一條簡單卻普適的規律: 在任意語言中,最常用詞匯的出現頻率大約是第二常用詞的2倍。用公式表示即為“排名×頻率≈常數”。例如,英語中“the”的使用頻率遠超其他詞匯 (見下表) 。
這種規律性并非語言獨有。將單詞的使用換成城市的人口,網頁的訪問,甚至人群的收入,類似齊普夫定律的現象,我們會發現類似齊普夫定律的現象在多個領域中普遍存在。科學家為這類現象起了個更有代表性的名字“冪律法則 (Power Law) ”,讀者可參考韋斯特的科普書《規則》或張江的《規模法則》一書了解更多相關內容。
除了上述的齊普夫定律,語言學中還存在齊普夫簡潔定律 (Zipf's law of abbreviation) ,該定律指出:使用頻次越高的詞匯,其時長往往越短。從上表中可以看出,使用最多的十個詞,大都是簡單的單音詞。在法語,德語等眾多語言系統中,簡潔定律也被證實存在。從進化的角度來看,簡潔定律的出現是物盡天擇的自然結果。動物發出聲音需要消耗能量,也會增加在捕食者面前暴露的風險。但凡話癡,都會被進化淘汰。
除了齊普夫定律,語言學中還存在類似的門澤拉特定律 (Menzerath's law) ,即單詞越長,組成單詞的音節就越短;句子越長,每個單詞的時長就越短。該定律描述了當較長的單詞或歌曲由較短的元素 (如音節和音符) 構成時,如何提高交流效率。讀者可以想象那些十幾個字母的英文單詞,例如especially,incredible等,其中每個音節都很短,而在句子層面,復雜的從句大多是由簡單的單詞組成,不會出現特別長的詞。 這一定律揭示了語言為提高交流效率而自然形成的結構特性——通過較短元素構建較長單位的巧妙機制。
簡潔的語言,小鯨魚學起來也更容易
齊普夫定律和門澤拉特定律揭示了一個共同的進化原理:為了應對交流的復雜性,生物會通過使用更短的基本單元來提高信息傳遞效率,實現“在最短的時間內以最少的能量傳遞最多的信息” 。
既然是進化的產物,就決定了其不局限于人類,例如對海南樹蛙的研究發現,其鳴叫中位置越靠后的音節[1],其時長越短,該現象與門澤拉特定律預測相符,這可能是由蛙類的能量或呼吸限制所致。而蛙類的鳴叫不符合齊普夫定律,對此可能的原因是蛙類的鳴叫功能只在于吸引配偶,而非像人類語言這樣用于相互交流。類似的黑猩猩的肢體語言也被發現 遵循門澤拉特定律,但齊普夫定律在它們的肢體語言中并不明顯[2]。
那有沒有一種動物,其語言即滿足齊普夫定律,又滿足門澤拉特定律了?如果有,這種動物需要有足夠大的社群,足夠支撐它們展開內部溝通與代際傳播。同時這種動物最好和人類沒有多少直接交流,不然研究會模仿人類語言的鸚鵡,那發現的規律到底是動物自然進化的產物了,還是受人類影響的所致了?
鯨魚和人類的最早共同祖先,可以追溯到一億年前,其生活的環境也與人類截然不同,但然而,2025年《科學》雜志的一項突破性研究發現,座頭鯨及藍鯨,其發出的聲音,遵循齊普夫簡潔定律,其中高頻使用的音符往往較短,而較少使用的音符則較長[3]。
圖1:圖中的每個點在代表一個鯨魚歌聲中的子序列,統計在整套數據中發現的所有子序列的頻率分布(縱軸),橫軸按長度(聲音元素的時長)繪制。更頻繁的子序列比不那么頻繁的子序列更短,符合齊普夫定律。
圖2:聲音序列的出現次數和持續時間之間呈現冪律
https://doi.org/10.1126/science.adq7055
https://www.science.org/content/article/humpback-whale-songs-are-structured-human-language
破譯鯨歌的密碼
讀者也許會好奇,如果鯨魚的歌聲,真的結構高度有序,由嵌套的層級組件構成——聲音元素組成短語,短語重復形成主題,主題組合成歌曲,那科學家是如何從頭開始破譯這些聲音的?答案是科學家借鑒了人類嬰兒學習語言時的方法,嬰兒聽到的是連續的聲波信號,他們必須找出詞語的邊界在哪里,從而識別出一個個詞匯。
嬰兒的策略很簡單:聆聽成人話語中不尋常的聲音組合。每當嬰兒識別出一個,很可能找到了單詞之間的邊界,因為這些不常見的過渡在單詞內部不太可能發生。同樣的方案,可用于識別鯨魚歌聲中的“單詞”。
圖3:將嬰兒學習語言的方法用在鯨魚歌聲識別中的示例
除了座頭鯨之外,其它鯨類的歌聲又是什么情況了?同期刊登的另一項研究[4] ,分析了包括海豚、齒鯨和須鯨在內的16種鯨類動物的歌聲序列。發現大多被研究的鯨類遵循門澤拉特定律,而只有藍鯨和座頭鯨遵循齊普夫定律。對此,可能的解釋是門澤拉特定律源于生物體的物理限制 (說長句時需要換氣) 。而齊普夫定律對應著社會學習和語言的代際傳播,考慮到藍鯨和座頭鯨具有復雜的社會結構和文化傳承,因此其語言符合齊普夫簡潔定律。
研究者還對比了不同物種聲音的結構特征。圖4展示了不同語言和物種聲音的頻譜圖比較,從上至下依次為英語句子、座頭鯨歌聲、虎鯨叫聲、海豚爆發脈沖以及抹香鯨尾聲。可以很明顯的看出來,座頭鯨和人類的語言之間存在相似,而其余的鯨魚,其歌聲如同鼓手打鼓,通過節奏間隔而非不同聲音元素的組合來編碼信息。座頭鯨歌聲呈現的模式,揭示了座頭鯨在進化過程中,可能也面臨著與人類類似的高效交流需求,而能夠進行高效的交流方式則殊途同歸。這一研究突顯了學習和文化傳承在塑造跨物種交流方面的深遠作用,挑戰了語言的結構特性只屬于人類的傳統觀念。
圖4 :英語句子(第一行)、座頭鯨歌聲(第二行)、虎鯨叫聲(第三行)、 海豚爆發脈沖(第四行)以及抹香鯨尾聲(第五行)的頻譜圖
語言的結構很大程度上是由于它如何從一代傳到下一代。因此,齊普夫定律不僅在人類中出現,也可能在任何其他通過文化學習 (從一個個體傳給另一個個體) 的順序性聲信號的地方出現。這個群體包括鳴禽、蝙蝠、非人靈長類動物、大象、海豹、海豚和鯨魚。如今我們已經在部分物種中發現了其遵循齊普夫定律,期待未來的研究,能夠為我們更多地揭開萬千生靈的神秘面紗。
從聽懂鯨魚的歌聲到創造一個全新的語言
既然鯨魚的聲音系統遵循著與人類語言相似的規律,那么我們不禁要問:能夠識別人類語言的AI模型是否也能解析鯨魚的聲音,甚至理解鯨魚“語言”中的含義?這一思路已經開始轉化為實際研究。。24年來自谷歌的研究團隊,開發一種新的鯨魚生物聲學模型。該模型可以識別目前已知的 94 種鯨魚種類中的 8 個不同的物種[5]。除此之外,鯨魚 - 地外文明搜索計劃” (Whale-SETI) ,更是試圖理解鯨魚的溝通系統,以助力尋找地球之外的生命。這一研究方向基于一個有趣的假設:如果我們能夠理解與人類完全不同環境中進化出的復雜交流系統,或許就能為識別和理解潛在的地外智能通信提供關鍵線索。
這些發現對于理解跨物種交流有何啟示?對鯨魚歌聲的研究,說明即使是親緣關系較遠的物種的交流系統可能仍會趨同于相似的結構, 尤其是那些通過文化學習獲得且能有效傳遞信息的復雜系統。而當下人們面對的最復雜的交流系統,正是由人類和大模型共同構成的,23年一篇基于chapGPT 4的研究[6],發現大模型產生的文本,同樣符合齊普夫定律。
圖5:大模型產生的英文文本和真實英文文本的出現頻率和排序
更有趣的是,當用戶讓大模型產生一個虛擬的語言時并使用產生的虛擬語言進行交流時,大模型產生的語言,以及其對應的英文翻譯,同樣遵循齊普夫定律。
圖6:大模型產生的虛擬語言的詞匯頻率和排序
當然,這里用到的是較早的chatGPT 4,在以DeepSeek為代表的推理模型上,我們是否還能見到類似的規律,目前還不清楚。不過我們常說的某段文字“AI味太重”,這背后的問題,或許對應著這段文字沒有遵循齊普夫定律或門澤拉特定律。例如人類的話語,語言結構 (如句子) 越長,其組成部分 (如句子的從句) 就越短,但推理模型卻喜歡用大詞或長句。研究者可以招募普通人,讓用戶對大模型產生的文本有多少AI味進行打分,看看那些人們普遍認為AI味過重的文本,是否偏離齊普夫定律,從而使得用戶下意識的覺得這樣的句子不適合高效交流。
除此之外,之后人工合成數據,用于大模型訓練時,也需要考慮用于訓練的數據是否符合齊普夫定律和門澤拉特定律,24年的一篇Nature論文[7 ]指出大模型產生的數據訓練大模型,反復數次會導致大模型產生無意義的句子 (模型崩潰) 。明白了鯨魚如何在代際之間,是如何穩定地傳播具有復雜含義的語言,是否能夠啟發研究者,去了解大模型為何會由于使用自身數據而崩潰的本質原因,甚至創造出更符合進化天道 (齊普夫定律) 的模型了?如果大模型變得如此喜歡用一些似是而非的生僻詞匯,是由于其沒有對應的身體,不需要面對進化的壓力,那是否進化算法,能夠成為如今強化學習一般,訓練下一代大模型的鑰匙了?這些都是從對鯨魚等動物的研究中能夠獲得的啟示。
https://www.nature.com/articles/s41586-024-07566-y
參考文獻
[1] Ke Deng, Yu-Xiao He, Xiao-Ping Wang, Tong-Liang Wang, Ji-Chao Wang, You-Hua Chen, Jian-Guo Cui,
Hainan frilled treefrogs' calls partially conform to Menzerath–Altmann's law, but oppose Zipf's law of abbreviation,Animal Behaviour,Volume 213,2024,Pages 51-59,ISSN 0003-3472,
[2] Chimpanzee gestures follow the same laws as human languages | Royal Society. (2023, November 16). https://royalsociety.org/blog/2019/02/chimpanzee-laws-human-languages/
[3] Arnon, I., Kirby, S., Allen, J. A., Garrigue, C., Carroll, E. L., & Garland, E. C. (2025). Whale song shows language-like statistical structure. Science, 387(6734), 649–653. https://doi.org/10.1126/science.adq7055
[4] Youngblood, M. (2025). Language-like efficiency in whale communication. Science Advances, 11(6). https://doi.org/10.1126/sciadv.ads6014
[5] Whistles, songs, boings, and biotwangs: Recognizing whale vocalizations with AI. (n.d.). https://research.google/blog/whistles-songs-boings-and-biotwangs-recognizing-whale-vocalizations-with-ai/
[6] "Genlangs" and Zipf's Law: Do languages generated by ChatGPT statistically look human?Justin Diamond https://arxiv.org/abs/2304.12191
[7] Shumailov, I., Shumaylov, Z., Zhao, Y., Papernot, N., Anderson, R., & Gal, Y. (2024). AI models collapse when trained on recursively generated data. Nature, 631(8022), 755–759. https://doi.org/10.1038/s41586-024-07566-y
本文為科普中國-創作培育計劃扶持作品 作者 | 郭瑞東 審核 | 張江(北京師范大學系統科學學院教授) 出品 | 中國科協科普部 監制 | 中國科學技術出版社有限公司、北京中科星河文化傳媒有限公司
AI+Social Science讀書會
集智俱樂部聯合美國東北大學博士后研究員楊凱程、密歇根大學安娜堡分校博士候選人裴嘉欣,賓夕法尼亞大學沃頓商學院人力資本分析研究組博士后研究員吳雨桐、即將入職芝加哥大學心理學系的助理教授白雪純子,共同發起。讀書會已完結,現在報名可加入社群并解鎖回放視頻權限。
詳情請見:
1.
2.
3.
4.
5.
6.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.