引言
自然科學的知識大廈,為我們建立起對世界“確定性”的信念。比如,“力是物體運動狀態改變的原因”及萬有引力定律,讓我們發現一切地星生命都在“坐地日行八萬里,巡天遙看一千河”;再比如,“化學反應的實質是化學鍵的斷裂與重新形成”及元素周期表,讓點石成金、發酵發霉等物質變化有跡可循。
但是,走出科學知識的大廈,生活中又有如此多的現象給我們以“不確定”的感受:天氣預報明天不下雨,是陰天,但不帶傘會不會被淋?市場房價起起落落,現在買入/出手房子,能賺還是會賠?這些問題都有兩種以上的可能結果,并非“確定性”情境下那么簡單。怎么處理這類問題?
圖1:天氣預報
統計工作者說,我們需要【概率】。那什么是“概率”?概率存在嗎?為什么概率能解決這些問題?
一、概率是“理想化模型”
在19世紀巴黎天文臺的穹頂之下,熱力學家、數學家貝特朗(Joseph Louis Bertrand, 1822-1900)向世界拋出了他的問題:在單位圓內隨機取弦,其長度超過√3的概率是多少?這個看似簡單的概率問題,卻因對弦的不同"隨機"取法導出了1/2、1/3、1/4這三個“正確答案”,貝特朗“悖論”由此誕生——
解法一:在圓上隨機取兩個點為弦的端點,使弦對應的圓心角大于120°。其概率為1/3。
解法二:在任意一條半徑上隨機取一點為弦的中點,使弦長大于√3。其概率為1/2。
解法三:在圓內隨機取點為弦的中點,使弦長大于√3。其概率為1/4。
圖2:貝特朗問題示意圖
這一“悖論”像一把鋒利的手術刀,剖開了古典概率論直覺上的合理性,讓人們開始以更嚴格的眼光重新審視概率:什么是“隨機”?什么是“等可能”?同時,也讓更深刻的哲學命題得以展現——概率究竟是世界的本真屬性,還是人類認知構建的數學模型?
貝特朗悖論到底“悖”在何處?不難發現,悖論的產生本質上源于對"隨機性"這一基礎概念的不同詮釋。這恰恰印證了概率是一個理想化的模型,與剛體、電子云、點、線、面、實數系等類似。
無獨有偶,樣本空間、隨機變量的概念出現,尤其是“零概率事件不意味著不發生”的結論,使概率的模型化特征更加清晰。
概率本是人類為處理不確定現象、定量刻畫各種結果的可能性而形成的概念,其大小表示結果發生的可能性。在理想情況下,概率為0代表該結果沒有可能,為1代表必然,從0到1表示可能性逐漸增大。
然而,在現代概率論中,概率為1并非必然事件,概率為0也并非不可能發生。例如:對于擲一枚質地均勻硬幣的試驗,可設
這是經典的二項分布,也符合我們擲硬幣的常識。但應注意到,在該分布下,硬幣擲出后立起來的概率為0——而這在現實中可能發生。實際上,擲硬幣的結果既與硬幣的材質相關,也與拋擲時的環境、地面、擲法等等相關。
圖3:不確定的硬幣
在這里,我們再次回到了怎樣擲硬幣才是“隨機”的問題;同時發現,在數學化(概率論化)擲硬幣試驗的過程中,忽略了大量因素,甚至忽略了一些具有微小可能性的結果;顯然,這就在建立模型。
所謂模型,就是為突出現實事物的一定(或本質)特征而對其進行的簡化表示,是認知目的與簡潔性、代表性的辯證統一,是人類認識世界不可或缺的工具。由于忽略了次要因素以求簡潔,模型既在某個方面簡明地代表了事物,又必然與現實事物有偏差,即具有簡明度和失真度,這是衡量模型優劣的核心指標。
若進一步考察“獨立試驗”、“均勻分布(等可能事件)”等概念,會發現這些也都建立在忽略次要因素、控制“無關”變量的基礎上。
因此,在概率是模型這一科學哲學的視角下,概率是“不存在”的,是人為建構的認識,正如點、直線、平面并不實際存在一樣。那么,為什么概率還能解決大量不確定性的問題?為什么概率這么有用?
這一問題的答案,蘊含在“概率”概念的發展歷程中。
二、概率的“前世今生”
14-17世紀的歐洲,瘟疫肆虐。在“牛頓奇跡年”的倫敦鼠疫大暴發前夕,商人、統計學家格蘭特(John Graunt,1620-1674)為探究瘟疫、戰爭、饑荒等導致居民死亡的原因及其與人口變動的關系,在倫敦開展人口調查分析,并于1662年發表《關于死亡公報的自然觀察和政治觀察》(Natural and Political Observations Made upon the Bills of Mortality)。
在書中,他開創性地編制了世界上第一張統計壽命表,從中發現了諸多人口統計學規律。
比如,根據倫敦教會資料,在1629-1661年間,倫敦受洗(出生)人數中有139782名男性和130866名女性,他基于歷年數據,推算出倫敦男女性別之比約為14:13。這是歷史上首次通過具體的人口學統計資料證明得出男嬰出生率高于女嬰的結論(你沒有看錯,男女出生的概率統計不是1:1)。同時,他發現男孩的夭折率高于女孩,結果適婚年齡段的男、女比例差不多剛好是一比一[1]。
值得注意的是,在那時,近代自然科學還在萌芽中。當時,鼠疫的暴發被廣泛認為是由一組特定的行星排列散發出的某種惡臭氣體導致病人吸入后,經人與人之間接觸而傳播,因此大多數醫生習慣在治療時把填滿干花和有香味植物的長皮喙放在鼠疫患者鼻下。
圖4:“引發鼠疫的行星排列”
格朗特對此很不贊同。通過對壽命表的細致分析,他發現在眾多死因中慢性病、事故和自殺經常占有穩定的比率,而鼠疫等急性傳染病和惡性疾病所導致的死亡率波動卻很大。因此,對比鼠疫死亡率的不規律性同慢性病死亡率的規律性,表明鼠疫極可能與環境因素有關。正是這一結論,推翻了當時對鼠疫公認已久的看法[2]。
更為重要的是,書中以鼠疫病因推斷為代表的諸多案例分析,體現出明顯的統計推斷思想和“大數”思想。正是這些,奠定了格蘭特“人口統計學之父”的歷史地位。
他在書中寫到,“我相信,幾個全年人口公報是確定人口數最簡便的辦法”,“為了提出一個要在許多年中形成的規律,需要進行多次地觀察”。在那個瘟疫、戰亂伴隨著文藝復興的時代,他繼承了培根(Francis Bacon, 1561—1626)科學歸納-假設檢驗的經驗主義思想,形成“數據歸約”思想,強調要把龐大、雜亂無章的數據逐一分類并整理成簡明清晰的表格,從而突顯出有價值的信息,從自然現象和社會現象中探索一系列統計規律。之后,這一系列思想萌芽演變為了統計學的基本原理和方法,如大數定律。
幽默地說,格蘭特“不相信牧師們的解釋,只相信數字和事實”。這本著作不僅標志著人口統計學的開端,也是生物統計學思想的萌芽,是歐洲封建時代從“占卜觀星”治病走向以數據分析、假設檢驗的科學方法確定病因的節點之一,是人類文明從上帝世界走向科學宇宙的歷史進程中的重要一環。
在這一進程中,“大數法則”揭示的統計規律性——頻率具有“穩定性”——直接與笛卡爾“自然法則恒定”的機械論世界觀相呼應,統計推斷思想(尤其是貝葉斯定理)蘊含的歸納-演繹法,也與實踐認識論揭示的人對自然現象及其規律的認識發展過程相呼應。
為什么頻率會具有穩定性?如何定量刻畫頻率的穩定性?這個問題,困擾了科學家幾百年。對它的哲學和數學探尋,導致了“概率”概念產生。
縱覽對賭博的早期研究和古典概率論的創立[3],最早是意大利醫生、占星學家(和資深賭徒)卡爾達諾(Girolamo Cardano, 1501-1576)撰寫《游戲機遇的學說》,研究如何在擲骰子賭博中不輸。一個世紀后,法國貴族公子哥德·梅爾(Chevalier de Méré)向帕斯卡(Blaise Pascal, 1623-1662)提出一系列賭博問題(比如他發現,將一枚骰子連擲四次至少出現一個六點的機會比同時將兩枚骰子擲24次至少出現一次雙六的機會多,但給不出合理解釋),使得帕斯卡與費馬多次通信討論“賭本分配問題”,與惠更斯同時期形成“期望”概念。
五十多年后,伯努利的《猜度術》發表,大數定律第一次被嚴格論述。又過了五十年,貝葉斯的《論機會學說問題的求解》發表,系統闡述了貝葉斯公式及貝葉斯定理。十九世紀初,拉普拉斯《概率的分析理論》發表,古典概率論走向成熟[4]。
圖5:《關于概率的哲學隨筆》封面
容易看出,古典概率的概念,正是一個個“資深賭徒”先以大量經驗為基礎提出了問題,經過數學家把問題數學化并運用組合數學來分析解決的過程中誕生的。促使卡爾達諾、德·梅爾思考賭博游戲的“機遇”及其規律的動因,是他們在大量賭博游戲中發現骰子不同點數組合的頻率趨于了不同的穩定值。這個穩定值,即后來數學家所定義的“概率”。
十九到二十世紀,俄國和蘇聯數學家切比雪夫、柯爾莫哥洛夫提出隨機變量等概念及概率的公理化定義,為大數法則和概率論提供了嚴格的邏輯基礎。至此,現代概率論走向成熟,并在今天AI時代作為理論基石而大放異彩。可以預見,邁向AGI時代,概率論還將進一步展現其價值。
需指出的是,在高度抽象的公理化定義下, 概率似 乎成了一種先驗的、脫離現實事物及其模型化的純主觀構造。但這實質上是主觀抽象帶來的失真。概率之所以被認識和定義、之所以這么有用,正因為它是對統計規律性的定量描述,是人們在認識和改造自然的過程中對不確定性現象中的確定性的發掘。倘若不顧客觀事實和統計結果,任意構造概率,如把拋擲均勻硬幣的概率測度定義為非均勻分布,而且信以為真,只會在主觀臆測中與實際漸行漸遠。
三、總結
迄今為止的概率概念都是理想化模型,是人們為了更好地認識世界、描述世界而進行主觀抽象的產物。因此,概率并非實際的客觀存在。
追溯概率的歷史能發現,雖然骰子游戲在數千年前已存在,但概率概念的形成、現代概率論的發展和完備化,發生于近代科學和自然哲學思想普及的年代,伴隨著歐洲國家在人口、經濟、航海、軍工等社會領域統計學需要的大量增加(事實上,伯努利大數定律建立后,18到20世紀的概率統計研究與天文學、氣象學、物理學、生物學、射擊學、彈道論等密切相關[5])。因此,盡管作為模型的概率并不實際存在,但它作為人類思維的產物,反映著一定的客觀實在——統計規律性。
有趣的問題在于,若不確定性現象中的統計規律性客觀存在,那么是否有某種定義方式,能讓概率概念能脫離模型范疇而直達不確定性現象中的確定性本質?進一步追問,不確定性與確定性,究竟何者是世界的本質?
另外,即使通過統計知道了某些現象頻率的穩定性,如何根據統計結果得到符合實際的概率分布,從而分析其機理? 比如,格蘭特發現的倫敦男嬰:女嬰出生率為14:13、男嬰夭折率高于女嬰、老年男性死亡率高于女性,是否是客觀事實(可參考歷年人口統計年鑒作對比)?其中蘊含著怎樣的規律?
參考資料:
1.吳嘉桐. 格朗特統計思想研究——以《關于死亡公報的自然和政治觀察》為例[D]. 上海:上海師范大學,2020.
2.吳倩,葉冬青,潘海峰. 人口統計學之父:約翰·格朗特[J].中華疾病控制雜志,2020,24(5):617-620
3.梁旭. 古典概率的歷史研究——走出賭博[D]. 天津:天津財經大學,2010.
4.華中科技大學. 概率發展史. https://maths.hust.edu.cn/info/1187/3353.htm
5.華中科技大學. 統計學的歷史.https://maths.hust.edu.cn/info/1187/3354.htm
來源:數學經緯網
編輯:Decoherence
轉載內容僅代表作者觀點
不代表中科院物理所立場
如需轉載請聯系原公眾號
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.