JOHN W. TUKEY AS “PHILOSOPHER”
作為“哲學家”的約翰·w·圖基
https://www.researchgate.net/publication/38348855_John_W_Tukey_as_philosopher
約翰·W·圖基作為“哲學家”
摘要
盡管并非傳統意義上的哲學家,約翰·圖基對我們的統計科學以及更廣泛的實證科學的理解做出了巨大貢獻。前者體現在他對得出結論與做出決策之間關系的闡釋,以及像顯著性和置信度這樣的簡單概念如何用來支持或“確認”實證發現。然而,他在試圖澄清R.A.費舍爾的信度論證的模糊性方面并不成功,最終未能得出明確結論。然而,他主要的努力是創建“探索性數據分析”(Exploratory Data Analysis,EDA)這一統計學的子領域,它對數據挖掘和數據可視化的持續發展提供了諸多貢獻。
引言
約翰·圖基(John Tukey)是二戰后四十年間統計學領域的重要人物,他傳達了獨特且重要的信息。他的天才主要體現在數學方面,但他內心深處熱愛科學,戰爭期間作為統計顧問和問題解決者的經歷使他專注于利用自己的才能推動統計學的發展。他堅信數學的關鍵作用,但他選擇通過尋找彌合數學與科學之間差距的方法來施展才華,而不是通過發展和證明定理。這種工作方式幾乎肯定會讓他被從事傳統受限專業的同事們貼上“哲學家”的標簽。
?在《文集》第三卷和第四卷的前言(以下簡稱JWT86)中,圖基指出:“這兩卷中所體現的哲學思想更多是基于一種‘自下而上’的方法,而不是‘自上而下’的。” 這意味著他寫作中任何可能被理解為哲學的內容,都是直接由試圖正確完成具體數據分析任務所驅動的,而不是試圖定義和推廣一個進行統計科學的整體框架。因此,或許這根本就不是哲學,而只是主流統計學。
圖基的重要性源于他非凡的智慧,他能夠輕松理解普通人難以看清的復雜細節。他通過反復向人們展示如何跳出大多數教師和同事所定義的狹隘框架來思考問題,揭示了未被認識到的可能性。因此,他作為顧問備受推崇。他的長篇大論式的寫作風格可能會令人抓狂,他占主導地位的個性也可能令人望而生畏,但他學會了塑造一種寬容的形象,并且樂于花費時間去解決有趣的問題,無論是來自普通學生還是國家機構的高層。我們這些有幸直接受到他影響的人,對他有著特別深厚的感激之情。
簡短的評述最多只能觸及圖基“哲學”文集的表面,這些文集共有1000頁,跨越三個多十年,主要是應編輯和會議組織者的邀請而寫。其中許多內容是重復的,但所有內容都富有洞察力,并且是經過深思熟慮的。這些眾多的頁面中蘊含著豐富的統計智慧,將長期吸引那些希望聚焦于20世紀第三個四分之一時期快照的從業者和歷史學家。
我并不聲稱以下內容是對圖基在職業生涯中所做出反應的發展背景下的全面評估。這一時期的發展是20世紀20年代和30年代開創的基本抽樣理論的延續,最初由費舍爾(Fisher)提出,隨后由圍繞耶日·奈曼(Jerzy Neyman)的頻率學派發展。這一時期也見證了從20世紀50年代開始的貝葉斯分析的反向倡導。圖基評估了許多這些發展,我將在下面概述。近年來,發展更多地是由計算技術的持續革命推動的,而不是由概念變化推動的,因此,在新的基本范式扎根之前,文集中討論的問題仍然具有當代相關性。
2.CDA與EDA
約翰對數據分析的標志性強調源于他的戰時工作,特別是與年長的同事查理·溫薩爾(Charlie Winsor)的合作。約翰認為,盡管需要進行正規學習和獲得博士學位,但有效實踐統計學還需要隨后多年直接參與應用的經驗。在20世紀40年代,約翰取得了開創性的貢獻,尤其是在時間序列的譜分析以及多重比較程序方面,他強調了基于當時普遍采用的抽樣模型的推斷方法。他后來將這種方法稱為“確認性數據分析”(Confirmatory Data Analysis, CDA),以區別于他后來主要關注的非概率性“探索性數據分析”(Exploratory Data Analysis, EDA)概念。他對應用抽樣模型存在的問題的看法,最終導致他從CDA轉向EDA,這些看法在《文集》第三卷和第四卷的前言中被萊爾·瓊斯(Lyle Jones)很好地總結了:
這些卷中強調的一個主題是,統計學是一門基于經驗的學科,統計學家必須準備好應對數據中的意外情況。幾乎不可避免的是,當仔細檢查時,數據被發現違反了應用經典統計推斷方法所需的標準假設。從“寧可大致正確,也不要完全錯誤”的前提出發,圖基尋找對這些假設的常見違反具有抵抗力的程序……圖基并不滿足于采用通用的非參數程序;他尋求有助于得出有意義結論的解決方案,并建議采用效率損失很小的程序。例如,通過關注對數據擬合統計模型的殘差分布,通過變量的重新表達以及采用特殊程序處理異常值,可能會得到更好的擬合結果。
從1962年喬·霍奇斯(Joe Hodges)用來開啟他在《數理統計學年鑒》(The Annals of Mathematical Statistics)的編輯工作的里程碑式文章“數據分析的未來”(The Future of Data Analysis,重印于第三卷,第391-484頁)開始,約翰有意識地決定推動數據分析,并且不斷推動。實際上,他將自己的聲譽與EDA聯系在一起。約翰版本的EDA強調使用鉛筆和紙繪制的圖形,如莖葉直方圖和箱線圖。在這方面,他展示了極高程度的創造力,但主要局限在于主要針對可以通過簡單圖形摘要直接產生視覺沖擊的小型數據集。他的工作可以被視為后來被稱為“數據挖掘”和“數據可視化”的大型發展的先驅,這些發展現在更多地旨在闡明大型和復雜的數據集,并且在許多工程和物理科學領域有著堅實的基礎。這些運動旨在創建能夠代表和捕捉復雜高度結構化系統的技巧。總結和展示這類數據的相關方面(例如時空方面)是分析復雜系統的一部分。約翰的許多簡單工具將通過統計軟件包中廣泛使用的圖形而得以延續。然而,他的著作中幾乎沒有關注到在探索數據中日益重要的大規模計算能力,而且對于理解復雜現象的整體而非僅僅以小的、還原論的方式理解所必需的大模型的作用,他幾乎沒有提及。
盡管約翰參與了許多重要的實證研究,但哲學文集很少反映出他的應用工作。這或許是由于他主要采用“自下而上”的方法,導致統計學在科學中作為推動廣泛重要問題的更大作用沒有得到充分探討。正如他本人可能說的那樣,我們需要“自下而上”和“自上而下”的方法。與他有時合作的弗雷德·莫斯泰勒(Fred Mosteller)不同,約翰似乎很少在印刷品中評論數據分析在他所指導的重大項目發現中的作用。我的感覺是他不智地認為,當統計分析成功或有用時,這是顯而易見的。生活經驗,或許尤其是在統計學領域,教導我們很少有人對這類問題達成一致。一個真實的案例研究如果沒有展示在設計和分析過程中考慮和嘗試的替代方案、發表后對發現的挑戰以及在批評中學到的教訓,那么這個案例研究是不完整的。或許現在是時候評估一下EDA運動如何從運動內部和外部的視角來看待其在更有成效和較不富有成效的方向上的引領了。
在《美國統計學家》(The American Statistician)1980年的一篇簡短筆記中,約翰討論了“探索性”和“確認性”之間的平衡:我們需要探索性和確認性…… 在JWT86(第xl頁)中,他再次提到這一點,為他寫作中傾向于前者辯護,認為這在當時對專業領域是適當的,同時擔心未來幾年的讀者可能會讀出一種無意的偏見。這表明約翰本質上是保守的,他試圖將自己定位為對學科持續發展做出貢獻,而不是將EDA視為一種會取代當前范式的新潮流。在這里,我再次感受到了缺乏“自上而下”的解釋。他到底認為,對于報告的形式化推斷(如p值)的從業者來說,信息是什么?什么是“確認的”,又是如何確認的?我將在下面回到圍繞貝葉斯和主觀概率的棘手問題,以及費舍爾的“信度”概率與奈曼的置信程序的關系。
3 結論與決策
?在JWT86中,約翰特別建議讀者閱讀第6章“結論與決策”,以便我們都能清楚地區分持續接受的結論(用于指導思考或行動,無論何時何地適用,直到被替代或糾正)和“假設ABC為真”的決策行為。
這里傳達的信息是,已確立的科學發現不應與在缺乏確鑿知識時必須經常做出的不確定性決策混淆。相應地,前者背后的邏輯不應與后者背后的邏輯混淆。毫無疑問,約翰主要對科學感興趣,而不是決策,當然,選擇統計方法的明智決策除外。
在第6章的引言中,萊爾·瓊斯(Lyle Jones)摘錄了一些關鍵引文,包括:我相信,結論對科學而言甚至比決策更為重要,
……結論必須謹慎、堅定地得出,不要太早也不要太晚……
……它們必須具有持久的價值,但不一定是永恒的價值……。它們必須根據其長期效果、根據其“真實性”而非特定行動的具體后果來評判。
瓊斯對第6章還有進一步的深刻評論:在整篇文章中,圖基強調了在統計方法中區分決策要素和結論要素的重要性。顯著性差異檢驗被視為一種定性結論程序,而區間估計是一種定量結論程序。假設檢驗可以是決策程序,也可以是結論程序;決策要素和結論要素的糾纏是一個應盡可能避免的混淆來源。
在1955年撰寫時,約翰評論了亞伯拉罕·瓦爾德(Abraham Wald)的頻率決策理論框架在數理統計中相對較新的主導地位。在第6章的有趣附錄3中,
關于假設檢驗呢?
他指出奈曼的理論及其5%、1%等顯著性水平對于實際決策是不合適的,并且基本上贊同瓦爾德的理論,因為它鼓勵了更廣泛的規范多樣性,并表明數學應該提供的是多種良好程序(例如,一個完備的可接受程序類),而不是單一的最佳程序,必須通過針對特定實例的判斷和洞察(或許以先驗分布的形式表達)來選擇“最佳”程序。
在占據整整200頁的1961年“Badmandments”論文中(第三卷,第187-390頁),約翰探討了在其他方面表現出色的科學家們中普遍存在的對p值和后驗概率的混淆。作為“第100條Badmandment”,約翰指出了顯著性檢驗的經典謬誤,即
顯著性水平告訴你你的結果是錯誤的的概率。
直到今天,每個統計學家仍然會頻繁地發現這種謬誤的某種形式,并將其標記為錯誤。
我認為,耶日·奈曼(Jerzy Neyman)和埃貢·皮爾遜(Egon Pearson)對這種狀況負有部分責任,因為他們將假設檢驗理論表述為在零假設和備擇假設之間做出決策,這很容易導致將尾部區域誤解為在零假設和備擇假設之間做出裁決。費舍爾堅持認為p值與決策無關,事實上在計算中根本不涉及任何備擇假設的表述,而只是在零假設下計算不可能結果的指示器,這當然是更安全的立場。當然,也可以認為那些重復這種謬誤的科學家們應該為沒有更好地理解概率論證的含義而承擔責任。
進一步推進這個論點,約翰接著指出,那些使用這種說法的研究者似乎與那些不使用這種說法的研究者以大致相同的方式解釋數據。
如果置信系數或顯著性水平被常規性地誤解,而科學的車輪似乎因這些誤解而得以潤滑,這是否重要呢?有時是的,有時不是。如果這個值是0.001,并且被埋沒在一篇純粹的科學論文中,這篇論文要么會被他人成功復制,要么不會,那么這種誤解幾乎不會造成傷害。但如果這個值是0.2,并且被用作實際決策的依據,那么由于誤用而產生的成本可能是實實在在的,此時進行后驗概率計算是可取的。
4 貝葉斯方法
一些讀者可能會對JWT86中對貝葉斯推斷表現出的和解態度感到驚訝,他強調貝葉斯的本質在于引入來自其他來源的信息,同時批評了貝葉斯方法聲稱在我們不想從數據之外的任何其他信息來源中獲取信息時也能很好地為我們服務的希望(甚至主張),例如通過使用“溫和”或“非信息性”先驗。
兩頁后,他聲稱“個人概率”可以被訓練有素的個體用于“概率演算”以進行“區分性判斷”。他本人表示,他沒有在那些似乎需要先驗或個人概率的領域工作。
他批評統計學中的貝葉斯運動沒有為穩健性提供真正有效的位置,并認為當前討論的貝葉斯分析誘使我們:
放棄一些可能重要的見解和經驗,因為很難將它們提煉成定量形式;
避免思考系統誤差,因為這些通常不被包含在貝葉斯模型中;
忽略那些沒有人知道如何提煉的經驗或見解。
這些評論來自20世紀80年代中期,當時用于采樣非平凡后驗分布的實際蒙特卡洛方法正準備投入使用。自那以后積累的許多經驗可能在一定程度上緩解了約翰的擔憂。特別是,由于可以輕松進行貝葉斯分析的多個版本,貝葉斯穩健性通常通過自然關注替代假設的有意義后果的敏感性分析來評估。貝葉斯方法遠非鼓勵避免量化諸如系統誤差等重要因素,而是提供了一種直接的方式來引入統計數據中未反映的來源的證據。貝葉斯思維和分析應被視為補充和與約翰偏好的方式相互作用。
5 費舍爾與奈曼
?早在早期,約翰就認識到費舍爾在統計學學科發展中的根本重要性,他將費舍爾視為利用高超數學才能為科學服務的典范。約翰編輯了費舍爾基本統計論文的再版[^Tukey (1950)^],并鼓勵當時的學生對各種不同的英美觀點持平衡的看法。他特別對費舍爾的“信度論證”感興趣,并在20世紀50年代的幾年里持續努力澄清和深化他對這一概念的理解。貝內特(Bennett,1990)中重印的費舍爾和圖基之間14頁的通信顯示,他們大多在相互誤解,最終在1955年夏天,費舍爾毫不客氣地將約翰趕出了他家,盡管我當時是約翰的研究生,卻對此毫無察覺。約翰的《文集》第六卷包含兩篇關于信度方法的未發表長文。一份1957年8月的長手稿(第55-118頁)中寫道:我們主張,概率的陳述,包括信度概率的陳述,應該能夠用頻率來驗證,這是最基本的要求。費舍爾當然拒絕了這一“要求”,這是他更廣泛拒絕奈曼統計學基礎的決策理論工具的一部分。歷史表明,主流統計學一直受到“必須用頻率來驗證”的約束,以至于費舍爾的統計哲學在最近幾代人中鮮為人知。這一約束也作為對抗貝葉斯方法的防線。或許有必要發表一些評論,因為頻率的兩個方面都很重要,但容易混淆。首先,所有統計學家無疑都接受基于頻率的概率是最可靠的。但做出這樣的陳述時,我們是在承認這兩個概念是不同的,否則這個陳述就是空洞的。因此,頻率作為來源的重要性留給了概率“是什么”的問題。第二種頻率主義是奈曼在其“歸納行為”教義中所尊崇的,現在也很少被教授,幾乎被遺忘,但基于一個非常活躍的原則,即統計程序的選擇應該通過評估它們的長期表現來做出。對我來說,就像我假設對費舍爾一樣,將頻率可驗證性提升為必要條件的問題在于,在客觀現實世界中,很少有一大堆案例,可驗證性是重要的,我認為在我們作為專業人員面對的現象日益復雜的時期,這一點應該越來越明顯。我在下面回到對特定情境下分析的推斷的實際必要性。盡管如此,從理論上講,對程序進行頻率評估仍然是重要的,并且暗示了實際選擇的后果,盡管費舍爾對此提出了激烈的反對。
在上述文件中,以及在1958年8月在麻省理工學院(MIT)舉行的IMS瓦爾德講座的三個講義中(也重印于第六卷),約翰試圖創建他自己的費舍爾論證數學化的版本。一個技術問題是關鍵量的非唯一性,包括基于與參數空間相同維度的最小充分統計量的不同選擇。圖基對費舍爾的挫敗感無疑加強了來自許多其他數學統計學家的傾向,這些統計學家的工作被費舍爾輕率地駁回,認為費舍爾是一個不承認自己錯誤的怪人。然而,我沒有從約翰的作品中得到這種態度,并繼續將費舍爾作為我自己的主要靈感來源。
瓦爾德講座顯示,約翰相信在決策理論框架之外的數學分析可能會將費舍爾的信度思想從奈曼的頻率主義改寫成置信論證的主導地位中拯救出來。圖基這里的一些想法,以群不變性作為費舍爾一些例子的基礎,在唐納德·弗雷澤(Donald Fraser)的“結構推斷”理論中重新出現,但據我所知,約翰在1958年后從未認真對待過費舍爾的理論。我自己對費舍爾信度論證的構建,現在在統計學之外的多種文獻中廣泛被稱為德姆普斯特-沙弗理論(Dempster-Shafer theory),并沒有借鑒圖基-弗雷澤的方法,而是基于一個更一般且在數學上更精確地將命題邏輯與信念概率相結合的整合。
在與莫斯泰勒(Mosteller)合著的一篇長文(“數據分析,包括統計學”,第四卷,第601-720頁)中,預示著他們1977年合著的書,作者們表達了他們對奈曼以及眾多教科書中所主張的置信區間的擔憂,即置信區間只是一個關于假設長期運行的陳述。那么,為什么科學家應該接受置信聲明是對正在研究的具體現實世界情境的任何說法呢?弗雷德和約翰認為:……當對參數沒有額外信息,且典型性和選擇性似乎不需要質疑時,似乎沒有什么不對將置信區間附上一個信念程度;事實上,很難看出為什么會有嚴重的擔憂。
附加條件“典型性與無選擇性”與費舍爾的“無可識別子集”條件非常接近,后者是費舍爾在1956年提出的用于信度有效性的條件。如果一個置信聲明在沒有重要附加條件的情況下對當前情境沒有具體說明,為什么這一觀點沒有向統計學內外的用戶說清楚?這里存在一個尚未解決的問題,但這個問題仍然很少被提及。
6 結論
重點在于,數據中不存在的東西可能與統計學家能看到的東西一樣重要。
在“數據分析與行為科學”(1961年,第三卷第187-389頁)中,我們發現:……建立因果關系總是需要兩個要素,一個是經驗性的,另一個是理論性的。
這提醒我們,統計學家所說的因果關系與科學因果關系在本質上是不同的。前者實際上關乎預測,例如預測不同處理對定義好的總體和亞總體將產生什么效果。統計因果關系引發了關于隨機化可行性和觀察性研究危險性的重要關切,這些問題可能會被應用統計學中許多領域對“顯著效應”的強調所掩蓋。然而,正如約翰所指出的,科學因果關系更進一步,要求科學家“理論上”解釋為什么可以預期某種效應,例如通過將其與某種機制的解釋聯系起來,使一個原因變得合理可信。
我還可以補充說,EDA本身在精神上更接近非統計學家科學家的思維方式,而不是任何統計方法的概率表述:旨在提供能夠直接通過原始數據的計算來豐富經驗知識的工具。
約翰對EDA的首要強調代表了一種悲觀的觀點,即統計理論在科學的許多領域中離獲得尊重還差得很遠。他認為統計建模和不確定推斷未能達到標準。特別是關于推斷,他在第六卷(1990年)的前言中指出:
今天,我不相信有任何一種統一的推斷方法能夠實現。我自己的觀點則更為樂觀。盡管我們需要認真關注約翰·圖基多年來提出的重要問題,但朝著更大共識的進步是可能的,這主要需要新一代統計學博士摒棄幾十年前過時的意識形態,采取更開放的態度。這是一個值得在其他時間和場合探討的話題[Dempster (1998, 2002)]。
原文鏈接:https://www.researchgate.net/publication/38348855_John_W_Tukey_as_philosopher
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.