憑借大量數據、強大的模型和統計思維,科學家可以對各種復雜現象做出預測。如今,這種利用機器學習和海量數據集力量的實踐正在不斷發展。在本集中,聯合主持人之一Steven Strogatz(史蒂文·斯特羅加茨,1959 -)與統計學家Emmanuel Candès(伊曼紐爾·坎德斯,1970 -)討論了黑匣子、不確定性和歸納推理的力量。
圖源:Peter Greenwood | Quanta Magazine
作者:Steven Strogatz 量子雜志播客主持人 2024-11-7
譯者:zzllrr小樂(數學科普公眾號)2024-11-8
科學家們通常會建立定量模型——比如天氣或流行病——用其做出預測,然后他們可以根據真實情況進行測試。這項工作可以揭示我們對復雜現象的理解程度,并決定下一步研究的方向。近年來,大語言模型(LLM)等“黑匣子”系統取得的顯著成功表明,有時在根本不知道某些東西如何工作的情況下也可以做出成功的預測。在本集中,著名統計學家Emmanuel Candès(下文簡稱EC)和主持人Steven Strogatz(下文簡稱SS)討論了如何在大學招生、選舉預測和藥物發現等各個領域研究中使用統計學、數據科學和人工智能。
SS:做出預測是一項融入我們生活各個方面的挑戰,而且往往甚至是以我們沒有想到的方式進行。今天下午會下雨嗎?股市將如何對最新新聞反應?媽媽過生日會想要什么?
通常,我們至少在科學方面建立知識庫和理論理解,并應用我們所知道的知識來預測未來的結果。但這種方法面臨著嚴重的局限性,特別是當要分析的系統非常復雜且人們對其了解甚少時。
我是Steve Strogatz,這是《Quanta Magazine量子雜志》的播客“The Joy of Why”(為何之樂),我和我的搭檔主持人Janna Levin輪流主持,探索當今數學和科學中最懸而未決的問題。
在本期節目中,數學家兼統計學家伊曼紐爾·坎德斯(Emmanuel Candès,1970 -)將與我們一起探討數據科學和機器學習如何幫助我們,用前所未有的方式解決復雜的預測問題?我們應該對他們的預測有多大的信心或懷疑?我們能找到量化這種不確定性的方法嗎?
伊曼紐爾是斯坦福大學數學和統計學系主任兼教授 。他的工作涉及數學、統計學、信息論、信號處理和科學計算。他是美國國家科學院院士,并獲得過麥克阿瑟獎、科拉茨獎和拉格朗日獎。
伊曼紐爾,歡迎來到“為何之樂”(The Joy of Why)。
伊曼紐爾·坎德斯(Emmanuel Candès,1970 -)
EC:非常感謝你邀請我,既然你提到了美國國家科學院,首先讓我祝賀你也當選。真是太棒了。
SS:你太好了。謝謝。嗯,我很榮幸能夠加入你和我們所有其他令人尊敬的同事。
好吧,讓我們從現在幾乎每個人都在思考的事情——機器學習模型開始。我們不斷聽到很多這方面的消息。我們知道,它們可以深入研究大量數據集,并經常發現人類無法檢測到的模式。
但這些模型,人們經常將它們稱為“黑匣子”(黑盒)。我只是想知道,你自己會使用這個短語嗎?如果是的話,我們所說的黑匣子是什么意思?
EC:正如你所說,機器學習算法將過去收集的數據作為輸入。并給定一組特征,嘗試對未知標簽進行預測。
因此我不得不說,預測建模的文化與統計學科領域本身一樣古老。從弗朗西斯·高爾頓(Francis Galton,1822 - 1911)、卡爾·皮爾遜(Karl Pearson,1857 - 1936)和羅納德·費舍爾(Ronald Fisher,1890 - 1962)開始,統計學家一直非常專注于根據數據進行預測。但他們使用相對簡單的模型——即可以進行數學分析的模型、我們在大學教授的模型,這些模型有時可以提供可靠的推論。
但我認為我不需要告訴你,現在我們已經超越了這些簡單的回歸。我們正在使用深度學習、梯度提升、隨機預測——這些技術已經變得非常流行,有時甚至結合起來使用。現在變得如此復雜,非常困難。我們使用“黑匣子”一詞來指代過于復雜以至于難以分析的算法。當然,有很多理論學家試圖了解黑匣子中發生的事情。
SS:謝謝。精彩的解釋。這似乎是一個全新的統計領域。
EC:當然。但這并不意味著我們必須放棄迄今為止所做的一切。我的研究小組一直在做的事情,以及目前世界各地許多小組正在做的事情,就是嘗試獲取這些黑匣子的輸出并將它們視為統計對象。
因此,我們看到了統計的整個分支,它在不做出任何建模假設的情況下推理這些黑匣子的輸出。這樣分析的結果是可信的,這樣我們就可以量化不確定性,從而做出可靠的決策。因此,p值和置信區間等所有內容都以一種或另一種方式存在。
p值的概念,本質上是一種衡量方法,用于量化你對某個實驗結果應該感到驚訝的程度。在黑匣子的背景下,如果黑匣子做出了預測,我仍然可以問我應該對這個預測感到多么驚訝。所以我需要能夠量化驚訝的因素。因而我希望能夠將預測轉換為你所說的p值,讓我可以實際校準黑匣子的結果。
令人驚訝的是,我們不必放棄我們一直在做的事情。大多數情況下,我們正走向一個參數模型較少,但獲得經過良好校準的結果(量化不確定性)的概念仍然存在的世界。
SS:這太有趣了。我真的很喜歡你的說法,這有點像黑匣子可以保持黑色。我們不必查看模型的底層或內部,即可通過分析來理解正在發生的事情。因此,就像我們正在采用舊的方法論、傳統統計學的舊愿望來量化不確定性,并為這些黑匣子模型的新世界重建理論。
EC:當然。新世界的重建有很多不同的風格,但我會給你舉一個例子。讓我們想象一下,在不遠的將來,人們申請大學,由于大學收到了如此多的申請,我們會至少將部分決策過程外包給黑匣子。假設現在學生申請康奈爾大學,即你的母校,并且你決定以某種方式使用黑匣子來預測他們在康奈爾大學的表現。那么問題是,這些預測的校準程度如何?
你可以做的是,可以說,“好吧,我已經訓練了我的模型,現在我已經保留了一組我知道結果的學生,我實際上可以看到黑匣子如何預測這些結果。”現在我可以試著理解一下,什么樣的學生誤差較大?什么樣的學生誤差小呢?我可以從這個黑匣子中獲得怎樣的準確性呢?
現在,當你要使用黑匣子來篩選一些候選人時,你可以據此進行校準。因為你已經觀察到了測試集上的黑匣子預測之間的不匹配,所以你可以了解一點黑匣子的準確性和你實際可以得出的結論。通過觀察一組學生的黑匣子的結果(你有結果、標簽),你實際上不能產生學生怎么樣的點預測,但你可以獲得一個預測區間,有可能在規定的時間內包含學生們真實的表現。
當我這么說時,我是說你沒有模型。內部任何地方都沒有高斯分布(Gaussian distribution)。你僅利用隨機抽取學生的事實,查看黑匣子對隨機子集的作用,然后使用這些觀察結果來實際推廣到未見過的學生。
這在很大程度上是一種統計精神,也就是說,你收集申請學生的特征數據,以及黑匣子對這些學生的描述。你正在從中學習,以便能夠說出對未來有效的事情。
SS:很好。我真的很想解開這個例子,太誘人了。我認為,特征和標簽的語言可能有點抽象。讓我看看我是否明白你所說的。
如果我想象一群高中生申請康奈爾大學或你所在的機構斯坦福大學,無論哪種方式,特征可能是他們的高中GPA(平均學分績點),是否參加過校隊運動,是非裔美國人還是拉丁裔,是男是女,諸如此類。你會需要這些特征?
EC:是的,這些都是特征。這些基本上就是你的申請文件中的內容,對嗎?這些就是你對申請人的了解,可以進行數字化。但我認為我們現在生活在一個現代世界,所以你的論文可能是一個特征。因為你的論文將變成一串數字。這就是圍繞大語言模型的革命。這也是一個數字特征,你可以用它來預測你的英語寫得怎么樣?你的詞匯量有多豐富?你知道,有很多東西你可以使用。
SS:是的,但是就大學可能想要預測的內容而言,為了簡單起見,如果我們說我們想要預測學生畢業時的GPA,該怎么辦?
EC:舉個更簡單點兒的例子:學生會在四年內畢業嗎?因此,在這種情況下,讓我們看一下你的第一個示例:你想要預測兩年本科教育后的GPA。我可以說,黑匣子對這些學生(的表現)說了些什么?通過觀察誤差的分布——即學生的真實GPA與黑匣子預測之間的差異——我可能會對黑匣子對一個隨機學生的預測的典型誤差有所了解。
因此,當新學生進來時,我會感覺到我將要面臨的誤差,我可以給你一個可能包含該學生的真實結果的區間,而不是只給你一個點預測。令我們驚訝的是,對于某些申請或某些學生來說,這個區間可能很短。我們對他們的表現相當有信心。對于其他人來說,區間可能很寬。
SS:嗯嗯。在這種情況下,區間,這個例子中的區間是多少?
EC:一個區間可能是我預測的2.9到3.9,所以中心(中點)在3.4左右,另一個區間我預測是3.3到3.5,區間要短得多。它們的中心預測出來是相同的,但范圍卻相差很大。
如果我是一名招生人員,我想了解有關我的預測引擎的信息,對嗎?比如,準確度如何?點預測有什么程度的不確定性?
如果我們從事金融業,我有一個投資策略,我說,“史蒂文,我可以向你保證6%的回報率”,那么 6%±1% 和 6%±10% 之間的情況就非常不同了。如果你屬于后者,你可能會失去很多錢和很多客戶。
SS:好的,非常棒。你給出的這個例子,無論是在金融還是GPA方面,確實有助于強調為什么我們不僅關心平均值(或者我們可能稱之為“點估計”),而且還關心我們可能具有高置信度的區間。我的意思是,我希望任何人都能看到能夠預測區間而不僅僅是數字是多么有價值。
因此,如果可以的話,我現在想轉向大學環境之外的另一個現實世界的例子,與選舉預測有關。這里請聽眾知曉,我們是在2024年美國大選前幾個月錄制這個播客的。但我們預測,這一集——請原諒我用雙關語——將在選舉結束后的某個時間播出。所以我確信這是我們聽眾非常關心的事情。
我知道你和你的學生也曾在這一領域工作過。問題是,你能為我們提供哪些關于用于預測選舉的復雜模型的見解?
EC:也許首先我應該說清楚。我對選舉預測沒有真正的第一手經驗。我正在與《華盛頓郵報》的學生一起在他們的數據科學臺上工作,他們實際上在做這項工作。如果可以的話,我將擔任這部分對話的使者。
SS:我想對參與其中的年輕人給予一些贊揚。而且我也覺得你可能有點謙虛,因為你有很優秀的品質。但我的意思是,至少就萊尼而言,為《華盛頓郵報》工作的萊尼·布朗納(Lenny Bronner)和斯坦福大學的本科生不是嗎?他們不是建立在你幫助開發的一些技術的基礎上的嗎?
EC:確實如此。但如你所知,當你實際在戰壕中從事一些具有重大意義的事情時,例如預測選舉結果,即使我們寫的一些論文中包含了一般原則,仍然有大量的工作需要完成。我已經盡力讓這一切順利進行。
SS:很好。謝謝。
EC:新聞機構本質上要做的是,一些投票已結束,一些選區正在計票,一些縣剛開始計票。事實上,這是一個非常酷的問題,因為選票已經在盒子里了,可以這么說,你還沒有打開盒子,你想知道里面有什么。
許多正在進行的統計工作,例如在《華盛頓郵報》(我最了解的組織),他們正在嘗試預測未計票的縣。因此,你不必對他們的觀眾類型進行點估計,“圣克拉拉會以這種方式投票”,你可以統計未計票縣的預測,在州一級匯總它們,并非常細致地了解加州的投票情況。
現在,這是如何完成的?顯然我們需要預測各縣的投票情況。這將基于很多特征。它是一個以城市為主的縣嗎?是農村縣嗎?教育水平如何?與縣相關的社會經濟變量是什么?最重要的是,上次該縣的投票結果如何?
因此,你正在使用所有這些特征,你正在嘗試學習一個可以準確預測各縣投票情況的模型。如果你愿意的話,這就是你的黑匣子,除了他們使用的模型沒有我所看到的復雜,相當簡單。
但第二部分是校準。因為你不能只是在廣播中說,“哦,你知道,加州會這樣投票。”事實上,這只是一個點估計。如果你弄錯了,這會產生巨大的后果。因此,他們要做的是統計加州的一系列可能的投票結果,這些結果會隨著選舉的進行而動態更新。這真實地反映了他們對投票結果完全統計后會發生什么的了解程度。
他們所做的事情非常酷,因為他們確實在預測誤差。他們正在預測不確定性。當然,你可以看到,隨著越來越多的縣被統計,他們的不確定性范圍正在縮小。
而且他們相當忠實。正如我們在現場所說,他們正在進行回溯測試,他們說:“好吧,讓我們看看這個模型在2020年會如何運作。”他們希望確保他們投射的時間間隔包含真實的標簽、真實的投票、規定的時間比例。
所以這一切都設計得很好。我認為,《華盛頓郵報》非常尊重他們的讀者,不僅為你提供了點估計,而且還讓你真正感受到了他們的點估計的準確性,這值得稱贊。
SS:現在,為了明確這一點,我們不是在談論根據提前一年的民意調查或類似的東西來預測選舉。這是根據即將公布的結果對選舉之夜進行的預測。
EC:沒錯。所以讀者必須想象基本上在某個地方的盒子里有選票。唯一的一件事是,盒子還沒有被打開。但我在其他縣、其他轄區的其他地方也看到過類似的盒子被打開。我將利用這些知識來預測這個盒子里的東西。這將是一個非常精確的預測,遵循我們之前提出的原則。而且你確實有權使用民意調查作為特征,作為模型中的預測變量。
SS:我想你可以。我認為很多人可能對民意調查持懷疑態度。我們已經看到進行民意調查有多么困難。但話又說回來,模型可能會考慮到這一點。也許它沒有分配太多的權重。
EC:沒錯。該模型將考慮到這一點。現在,民意調查有一點棘手,那就是不同縣的民意調查可能會有所不同,對嗎?
通常,當你擬合統計模型時,你希望數據集中所有單元的特征都相同。那么回到我們之前關于大學招生的例子,對吧?每個人都有高中GPA。對于“你在校隊嗎?”每個人都有是/否的答案。
因此,將你的民意調查用作一項特征可能會比較棘手,因為某些縣可能有它,而其他縣可能沒有。所以你必須要小心一點。
SS:好的。我們一直在與Emmanuel Candès討論統計數據、預測模型及其固有的不確定性。
那么讓我們來看另一個現實世界的例子。我在這里思考的是預測模型的醫學應用。藥物發現——當然,這非常重要,關系到生死攸關的后果。例如,有人采取了利用AI人工智能生成人工數據來增加樣本量的舉措。這聽起來有點難以想象這會起作用,但顯然這可能是一個有用的策略。
EC:你問的問題非常有趣,我認為你再次觸及了統計科學作為一門學科的未來。
統計學一直是一門經驗科學,試圖理解周圍的世界。例如,現在我們正在處理生成式人工智能(Gen AI),或者非常奇特的機器學習算法。
為了了解藥物,我們從體內開始:就像,我們只是給人們注射東西。然后我們在體外做了這個。現在我們正在進入計算機模擬,正如你所指出的,對吧?我們想使用算法來預測藥物的作用。
假設你是一家大型制藥公司,并且擁有龐大種類的化合物庫,可以達到四億、五億種。你想知道哪些化合物實際上會與目標結合。那么,你怎么做呢?
你應該將你的化合物一一取出并試驗它們是否會與你的目標結合。但正如你可以想象的那樣,這需要大量的時間和金錢。所以現在人們正在使用機器學習來猜測他們是否會結合。在過去的幾年里,我們已經看到了像AlphaFold這樣的東西。例如,我們已經看到很多模型試圖僅根據氨基酸序列來預測化合物的形狀。
現在,這不會取代物理實驗,但機器學習在這種情況下所做的,它將優先考慮你應該首先嘗試的化合物。我們在這個領域所做的事情之一就是說,“好吧,我們將訓練一些非常奇特的模型——它們實際上是黑匣子。我的意思是,它們太復雜了,我不知道它們到底做了什么,但它們會產生親和力(親密度)分數,即化合物對目標疾病的親和力。”我說:“我可以相信這個嗎?”
在沒有任何統計模型的情況下,只需查看算法對未經訓練的分子的預測,我們就可以選擇[一個]數據自適應閾值(即如果你愿意,一旦預測的親和力高于此閾值,你將選擇所有這些分子),則可以保證我提供給你的內容中有80%實際上是你感興趣的。
在下游,你將對一些真實的事物進行一些真實的實驗。但在這里,非常令人興奮的是人工智能確實可以加快應該傳遞給實驗室的藥物的優先順序。
SS:不,它為有根據的猜測的概念賦予了全新的含義。正如你所說,這些現在都是經過精心教育的猜測,必須進行測試。
EC:它們仍然需要接受測試。現在還有另一件事,這一次可能更可怕,那就是,如果我們使用生成式AI來構建人們所謂的“數字孿生”,即非物理的東西,但可以通過生成式人工智能生成,會怎么樣。因此,這里出現了一個新的研究方向。
舉例來說,假設我想研究某些藥物的統計特性,對吧?問題是我的樣本太少了。假設我想估計哪部分藥物具有某種特性。問題是我有很多氨基酸序列,但我還沒有測量它們的特性。正如你可以想象的那樣,趨勢是使用預測模型(黑匣子),用預測代替真實測量,然后假裝它是真實數據。然后對這些預測進行平均,得出具有其特性的藥物的總體比例。這是錯誤的,因為這種方法引入了偏見(偏差)。
我們想要使用這個預測模型,我們想要使用生成式AI來填充缺失的數據,以創建新的數據集。但與此同時,我們需要了解如何消除偏見,得出科學有效的結論。
讓我舉個例子。假設我只想估計隨機變量的平均值。我們不妨稱之為y 。我有一些特征,我們稱它們為x 。我可以嘗試學習的是,可以擬合一個模型來根據x預測y。現在,當我沒有真實標簽時,我可以用預測來替換真實標簽和真實數值。
我可以對它們進行平均,但它們會有偏差。但你猜怎么著?我可以消除偏差,因為我從你給我的標簽數據中估計了偏差。
SS:很好。
EC:因此,如果我做得正確,我可以有效地極大地增加樣本量。如果我的預測具有合理的準確性,那么就好像我的樣本量要大得多。所以我能告訴你的信息的準確性要高得多。
SS:嗯,我忍不住要問你,因為這對我們來說是一種難得的享受。你因對人們所說的“壓縮感知”(compressed sensing)領域的貢獻而聞名。我不知道它是否完全適合我們今天的討論,但我想請你告訴我們壓縮感知及其在醫學成像、MRI(磁共振成像)或其他方面的應用如何適合我們正在談論的框架?即使沒有,你能告訴我們一些相關信息嗎?
EC:它不直接適合。我認為壓縮感知的事實是稀疏性(sparsity)是一個重要的現象。我們現在看到的是人們測量陽光下的一切,因為我們不知道最終什么是重要的,對嗎?因此,我們需要像你我這樣的人來篩選重要的事情。壓縮感知所說的是,如果我們測量很多東西,但如果只有少數東西重要,并且如果我們使用壓縮感知理論建議的正確算法,那么我們應該能夠建立一個非常準確的預測模型。
就像,我們會明白很多變量與預測結果無關,它會很快關注那些對結果有影響的變量,然后相應建立一個好的預測模型。
SS:所以你一直在使用“稀疏”這個詞。在這種情況下,這是否意味著所有那些無關緊要的變量,我們可以有效地將它們的貢獻設置為零?
EC:沒錯。所以說,在這種情況下,對于我們的觀眾來說,可能會說,即使我測量了一百萬個遺傳變異,表型的分布并不取決于這一百萬個東西。它可能取決于20、30個。這就是稀疏性。
因此,壓縮感知提出的問題是,當某些事物依賴于長列表中的少數但未知的事物時,你如何著手并找到它們?
SS:嗯嗯。因此,該技術或方法將識別哪些是關鍵的20(或任何小數目)個。
EC:沒錯。讓我們把這看作一個矩陣問題,可以嗎?我有個矩陣,它有一百萬列,這些都是遺傳變異。然后我得到一個反應y ,這些是該矩陣的行。如果我想求解一個系統y = ax ,比如哪些遺傳變異對預測y很重要?經典理論會說,我有多少未知數就需要多少個人。但壓縮感知理論說,不,這不對。因為如果你提前知道這些基因變異中只有少數很重要,那么你就可以與更少的人打交道。這就是為什么我們可以開發不需要一百萬患者的表型預測模型。
SS:太棒了。如今,科學界似乎無處不在的重大問題之一是可重復性(復現性、重現性)危機。我只是想知道你是否對此有統計意見。
EC:是的,你問這個問題很有趣。我想,首先我會對再現性危機進行觀察。它發生在人們擁有大量數據集可供使用的時刻,通常是在制定科學假設之前,使用依賴于數十億個參數的極其奇特的模型。所以我首先要說的是,這場危機在這個時候發生并不是巧合,因為我給你一個數據集,你相信它是黃金。你要嘗試一個模型,但它不成功,你就會嘗試其他的東西。所以你要微調參數,微調很多東西,直到發出咔噠聲,發現沒有任何問題。
但我認為,作為一名統計學家,我們需要做的是(我們當中有很多人正在研究這樣的事情),如何圍繞選擇模型、參數的自由而建立保障措施,以便有朝一日,你聲稱的發現有可能被一個獨立的實驗重現?
統計界正在開發很多方法,確保當你認為你有某些發現時,你就確實有這些發現。因此,對于該領域來說,這是一個非常激動人心的時刻,開發方法現在并不是真正量化預測中的不確定性,而是實際上以這種方式進行校準。然后,當你報告你的發現時,我們會確保你報告的大部分內容都是正確的。
SS:嗯,我現在想回到更廣泛的、甚至是社會的層面來思考一下教育問題。每個有學識或受過教育的公民都應該了解一些概率和統計的概念,包括我們一直在談論的它們的現代化身。我想知道你是否對此有想法。作為教育者或傳播者,我們可以做些什么來提高統計知識?
EC:這是個好問題。我認為我在較低水平的統計教學中看到的是對公式的依賴——你知道,我應該什么時候應用哪個公式?我認為這沒有幫助。
作為一名學生,我當然學習了數學推理,這很重要。然后,通過高中和大學,我學會了物理推理。這與數學推理不同,而且非常強大。但在斯坦福大學研究生院,我學到了一種叫做歸納推理(inductive reasoning)的新東西,它不是前兩者。我認為我們需要在早期階段做好這方面的教學。
什么是歸納推理?這是根據特定觀察進行概括的能力。我們該如何做到這一點?我會提倡一種本質上不太數學化的方法,它試圖讓孩子們理解如何從總體中的一個樣本推廣到我們尚未見過的個體,以及是什么使這成為可能。
學科領域之間有一點緊張。我們應該更多地關注數學還是關注計算機科學,而人工智能主要發生在哪里?我認為,如果我們過多地關注數學或過多地關注計算機科學,就會有失去統計推理能力的危險。這可能有點抽象,但我發現統計推理非常強大,非常美麗。
因為我不想泛泛而談,所以我給你提一個問題。我想這是發生在30年代的一件著名的事情。我認為亞歷山大·史蒂文·科貝特(Alexander Steven Corbett,1934 - 1992)當時在研究蝴蝶,他去了馬來西亞一年,他是一個非常認真的人。每天他都會觀察蝴蝶的種類,并在筆記本上寫下,“這個物種我見過一次,這個物種我見過兩次,這個物種我見過三次,”等等。
于是他回到英國,找到了該領域的創始人之一R.A. Fisher(羅納德·艾爾默·費舍爾,1890 - 1962),他問道:“如果我回到馬來西亞六個月,我會看到多少新物種?”這是一個不同于數學的問題。答案不在問題中。
而且我認為深度學習不會有太大幫助。這就是統計學家所做的。這是一個非常現代的問題,那就是,你有一個實驗室,他們正在研究癌細胞。他們將做完全相同的事情:“這是我曾經見過一次的癌細胞數量。這是我見過兩次的癌細胞數量。”他們說:“有多少癌細胞我還沒看到過?如果我繼續尋找癌細胞六個月、一年或兩年,預計我會看到多少新類型?”這就是你學習統計學時學到的東西。我覺得這很有趣。
SS:哦,好吧,那太好了。了解統計文化以及它與數學或計算機科學的不同之處真的很有趣。因為如今,隨著人們所說的數據科學的興起,水變得渾濁起來。誰擁有統計數據?為什么我們稱其為數據科學?為什么不是統計呢?我相信你對此有自己的看法。
EC:當然,因為數據科學中有很多活動傳統上是在統計系中找不到的。我有一位同事Jure Leskovec(尤雷·萊斯科維奇,1980 -),他是一位非常知名的數據科學家。
SS:康奈爾大學博士 [編者注:萊斯科維奇是康奈爾大學的博士后,擁有博士學位。來自卡內基梅隆大學。]
EC:完全正確。他是一個才華橫溢的人。當新冠疫情襲來時,人們正在計算這個貝塔值。就像,你易受影響、暴露、感染、康復的模型,你有這些微分方程,如果貝塔數大于1,我們就會遇到問題,諸如此類,對吧?
所以這是一個非常宏觀的模型。Jure Leskovec所做的是創建了一個巨大的數據集。他追蹤了美國所有主要城市的一億人。他會看到他們白天去哪里,晚上回家在哪里。擬合全球范圍內每個人都知道的流行病學模型,這實際上沒有意義,因為加州的行為和佛羅里達州的行為非常不同。然后,你可以將其擬合到圖表上的某種節點上,這樣就可以擬合一個適合你所在位置人員流動性的模型。
這就是數據科學,因為Jure所做的,你在統計部門看不到,他基本上在幾周內跟蹤了1億人。我想說我統計部門的一些同事也在做這樣的事情,但我不能說出其中任何一個名字。這就是現代數據科學。這不是我在統計系通常看到的情況。
所以我在這一點上的立場是非常明確的。數據科學比傳統的統計學領域要大得多,但統計學是其知識支柱之一。
SS:哦,我很高興問你這個問題。我用這個發現了一個金礦,但你已經表達了你對統計思維的迷戀。你的研究中有什么事情給你帶來特別的快樂嗎?
EC:是的,我想是的。我在斯坦福大學的工作是獨一無二的,因為與我一起工作的學生都非常出色。我覺得它讓我保持年輕,讓我保持警覺。我無法入睡,因為我必須一直追趕他們。
我覺得在廣播中說這句話很奇怪,但我會因此而變得更好,因為就像精神上、身體上一樣,它們讓我保持健康。很高興看到他們成長,成為偉大的科學家。去年,我有兩名以前的學生在同一年獲得了麥克阿瑟獎學金。與我一起工作的學生都取得了巨大的成就,這是一種榮幸。能夠感受到如此多的能量和對這個學科的熱情是一種榮幸,并且自私地講,我會說這對我的健康有好處。
SS:嗯,非常感謝。和你聊天真的很有趣。我們一直在與數學家和統計學家 Emmanuel Candès 進行交談。再次感謝你加入我們的“The Joy of Why”(為何之樂)節目。
EC:謝謝你的寶貴時間。很高興。
參考資料
https://www.quantamagazine.org/how-is-ai-changing-the-science-of-prediction-20241107/
·開放 · 友好 · 多元 · 普適 · 守拙·
讓數學
更加
易學易練
易教易研
易賞易玩
易見易得
易傳易及
歡迎評論、點贊、在看、在聽
收藏、分享、轉載、投稿
查看原始文章出處
點擊zzllrr小樂
公眾號主頁
右上角
數學科普不迷路!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.