真正的高手,都是貝葉斯主義者。
貝葉斯定理,這個看似簡單的公式,有著各種奇妙的運用,不僅好玩兒,還深深影響了我們決策的質量,甚至改變我們的命運。???????
從人生選擇,到創業邏輯,再到人工智能,貝葉斯定律可能是對世界影響最大的公式之一。????
你并不需要太多準備知識,就能完成絕大多數貝葉斯定理的計算。????
除此之外,這個神奇的定理還給我們帶來如下十個觀念,徹底改變了我們看世界的方式。??
1. 信念的種子:基礎比率的力量從一個主觀的先驗概率開始,貝葉斯定理教會我們如何在不確定性中找到希望的起點。2. 粗略也是一種智慧:行動在不完美中也能美好貝葉斯分析告訴我們,即使在信息不完全或模糊的情況下,也能做出有力的決策。3. 流動的信念:持續更新的藝術貝葉斯思維強調信念不是靜態的,而是一個隨時間和數據不斷更新和適應的動態過程。4. 簡約與全面:奧卡姆剃刀與多維證偽貝葉斯分析教我們如何在復雜性和簡單性之間找到平衡,同時從多個角度審視問題。5. 因果的新語言:概率作為解釋工具通過貝葉斯分析,我們可以用概率作為一種新的工具來理解和解釋因果關系。6. 知識的三重旋律:經驗、探索和更新貝葉斯思維強調知識是基于經驗、通過試探獲得,并隨著新信息而不斷更新的。7. 智慧的進化:不斷逼近真相貝葉斯方法教會我們如何通過不斷的自我修正和更新,逐漸接近真相或最優解。8. 聯結的力量:貝葉斯網絡與分布式思維類似于我們大腦的原理,貝葉斯網絡展示了如何通過聯結和分布式思維來解決復雜問題。9. 你的連接定義了你:聯結的權重
在貝葉斯世界中,不僅你和誰連接重要,而且連接的“權重”或質量同樣重要。
10. 模型的雙面性:在相信與懷疑之間尋找平衡一個貝葉斯主高手,能夠在相信中懷疑,在懷疑中相信,并在一個充滿不確定性的世界里,持續前行,
一道好玩兒的題目
據說是海外某量化巨頭的一道面試題:
你有2個預測器,每個預測器在晚上會顯示“漲”或者“跌”,來預測明天股市是漲還是跌。
根據歷史統計,每個預測器預測的準確率都是0.7,并且預測器之間的預測結果是獨立的。
今天晚上,2個預測器,都顯示“漲”。
請問:明天股市漲的概率是多少?
第一眼看上去似乎簡單,難道不是【1-(1-0.7)的2次方】?
貝葉斯的直覺立即糾正了我。0.7是預測的準確率,而不是上漲的概率。
如果上漲的概率是x,那么預測器A預測上漲的概率是【0.7x+0.3(1-x)】。
正確的計算應該是什么呢?
我的手工解答
推理如下。
兩個預測器其實是兩次獨立的信息更新,我們要根據這兩次更新的信息來推測“后驗概率”。??
題目中是缺先驗概率的,所以我們可以毛估估一下,例如估計上漲的概率在40%-60%之間。??????
為了簡便計算,我們假設上漲或下跌的先驗概率都是50%。?
第1步
第一個預測器的預測上漲,其準確率是0.7,于是:
預測上漲并且實際也上漲的概率是0.5x0.7。此謂擊中率;??
預測上漲而實際是下跌的概率是0.5x(1-0.7),此謂誤報率;
那么我們要的結果就是【擊中率/(擊中率+誤報率)】
所以,可以計算可能上漲的概率(基于該更新信息的后驗概率)是(0.5x0.7)/【0.5x0.7+0.5x(1-0.7)】???????
得到的后驗概率是70%。?????????
第2步
現在,上面得到的后驗概率70%,變成了本次貝葉斯更新的先驗概率。????
第二個預測器的預測上漲,其準確率是0.7,于是:
預測上漲并且實際也上漲的概率是0.7x0.7;
預測上漲而實際上下跌的概率是(1-0.7)x(1-0.7);
所以,可以計算可能上漲的概率(基于該更新信息的后驗概率)是(0.7x0.7)/【0.7x0.7+(1-0.7)x(1-0.7)】
得到的后驗概率是84.48%。
按照公式計算???????
如上,是我用零公式法計算了一遍。?????????
我從小懶得記公式,有同學還記得我中學考試時現推公式答對最難的物理題并且得零分。
但公式依然很重要,否則就無法大規模重復。
再有,如果你真正理解了某個公式,你根本用不著記。
我們試著用公式再計算一遍。
首先,我們可以用條件概率來解決這個問題。
記事件A為股市明天漲,事件B為預測器1預測漲,事件C為預測器2預測漲。
已知:
P(B|A) = P(C|A) = 0.7 (也就是當股市真的漲時,預測器預測漲的概率是0.7);?
P(B|?A) = P(C|?A) = 0.3 (也就是當股市不漲時,預測器預測漲的概率是0.3)。
我們要找的是P(A|B∩C),也就是在兩個預測器都預測漲的情況下,股市真的漲的概率。
所以,當兩個預測器都預測明天股市會漲時,真正漲的概率是約0.845或84.5%。
坑爹的基礎比率
極少有人會在生活中用貝葉斯定理來計算,但我們經常被其戲弄。?
下面這道題目,可能是最著名的貝葉斯腦筋急轉彎了:
一輛出租車在夜晚肇事后逃逸 , 而這座城市有紅色和藍色兩種出租車 , 該城市紅色出租車占85% 。 現在有以下信息 :
一位目擊證人辨認出出租車是藍色的 , 當晚警察在案發地對證人的證詞進行了測試 , 得出結論 : 目擊者在當時情況下能夠辨認出出租車顏色的概率是80% , 錯誤的概率是20% 。
那么 , 各位讀者覺得肇事的出租車是藍色而不是紅色的概率是多少呢 ?
我最早在一次旅途中看到這道題的。那是一次集體旅行,特別適合在大巴上看書。
可以說,這道題將我帶到了一個新世界。
丹尼爾 · 卡尼曼教授的研究顯示 , 大部分人給出的答案是80%,但正確的答案是41%。
如上圖,大多數人忽視了 “ 該城市紅色出租車占85% ”這個 基礎比率(基礎概率或先驗概率在這里是一樣的)。
可能性一(誤報率):紅色車被誤認為是藍色車的概率是20%,但是紅色車的基礎比率是85%;
可能性二(命中率):藍色車被確認為藍色車的概率是80%,但是藍色車的基礎概率是15%。??
所以,可能性一大于可能性二。??????
確切說,我們的大腦不擅長這種拐了一道彎兒的數字游戲。
基礎比率往往受到大家的輕視 : 當人們手頭有與該事件相關的具體信息時 , 很多時候甚至會完全忽視這一比率 。
《理性》一書中,舉了一個 更生動的例子:
佩內洛普是個大學生,朋友認為她冷漠且敏感。?她在歐洲旅行過,能說流利的法語和意大利語。
雖然職業規劃尚不明朗,但她是一位技藝精湛的書法家,還曾寫過一首十四行詩送給男朋友作為生日禮物。
請問:你認為佩內洛普的專業是什么,心理學還是藝術史?
大多數人的第一反應是:當然是藝術史了!
但事實上,13%的大學生主修心理學(不知道是哪里的數據),只有0.08%的學生主修藝術史,幾乎是163:1。
所以,佩內洛普更可能是學心理學。
然而,我們先入為主的“刻板印象”,讓自己忽視了基礎比率的存在。
人們總是追求新奇,追求大招,追求與眾不同,然而很不幸,絕大多數人都只是普通人而已。
但這并不是什么壞事,普通人是被基礎比率(基礎概率)所庇護的。
想想看,在這個看似很糟糕但依然跌跌撞撞運行的世界里,只要我們遵循基本的常識,本分地活著,一般都還不賴。??????????????
問題往往出在我們不愿意平常地活著。???????
這就是為什么“常識”往往很不常見。??
醫學界有句格言:“當你聽到馬蹄聲時,想想馬,而不是斑馬。”
例如,馬斯克曾經說過,特斯拉就是要做最好的車。而不是別的什么花里胡哨的概念。
這個是某種意義上的第一性原理。
所以,相信陰謀論,相信神醫,到處找成功學的偏方,一心憋大招,都是智慧不足的特征。
世界的“比率”
卡尼曼的研究里,大量涉及“比例”。
的確,人是一種比例動物,我們對于外部世界的感知,往往是基于比較和變化。
例如,一個人對薪水的滿意度,往往不是來自絕對數值,而是來自與同事或同行的對比。
又例如,我們身體感覺的往往是溫度變化,而非溫度本身。
再復雜一點兒,來看看1964年奧斯本提出的“隨機漫步理論”:
他認為股票價格的變化類似于化學中的分子“布朗運動”(懸浮在液體或氣體中的微粒所做的永不休止的、無秩序的運動),具有“隨機漫步”的特點,也就是說,它變動的路徑是不可預期的。
這里特別要強調的一點是:隨機漫步的不是股價,而是股價的變化。
讓我們說說比率吧。
《數學的雨傘下》講了個有趣的故事:???
作者和朋友玩兒競猜游戲,問題是地球和月球之間有多遠。
作者這組猜是80萬千米。另一組猜10千米。
后者的答案顯然不靠譜,珠峰就有近9千米,這還不一下子就蹦上月球了? ????????
然而,結果卻是,這個荒唐的答案更接近正確答案。
如上圖:
1、月球和地球之間的距離實際上是384000千米;
2、作者的答案和正確答案差了416000千米;
3、“荒唐組”的答案則只差了383990千米。
所以,看起來更聰明的人反而錯得更多!??????
問題出在哪里?
顯然,我們應該計算的是比率,而非加減。
所以,按照比率,用除法計算:
1、作者組的答案比正確答案大了1.08倍(800000/38400);
2、荒唐組的答案只有正確答案的1/38400。
從這個角度來看,作者組遙遙領先。
而且,這個基于比率的結果,更加符合我們對該問題的本能感知。
再說回貝葉斯定理,為什么即使聰明人也容易被繞暈呢?
從上面出租車的例子可以發現:
一、在除法計算中,分子分母顛來倒去,容易把人繞暈;?????????
二、具體計算過程中,先除法,再加法,又除法,也容易暈。???
說起來,我們還真是像小孩一樣,看電影只會問:那人是好人還是壞人??????????????
即使再進化一點兒,有些聰明人跳出了非黑即白的二元對立思維,知道用概率來描述灰度,也會在多個概率混雜在一起時犯糊涂。?????????????????
該話題還可以延伸至“大事不糊涂是追求數量級的正確”的有趣主題上。
再回到貝葉斯定理。
用證據更新觀念的概率???
太多對貝葉斯的討論,停留在“因漠視基礎比率而導致戲劇性后果”這一方面。
而貝葉斯的魔法,更多的來自其“更新”。
平克寫道:貝葉斯定理,是控制證據強度的概率法則,告訴我們當知曉了一個新的事實或觀察到新的證據時,該如何修改概率(改變我們的想法)。
貝葉斯定理看起來很簡單,從頭推導也不難:???
下圖是對公式的直觀描述:
簡而言之,就是先有一個“先驗概率”,然后根據新的證據更新,得到一個后驗概率。
平克用文字描述了貝葉斯定理:
我們在查看“證據”后對“假設”的相信程度,等于我們事先對“假設”的相信程度,乘以“假設”為“真”條件下“證據”出現的可能性,再根據“證據”的普遍程度做出適當調整。
對于貝葉斯更新,更好的數據和信息帶來更好的解決方案。
什么是更好的信息?包括且不限于:更多的數據,更靠譜的信息源,更多的角度。?????????
有時候,快速的、有洞見的小數據,可能更有價值。??
貝葉斯更新特別像是一個證偽的過程,所以,更多的不同角度,就像切割鉆石的激光。??????????
經得起不同角度的奧卡姆剃刀切割的觀念,其接近真相的概率更高。????????????
厲害的原理??
貝葉斯定理為什么厲害????
貝葉斯定理與人類大腦的推理過程非常相似,所以被稱為接近人類感覺的統計學。
在最開始的計算中,我們并沒有股市漲跌的先驗概率,所以憑主觀給出了一個50%的“臨時概率”。????????
這是一種了不起的毛估估的思路。??
靜態角度看,有費米估算的妙趣;???
動態角度看,則有在進化中不斷逼近真相的智慧。 ?
所以,《科學世界》雜志說,貝葉斯統計有一個“不充分推理原則”:
若沒有其他可作為依據的數據,可以把主觀預測當作數據使用。
然后,再根據新的信息,不斷更新概率,結果就會越來越準確。????
本文開始的例子里,兩個預測器的準確率都只有70%,但是疊加在一起使用(前提是二者是獨立的,現實中很難做到),卻可以將預測準確率大幅提升。
所以,貝葉斯定理有一種可以不斷重復的杠桿效應。??
舉例說,要用貝葉斯定理來識別垃圾郵件。??
根據貝葉斯定理如下:
假設x是垃圾郵件,y是郵件里有“免費”的字眼。計算如下:
可以想象,假如我們繼續增加用于證明是垃圾郵件的字眼,會產生疊加效應,大幅提升識別出垃圾郵件的準確率。
(上面案例來自《科學世界》雜志。)
貝葉斯的杠桿
讓我們通過一個更加直觀生動的例子,來感受一下貝葉斯定理的杠桿:
有兩個裝滿大量卡片的盒子,其中一個70%是紅色,30%是藍色;另一個30%是紅色,70%是藍色。
現在隨機選擇了一個盒子并取出了12張卡片,其中有8張是紅色,4張是藍色。
那么,請問這些卡片取自第一個盒子的概率是多少?
計算之前,我們根據自己的直覺,隨意蒙一下,大概是70%或80%?不妨寫下來。
通過貝葉斯計算如下:
通過計算,結果是多少呢?
答案是高達97% 。
這個數字比大多數人的估算要高。
畢竟12張卡片里,還有4張是藍色,來自盒子1的概率為什么高達97%????
這是因為,至少在某些情境下,連續的證據,能夠讓貝葉斯定理產生某種類似于杠桿原理的逼近速度。
這道題也示范了貝葉斯定理如果根據“果”,來倒推“因”。
我們不斷從某個未知的盒子里隨機抽出牌,看見“果”。
然后倒推這些牌來自那個盒子,這是“因”。
并且,這些因果并非是傳統意義上那種邏輯推理式的,也就是被休謨懷疑的那種脆弱的因果。
貝葉斯定理所描述的因果,是基于主觀概率的,并不斷在新的證據下更新的信念。??????
在貝葉斯因子的催化下,我們可以在不確定的世界里,借助有限的信息,持續迭代。
有趣的是,這種看似含混的因果,反而比那些貌似邏輯分明、信誓旦旦的因果更有生命力,更有適應性。???
貝葉斯更新(案例1)???
再說貝葉斯的“更新”。
1968年6月,天蝎號核潛艇在大西洋亞速海海域失蹤了,潛艇上的99名海軍官兵全部杳無音信。
看起來是不是像大海撈針?
就搜尋的難度而言,的確如此。
海軍請來科學家克雷文組織搜尋。
首先,克雷文列出一系列能夠解釋天蝎號事故的場景。
接著,他組建了一個囊括各方面專家的團隊,讓每個成員提供自己對每個可能場景的發生概率的猜測。
再而,將各位專家的意見綜合到一起,得到了一張20英里海域的概率圖。整個海域被劃分成了很多個小格子。
每個小格子有兩個概率值p和q,p是潛艇躺在這個格子里的概率,q是如果潛艇在這個格子里,它被搜索到的概率。
每次尋找時,先挑選整個區域內潛艇存在概率值最高的一個格子進行搜索。
如果一個格子被搜索后,沒有發現潛艇的蹤跡,那么按照貝葉斯公式,這個格子潛艇存在的概率就會降低:
如果沒有發現,概率分布圖則會被“洗牌”一次,搜尋船只就會駛向新的“最可疑格子”進行搜索,這樣一直下去,直到找到天蝎號為止。
克雷文采用的正是貝葉斯法,能夠利用有限的信息進行預測,并且根據搜索“連續更新”。
(以上案例來自網絡。)
也就是說,每一次“沒搜到”的遺憾都不會被浪費,也不是簡單被標注為“不在這里”,而是用于更新調整整體的估算概率。
貝葉斯更新(案例2)
2009年5月31日晚10點,法航447不幸墜毀,搜救人員動用當時最新技術,找了一周后,僅發現少量殘骸碎片和29具遇難者遺體。
隨后兩年的艱苦搜索,更是一無所獲。
這時,貝葉斯主義者登場了,他們的方法是:
為飛機失事建立一個數學模型;
整合評估各種導致失事的原因的概率;
根據更新信息,改進模型。
如上,也是一張“格子”圖。
救援隊根據上述概率分布圖,先從概率最大的區域搜索,如果沒有發現,就在過往數據基礎之上更新概率分布,繼續搜索最大概率區域。
其中,貝葉斯更新的過程,簡單示范如下:
(本圖來自《科學世界》雜志)
上面的數字如何得到的呢?
我試著不用貝葉斯公式,用直觀的方式來計算:
在B區域的“初始信念”是50%,搜索之后不在B區域,但是找不到的可能性是:
1、的確不在B區域;
2、在B區域但是被漏掉了。
我們假設漏掉的概率是25%(這也是一個信念),于是分析如下:
這里有趣的地方是,對于一個貝葉斯主義者,不僅是“我相信,但我也懷疑我的相信”,甚至于,連我對自己的懷疑也是懷疑的。
假如你知道自己愚蠢,并且能夠定義出愚蠢的邊界,例如這里“找漏了”的概率之25%,那么該愚蠢就會成為智慧的一部分。
繼續上面的不用公式的計算,搜索了B區域,由此更新的信息是:
的確不在B區域的概率是37.5%
還是在B區域但是被漏掉的概率是12.5%。
那么,不在B區域的37.5%可能性,就要在ABCD四個區域重新分配,如下圖:
重新分配的基數是(30%+12.5%+5%+15%),以A區域為例,其因為重新分配那37.5%而增加的概率是:
30%?(30%+12.5%+5%+15%)??37.5% = 0.18
于是,更新后A區域的概率是(0.3+0.18=0.48),整體更新后如下圖:
這時,A區域的“信念”數值上升為48%,接下來,搜救人員繼續搜索A區域。
我們可以想象,假如某個區域的初始信念比較高,并且遺漏概率也比較高的話,即使搜索了該區域而不得,有可能該區域更新后的信念仍然是最高的,所以按照游戲規則仍然是最高的。
歷史上的搜救案例里,的確出現過類似的狀況,人們根據更新后的數據,重復去搜索此前找過但沒找到目標的區域,結果最后找到了。
貝葉斯主義者,將概率理解為對某件事情的信念。
他們承認自己的“信念”是灰度的,而非絕對的判斷。
他們會根據觀察到的信息更新自己的信念:
“初始信念”是先驗概率,更新后的信念是后驗概率。
在新一輪的觀察中,后驗概率又變成初始概率。
我在《人生算法》里的認知飛輪,亞馬遜的Day 1,微軟的刷新,投資人的打無記憶的球,都是類似邏輯。
貝葉斯推斷保留不確定性,每一輪的估算也許是模糊的,然而公式在模糊和犯錯的情況下,依然可以發揮作用。
并且,貝葉斯算法具有連續性,可以程序化,以有限的信息,通過某種杠桿效應,快速逼近真相。
當我們添加更多的證據,初始的信念會不斷地被“洗刷”。
有人把天蝎號潛艇案例視為“群體智慧”,也有人將其視為“試錯法”,其實并不精確。
貝葉斯法,每一次都能利用新信息(哪怕是失敗的信息),對原有信念進行更新。
這就是杠桿作用。
更重要的是,這一過程可以不斷循環,連續作用,從而產生了指數效應。
所以,貝葉斯思維的杠桿,是一種關于“可能性”的杠桿。
樸素貝葉斯
貝葉斯定理厲害,還因為算法與AI。???
再看一道題:???
如上圖。我們測試了1000個水果的數據,包括如下三種特征:形狀、味道、顏色,這些水果有三種:蘋果、香蕉、或梨子。
請問:如果某水果的特征是“長、甜、黃”,請問該水果是哪一種?
簡單分析如下。?
從數據中,我們知道:
1、這些水果中,50%是香蕉,30%是蘋果,20%是梨子。也就是說,P(香蕉) = 0.5,P(蘋果) = 0.3,P(梨子) = 0.2。
2、500個香蕉中,400個(80%)是長的,350個(70%)是甜的,450個(90%)是黃的。也就是說,P(長|香蕉) = 0.8,P(甜|香蕉) = 0.7,P(黃|香蕉) = 0.9。
以此類推,我們可以分別計算出別的條件概率。
接下來,要計算的是,在“長、甜、黃”這一特征信息的“更新”之下,某水果是蘋果、香蕉、或梨子的概率。
以計算香蕉為例,“長、甜、黃”的條件下是香蕉的概率是:???
P(香蕉|長甜黃) = P(長甜黃|香蕉) P(香蕉)/ P(長甜黃)
其中,是香蕉的條件下,符合“長、甜、黃”的概率是:
P(長甜黃|香蕉) = P(長|香蕉) * P(甜|香蕉) * P(黃|香蕉) = 0.8*0.7*0.9 = 0.504。
再以同樣方式,分別計算P(長甜黃|蘋果) ,P(長甜黃|梨子) 。接下來:
P(長甜黃) = P(長甜黃|香蕉) P(香蕉) + P(長甜黃|蘋果) P(蘋果) + P(長甜黃|梨子) P(梨子)
于是,我們可以計算出來:P(香蕉|長甜黃) = 93%
上面的計算從數學的角度看非常簡單,從人類理解外部世界的常識來看也無非如此,但繞在一起卻很容易讓人犯暈。
一個直觀的描述來自 3Blue1Brown的講解,如下圖:
1、假設我們有兩種水果,如上圖左側,分別是香蕉和蘋果。?
2、上圖中間,則是香蕉和蘋果分別符合“長、甜、黃”這一特征的概率。????
3、上圖右側,則是計算符合“長、甜、黃”這一特征的水果是香蕉的概率。??
呃,很直觀吧。
從上圖中,我們再次感受到,貝葉斯定理是一種關于比例的表述。
如果我們用一種可視化的方式來建模,就不會那么容易因為 分子和分母的變換 而被繞暈。
這是一個樸素貝葉斯計算。
樸素貝葉斯假設了樣本的每個特征之間是互相獨立、互不影響的。
例如在上面的題目里,認為“長、甜、黃”這些特征都獨立地貢獻了這個水果是一個香蕉的概率。
然后,通過應用貝葉斯法則來“合并證據”。
這種假設關系太過于理想,所以這也是樸素貝葉斯的”Naive”之處。
《人工智能:現代方法》寫道:
樸素貝葉斯模型有時被稱為貝葉斯分類器(Bayesian classifier),這種有點粗心的用法已經促使真正的貝葉斯學派稱其為傻瓜貝葉斯(idiot Bayes)模型。
在實踐中,樸素貝葉斯系統通常表現得很好,即使條件獨立性假設并不是嚴格成立的。
該書提及:??即使是看似復雜的問題,也可以用概率論精確地表述出來,并用簡單的算法求解。
很多時候,尤其是在一個不可避免的不確定世界里,概率比邏輯做得更好。
經驗主義
根據特征識別水果的例子,讓人想起了洛克。
洛克認為人心中沒有天賦觀念,「人心就如一塊白板」(Tabula Rasa),一切知識和觀念都起源于經驗。
“人們能夠經驗外界事物,并對所觀察的事物加以反省,我們便得到知識。”
例如,我們對香蕉的認知,來自我們的經驗,如下圖:?
洛克認為觀念是思維的對象,感覺和反省是觀念的兩大來源,合稱為經驗。
感覺(sensation):物刺激感官,感官被動地產生觀念。例如:黃、白、熱、冷、軟、硬、苦、甜,以及一切所謂可感物。
反省(reflection):我們的心靈主動地反省自身內部的心理活動。例如:知覺、思想、懷疑、信仰、推論、認識、意欲,以及人心的一切作用。
洛克還提出了“第一性質與第二形式”和“ 簡單觀念與復雜觀念”等理論,例如:
我們唯一能感知的是簡單觀念,而我們自己從許多簡單觀念中能夠形成一個復雜觀念。
就像人類,或者人工智能,在信息不充分的環境里,根據“長、甜、黃”等簡單觀念所提供的證據,合并在一起,推測出一個相對復雜的觀念。??
洛克和別的一些哲學家天才般的朦朧奇思妙想,為后來的貝葉斯主義者和人工智能都埋下了火種。
隨后的故事非常有趣:
經驗主義者洛克影響了懷疑主義者休謨;
而牧師貝葉斯則試圖反對那些對上帝不敬的家伙,結果提出了貝葉斯定理,為經驗主義和懷疑主義獻上了一大神器;?
從此,人類可以在經驗和懷疑的迷霧中,以貝葉斯定理為拐杖前行。
如今,經驗主義已經超越了哲學家的杠精式的討論。
在科學領域,經驗主義強調證據,尤其是在實驗中發現的證據。
“所有假設和理論都必須根據對自然世界的觀察進行檢驗,而不是僅僅依賴于先驗推理、直覺或啟示,這是科學方法的基本組成部分。”
在本文的語境里,我偏向于自然科學學者經常使用的經驗主義:
1、知識是基于經驗的;
2、知識是試探性(tentative)的和概率性的,會不斷被修正和證偽”;
3、以經驗(或觀察)為依據的研究,包括實驗和經過驗證的測量工具,指導科學方法。
貝葉斯定理整合了“過去經驗 ” 、 “ 新的證據 ”和 修正后的判斷 ” , 提供了一種將新觀察到的證據和已有的經驗結合起來進行統計推斷的客觀方法。
經驗主義 VS 理性主義
ChatGPT的勝利,讓很多人感慨,經驗主義再次將理性主義甩到了后面。
這里的理性主義,是一個相對狹義的概念。
在人工智能的范疇里,經驗主義和理性主義研究范式交替出現,二者對比如下:
來自《從ChatGPT看“自然語言處理之經驗主義與理性主義”》?
理性主義的領軍人物喬姆斯基應依然在世,今年(2023年)近九十五歲。
他在《紐約時報》上撰文《 ChatGPT的虛假承諾》,用了一個例句:John is too stubborn to talk to。
喬姆斯基認為機器會把這個句子理解為:John太固執不愿意和人談話;
而不會正確地理解其本意:John不可理喻。
然而,當人們將問題拋給ChatGPT,發現ChatGPT能夠準確地知道這個句子的深層含義。?????
克拉克定律再次顯靈:
如果一個年高德劭的杰出科學家說,某件事情是可能的,那他幾乎就是正確的;但如果他說,某件事情是不可能的,那他很可能是錯誤的。?
斯坦福大學的計算語言學家克里斯·曼寧說:
“看到一位年輕時深刻的創新者,現在卻保守地阻礙激動人心的新方法,真是令人悲傷。”
但是,在我看來,這位年近百歲的斗士在科學上最后的固執,可能是他可以作出貢獻的最好形式。畢竟ChatGPT已經足夠熱了,不需要一個附庸的老家伙。??
在電影《模仿游戲》里,圖靈炒掉了語言學家;??
費曼總是在嘲笑哲學家;???????
塔勒布也調侃說“我們從來不認為鳥類學會飛行得歸功于鳥類學家的成果”。
但是有研究人員認為自然語言處理的發展需要理性主義與經驗主義共同推進,尤其需要語言學理論、語言學知識支撐。
理由是:語言學家研究語言現象,就像物理學家研究物理現象,正如工程師需要物理洞見,自然語言處理研究人員的任務就是研究如何使用語言學洞見。
如上討論有含混之地,我分別從兩頭替雙方辯護一下,例如:??
1、塔勒布嘲諷鳥類學家不能教會鳥學會飛行,但是物理學家可以教會飛機飛行;
2、語言學之于自然語言處理,到底是鳥類學家,還是物理學家呢?
不管怎樣,一種穩妥的方法是,綜合邏輯和概率,正如貝葉斯定理所表現出來的包容性。
貝葉斯定理最根本的結論之一就是:
新證據不能直接憑空的決定你的看法,而是應該更新你的先驗看法(之前的經驗)。
我贊成平克在《理性》一書中對“理性”概念的拓展:??
理性不是說知道事實,而是認識到哪些因素是有關的。
證據疊加
《終極算法》提及 了一個難題:
假設你在讀《紐約時報》,講的是外星人已經登陸地球。
這一天不是4月1日,可能這是一個玩笑?
但是現在你在《華爾街日報》《今日美國》《華盛頓郵報》看到一樣的標題。
你開始感到慌張。但是,如果你查看細節,會發現這四家報社都從美聯社那里得到這個新聞標題,你又返回去懷疑這是一個玩笑,而這次開玩笑的是一位美聯社的記者。
規則系統無法解決這個問題,樸素貝葉斯法也一樣。
這個問題,涉及到證據的不獨立性和信息的重復計算。
在貝葉斯推理和樸素貝葉斯分類器中,這是一個常見的問題,通常稱為“證據疊加”。
在本文以上的諸多計算中,我們總是在強調證據的獨立性。
在本節案例里,如果所有的信息都來自同一個源(在這里是美聯社),那么即使多個報紙都報導了這個事件,這些證據也不應該被視為獨立證據。
在思考這類上讓人疑惑的難題時,我們應該學會提問:
還有哪些可能的潛在變量?
我試著讓ChatGPT來描述一下:
如上圖:
1、從節點1到節點2的箭頭表示外星人降臨(或沒有)會影響美聯社是否報道;
2、從節點2到其他各節點的箭頭表示美聯社的報道(或沒有報道)會影響其他報紙是否報道這個事件。
我們可以得知,如果所有的信息源都來自美聯社報道,那么不管在節點2之下延伸出多少子節點,也不能作為更多證據來放大外星人降臨的可能性。????
貝葉斯定理很強大,但前提是模型必須正確地捕捉到關鍵變量之間的關系。
如果模型過于簡單或者沒有考慮到這些依賴性,就可能出現問題。
上面那張簡陋的圖,就是一個貝葉斯網絡。
貝葉斯網絡(之一)
假設你是一位偵探,收到一個神秘的任務:找出鄰居家草地為什么會濕潤。經過一番調查,你發現只有兩個可能的“嫌疑人”:
1、下雨(R):也就是說,是不是老天爺在搞鬼?
2、噴水裝置打開(S):或者是不是家里的自動噴水裝置搞的鬼?
在這個情境中,有三個隨機變量:
1、R(下雨):是否下雨
2、S(噴水):噴水裝置是否打開
3、W(濕潤):草地是否濕潤
這三個隨機變量的關系可以用一個有向無環圖來表示如下:
在這個網絡中,節點R和節點S是因節點,而節點W是被影響節點。
貝葉斯網絡是一種用于表示變量之間條件依賴關系的概率圖模型。它通過有向無環圖來表示這些關系。
在上圖中,節點代表隨機變量(它們可以是可觀察到的量、未知參數或假設等),而有向邊則表示一個變量可能如何影響另一個變量。
20世紀70年代末,人工智能領域針對如何處理不確定性因素展開了激烈討論,各種主張層出不窮。
在1982年, “貝葉斯網絡”之父朱迪亞·珀爾提出了一個表面上平淡無奇但實際上非常激進的建議:
將概率視作常識的“守護者”,聚焦于修復其在計算方面的缺陷,而不是從頭開始創造一個新的不確定性理論。
更具體地說,我們不能再像以前那樣用一張巨大的表格來表示概率,而是要用一個松散耦合的變量網絡來表示概率。
貝葉斯網絡有如下特點:1、條件依賴性:貝葉斯網絡通過圖的形式表達了條件依賴關系。如果一個箭頭從A指向B,那么B在一定程度上取決于A。2、概率性:每一個節點都有一個條件概率表,用于描述給定其父節點狀態下該節點狀態的概率。3、推理與學習:給定一部分節點(觀測數據),你可以使用貝葉斯推斷來估算其他未觀測節點(隱藏變量)的概率分布。 貝葉斯網絡的強大之處在于,即使在復雜和不確定的情況下,它也能提供一種邏輯嚴謹的方式來推斷未知變量的概率分布。
貝葉斯網絡(之二)
再來一題。
你可能也經歷過在機場等行李的煎熬。假設如下狀況:???????
1、行李丟掉(沒上飛機)的概率是50%;?????????
2、行李的等候時間為10分鐘(并且是均勻的);
請問,等了5分鐘之后,還沒看到行李,那么你的行李沒被弄丟的概率是多大?
方法一:不靠譜的直覺
首先,用直覺快速解答一下:
假設行李沒掉,概率是50%,目前還有5分鐘,也就是還有50%機會等到行李,那么是不是應該是(50%??50%=25%)呢?
然而,這個解答是錯的。
方法二:貝葉斯定理
我們可以按照以下方式使用貝葉斯定理來計算這個問題。
首先,我們定義以下幾個事件:
正確答案是:1/3。?
上面兩個計算中,第一個直覺上的錯誤非常有趣。??
沒錯,假如用平行宇宙的思考方式,很容易想到25%的可能性。??
但是,概率所描述的未知,在經歷了5分鐘的等待之后,基數已經變成(25%+50%)了,所以計算結果應該是【25%?(25%+50%)】。?
為什么在經歷了5分鐘之后,在行李沒丟的那一半平行宇宙被壓縮到了25%,而行李丟了的那一半平行宇宙還是按照50%來作為基數呢???????????????
這是無聊但好玩兒的思考,你不妨在大腦里模擬一下。
不過,這一節的重點是貝葉斯網絡。???????
在《為什么》一書里,朱迪亞·珀爾用上面這個例子,來講解他的理論。???????
為了讓人們更加直觀地理解,他首先繪制了一個因果圖:??
為了將因果圖轉化為貝葉斯網絡,我們必須指定條件概率表,下圖是為解決“行李箱在傳送帶上”的概率這一問題創建的條件概率表:
借助于這個例子,朱迪亞·珀爾強調:
即使上面這個例子只是一個有3個節點的小型網絡,它仍然包含2×11=22個父狀態,且其中的每一個都為子狀態的概率做出了貢獻;
如果一個節點有10個父節點,且每個父節點都有2個狀態,則條件概率表將超過1000行;
如果10個父節點中的每一個都有10個狀態,那么這張表將有100億行!
《為什么》一書寫道:
“為此,人們通常會對網絡中的連接進行篩選,只保留那些最重要的連接,讓網絡保持一個相對“稀疏”的狀態。
在貝葉斯網絡的發展過程中,其中一項技術成果就是開發出了一種方法讓我們可以利用網絡結構的稀疏性實現合理的計算時間。”
貝葉斯網絡(之三)
能看到一個理論的創造者介紹自己的靈感從何而來,是一件令人愉悅的事情。
朱迪亞·珀爾說自己的靈感來自大衛·魯梅哈特的一篇文章。
“大衛·魯梅哈特是一位認知科學家,也是神經網絡的先驅。他在1976年發表的關于兒童閱讀的一篇文章中明確指出,閱讀是一個復雜的過程,其涉及許多不同層次的神經元同時發揮作用。”
他介紹了一個層次化的框架,通過這個框架,不同層次的神經元負責解決不同級別的問題,然后將信息向上傳遞。
讓我們以閱讀為例:
1、字母層面:識別個體特征,如線條和曲線,判斷它們可能構成哪個字母;
2、詞匯層面:根據識別的字母和字母組合猜測可能的詞;?
3、句法層面:根據猜測的詞和語法規則進行進一步的推斷;?
4、語義層面:考慮上下文信息,對整個句子或短語進行解釋。
大衛·魯梅哈特的神經網絡草圖
上圖表明了我們大腦的信息傳遞網絡是如何學會識別短語“THE CAR”的:
1、在字母層面上,它可能是“FHP”,但在詞匯層面,這個字母串是沒有意義的。
2、在詞匯層面上,這個詞更可能是“FAR”、“CAR”或“FAT”。神經元將這些信息向上傳遞到句法層面,我們因此判斷出在“THE”之后出現的應該是一個名詞。
3、最后,這些信息被傳遞到語義層面,我們進而意識到因為前一句提到了大眾汽車,所以這個短語很可能是“THE CAR”,代指同一輛大眾汽車。
更關鍵的是,上圖中我們可以發現:
“所有的神經元都是同時來回傳遞信息的,自上而下,自下而上,自左向右,自右向左。”
這意味著,大腦是一個高度并行的系統,而非過去我們認為的是一個單一的、集中控制的系統。
朱迪亞·珀爾從魯梅哈特的論文中認識到:
任何人工智能都必須建立在模擬我們所知道的人類神經信息處理過程的基礎上,并且不確定性下的機器推理必須借助類似的信息傳遞的體系結構來構建。
然而,難題是:信息具體指的是什么呢?
想了好幾個月,朱迪亞·珀爾終于認識到:
信息是一個方向上的條件概率和另一個方向上的似然比。
更進一步,他將貝葉斯定律和神經網絡的推理結合了起來。
朱迪亞·珀爾認為:
1、網絡應該是分層的,箭頭從更高層級的神經元指向較低層級的神經元,或者從“父節點”指向“子節點”。
2、每個節點都會向其所有的相鄰節點(包括層次結構中的上級節點和下級節點)發送信息,告知當前它對所跟蹤變量的信念度(例如,“我有2/3的把握認為這個字母是R”)。
3、接收信息的節點會根據信息傳遞的方向,以兩種不同的方式處理信息。
4、如果信息是從父節點傳遞到子節點的,則子節點將使用條件概率更新它的信念。
貝葉斯網絡中的每個節點(變量)通常只與其父節點和子節點有直接的依賴關系,這大大減少了需要考慮的變量數量和相應的計算負擔。
故事的另外一條主線,順著神經網絡前行。
1986年10月,大衛·魯梅爾哈特、杰弗里·辛頓和羅納德·威廉姆斯發表了《”Learning representations by back-propagating errors》。
該論文描述了一種新的學習程序,可用于神經元樣網絡單位的反向傳播,其掀起的驚人浪潮,正是當下大熱的深度學習。????
必須一提的是,朱迪亞·珀爾試圖將因果引入概率世界。而在神經網絡原教旨主義者辛頓看來,許多類似的主張完全是多余的。??????
最后
本文從一道有趣的題目開始。?
順著一道題,我又做了了另外幾道題,順便溫習了一些自己從沒主動記過的公式。希望我可能出現的錯誤別太離譜。????
很遺憾的是,當我試圖找到一些相關例題時,發現在網絡上極其匱乏,例如搜索“貝葉斯網絡”,排在前面的文章不僅重復,還是錯的。?????????
所以我自娛自樂地將一些典型的貝葉斯定理的案例,都從頭演算了一遍,并試圖從可感知的角度,探尋其神奇力量的“為什么”。???????????
文章太長了,我來不及寫貝魯的Turbo碼,其核心思想也是貝葉斯網絡:
通過兩個不同編碼過程對單一信息進行編碼,從而提供多個獨立(或近似獨立)的觀察結果。
這里的關鍵詞,也是“獨立”。所以,說起一個人的獨立思考,不僅是自己與他人的相對獨立,甚至也包括自己與自己的相對獨立。
確切說,本文是一場好玩兒的智力游戲。
我只想搞懂到底為什么。要做到這一點,我們需要從數學、哲學、物理、生物學、信息學的角度去切入問題的本質,而不是簡單地套用公式。
用自然科學隱喻人生道理,大多數時候都是胡說八道。本文目的亦不在此。
貝葉斯定理有一種奇怪的樂觀主義精神,教我們在未知中前行。????
在生活中,很多時候,那些看上去疑慮重重的人也許有更堅定的信念,而那些信誓旦旦的家伙每每總是見利思遷。
貝葉斯主義假設 “ 現實 ” 的所有模型 、 理論和概念都不過是某種信念。
這并不會令人成為虛無主義者,反而更能夠令我們在相信中懷疑,在懷疑中相信。?
“所有的模型都是錯的,有些模型很有用。”
這個世界很混蛋,但竟然如此剛剛好夠我們生存;??????
這個星球很殘忍,卻總能給我們留下一扇門。
未知令人恐懼。但是,假如希望不是以概率化的方式呈現,又算得上什么希望呢?????????
你看,你我都可以有自己的主觀信念,帶著些許模糊,在這個不確定的世界里,伴隨著我們不必拋棄的好奇心,如孩子般前行。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.