Building Machines That Learn and Think Like People
構建像人類一樣學習和思考的機器
https://arxiv.org/pdf/1604.00289
摘要
人工智能(AI)的最新進展重新喚起了人們構建像人類一樣學習和思考的系統的興趣。許多進步來自于深度神經網絡在諸如物體識別、視頻游戲和棋類游戲等任務中的端到端訓練,其性能在某些方面達到了甚至超越人類的水平。盡管這些系統受到生物學啟發并取得了性能上的成就,但它們在關鍵方面與人類智能不同。我們回顧了認知科學的進展,認為真正像人類一樣學習和思考的機器需要在學習的內容和方式上超越當前的工程趨勢。具體而言,我們認為這些機器應該:(a)構建能夠支持解釋和理解的因果模型,而不僅僅是解決模式識別問題;(b)基于直覺的物理和心理理論來構建學習基礎,以支持和豐富所學到的知識;(c)利用組合性和學會學習的能力,快速獲取并泛化知識到新任務和情境中。我們提出了實現這些目標的具體挑戰和有希望的途徑,這些途徑可以結合近期神經網絡的進步與更結構化的認知模型的優勢。
1 引言
人工智能(AI)一直是一個起起落落的故事,但從任何傳統成功的衡量標準來看,過去幾年都取得了非凡的進步。其中大部分進步來自于“深度學習”的最新進展,其特征是學習具有多層表示的大型神經網絡風格模型。這些模型在許多領域取得了顯著的進展,包括物體識別、語音識別和控制(LeCun,Bengio & Hinton,2015;Schmidhuber,2015)。在物體識別方面,Krizhevsky、Sutskever和Hinton(2012)訓練了一個深度卷積神經網絡(convnets;LeCun等人,1989),幾乎將當時最具挑戰性的基準測試的錯誤率減半。自那以后,卷積神經網絡繼續占據主導地位,最近在某些物體識別基準測試中接近人類水平的表現(He,Zhang,Ren & Sun,2015;Russakovsky等人,2015;Szegedy等人,2014)。在自動語音識別方面,自20世紀80年代末以來,隱馬爾可夫模型(HMMs)一直是領先方法(Juang & Rabiner,1990),然而這一框架逐漸被深度學習組件取代(Hinton等人,2012)。如今,領先的語音識別方法是完全基于神經網絡的系統(Graves,Mohamed & Hinton,2013;Weng,Yu,Watanabe & Juang,2014)。深度學習的思想也被應用于學習復雜的控制問題。V. Mnih等人(2015)將深度學習和強化學習的思想結合起來,開發出一種“深度強化學習”算法,該算法僅通過像素幀和游戲得分就能學會玩大量簡單的視頻游戲,并在許多這些游戲中達到人類或超人類水平的表現(另見Guo,Singh,Lee,Lewis & Wang,2014;Schaul,Quan,Antonoglou & Silver,2016;Stadie,Levine & Abbeel,2016)。
這些成就幫助神經網絡重新確立了其在機器學習中的領先地位,就像它們在20世紀80年代末和90年代初一樣。神經網絡的近期成功引起了學術界之外的關注。在工業界,像谷歌和Facebook這樣的公司都有積極的研究部門探索這些技術,并且基于深度學習的物體和語音識別系統已經被部署在智能手機和網絡的核心產品中。媒體也廣泛報道了神經網絡的許多近期成就,通常認為神經網絡之所以取得近期的成功,是因為其類似大腦的計算方式,從而能夠模擬人類學習和人類認知。
在本文中,我們將這種興奮視為一個機會,來審視機器像人類一樣學習或思考的含義。我們首先回顧了認知科學家、發展心理學家和人工智能研究人員之前提出的一些標準。其次,我們闡述了我們認為構建像人類一樣學習或思考的機器所必需的要素,綜合了認知科學研究中的理論思想和實驗數據。第三,我們從這些要素的角度來考慮當代人工智能(特別是深度學習),發現深度學習模型尚未納入其中許多要素,因此可能以與人類不同的方式解決一些問題。最后,我們討論了我們認為構建像人類一樣學習和思考的機器的最有可能的路徑。這包括將深度學習與我們識別的核心認知要素相結合的前景,部分靈感來自于最近將神經網絡與經典心理學和計算機科學中的低級構建塊(注意力、工作記憶、堆棧、隊列)融合的工作,這些構建塊傳統上被認為與神經網絡不兼容。除了我們提議中的具體要素外,我們還從更廣泛的層面上區分了兩種不同的智能計算方法。統計模式識別方法將預測視為主要目標,通常是在特定的分類、回歸或控制任務的背景下。在這種觀點中,學習是關于發現具有共同高價值狀態的特征——在分類設置中是一個共同的標簽,或在強化學習設置中的一個共同值——在一個龐大且多樣化的訓練數據集中。另一種方法將世界的模型視為首要,其中學習是模型構建的過程。認知是關于使用這些模型來理解世界,解釋我們所看到的,想象可能發生但未發生的事情,或者可能是真實但尚未實現的事情,然后規劃行動以使其成為現實。模式識別與模型構建、預測與解釋之間的區別,是我們對人類智能的看法的核心。正如科學家尋求解釋自然而非僅僅預測它一樣,我們認為人類思維本質上是一種模型構建活動。我們在下面通過許多例子詳細闡述了這一關鍵觀點。我們還討論了模式識別如何支持模型構建,即使它不是智能的核心,也可以通過“無模型”的算法來實現,這些算法通過經驗學習如何使基本推理更具計算效率。
在繼續之前,我們先對本文的目標提供一些注意事項,并簡要概述一下關鍵思想。
1.1 本文不是什么
自從有了神經網絡,幾乎就有對神經網絡的批評(Crick,1989;Fodor & Pylyshyn,1988;Marcus,1998,2001;Minsky & Papert,1969;Pinker & Prince,1988)。盡管我們在本文中對神經網絡持批判態度,但我們的目標是基于它們的成功進行拓展,而不是糾結于它們的不足。我們認為神經網絡在開發更像人類的學習機器方面有其價值:它們被應用于許多類型的機器學習問題中,展示了基于梯度的學習和深度潛在變量層次結構的強大能力。神經網絡也有著作為認知計算模型的豐富歷史(McClelland,Rumelhart & the PDP Research Group,1986;Rumelhart,McClelland & the PDP Research Group,1986)——我們在下一節中將更詳細地描述這一歷史。在更根本的層面上,任何學習的計算模型最終都必須基于大腦的生物神經網絡。
我們也相信,未來的神經網絡將與當前的前沿技術大不相同。它們可能會被賦予直覺物理、心理理論、因果推理以及其他我們在接下來的章節中描述的能力。更多的結構和歸納偏差可能會被內置到網絡中,或者從相關任務的先前經驗中學習而來,從而導致更像人類的學習和發展模式。網絡可能會學會有效地搜索和發現新的心理模型或直覺理論,而這些改進的模型反過來又將促進后續的學習,使系統能夠學會學習——利用先前的知識從極少的訓練數據中做出更豐富的推斷。
區分聲稱模仿或從人類認知中汲取靈感的人工智能(AI)和不這樣做的AI也很重要。本文關注前者。后者是一種完全合理且有用的方法來開發AI算法——避免從認知或神經角度獲得啟發,以及避免聲稱認知或神經上的合理性。事實上,許多研究人員就是這樣做的,而本文與這種研究策略下進行的工作幾乎沒有相關性。另一方面,我們認為,逆向工程人類智能可以為AI和機器學習提供有益的指導(并且已經做到了),特別是對于人類擅長的領域和任務類型。盡管最近在計算上取得了成就,但人類在解決一系列復雜的計算問題方面仍然優于機器,包括概念學習、場景理解、語言習得、語言理解、語音識別等。其他人類認知能力在計算上仍然難以理解,包括創造力、常識和通用推理。只要自然智能仍然是智能的最佳范例,我們就相信,逆向工程人類解決復雜計算問題的方案將繼續為AI提供指導并推動其發展。
最后,盡管我們關注的是AI中的神經網絡方法,但并不希望給人留下這些是AI近期進展的唯一貢獻者的印象。相反,最近一些最令人興奮的進展是在概率機器學習的新形式中(Ghahramani,2015)。例如,研究人員開發了自動化的統計推理技術(Lloyd,Duvenaud,Grosse,Tenenbaum & Ghahramani,2014)、自動化的模型構建和選擇技術(Grosse,Salakhutdinov,Freeman & Tenenbaum,2012)以及概率編程語言(例如,Gelman,Lee & Guo,2015;Goodman,Mansinghka,Roy,Bonawitz & Tenenbaum,2008;Mansinghka,Selsam & Perov,2014)。我們相信,這些方法將在未來的AI系統中發揮重要作用,它們與我們在這里討論的認知科學思想至少一樣兼容,但對這些聯系的全面討論超出了本文的范圍。
1.2 關鍵思想概述
本文的核心目標是提出一套構建更像人類的學習和思考機器的核心要素。我們將在第4節中詳細闡述這些要素和主題,但在這里我們先簡要概述關鍵思想。
第一組要素關注于發展的“啟動軟件”,即在發展早期就出現的認知能力。關注發展的原因有多個。如果一個要素在發展早期就出現,那么無論它是通過經驗學習得來的還是天生就有的,它肯定在兒童或成人嘗試學習本文討論的任務類型之前就已經活躍且可用。此外,一個要素出現得越早,它就越有可能成為后續發展和學習的基礎。
我們關注兩種發展早期的啟動軟件(參見Wellman & Gelman,1992,對兩者的綜述)。首先是直覺物理(第4.1.1節):嬰兒具有原始的物體概念,使他們能夠跨時間追蹤物體,并排除物理上不可能的軌跡。例如,嬰兒知道物體會在時間中持續存在,它們是固體且連貫的。憑借這些一般性原則,人們能夠更快地學習并做出更準確的預測。盡管任務可能是新的,但物理規律仍然不變。第二種在早期發展中出現的軟件是直覺心理學(第4.1.2節):嬰兒理解其他人具有目標和信念等心理狀態,這種理解強烈地約束了他們的學習和預測。一個孩子觀看專家玩一款新視頻游戲時,可以推斷出游戲角色具有自主性,并試圖尋求獎勵而避免懲罰。這種推斷立即約束了其他推斷,使孩子能夠推斷出哪些物體是好的,哪些是壞的。這些類型的推斷進一步加速了新任務的學習。
第二組要素關注于學習。盡管學習有多種視角,但我們認為模型構建是人類水平學習的標志,即通過構建世界的因果模型來解釋觀察到的數據(第4.2.2節)。從這個角度來看,早期出現的直覺物理和心理學能力也是世界的因果模型。學習的主要任務之一是擴展和豐富這些模型,并構建其他領域的類似因果結構理論。
與機器學習中的最新算法相比,人類學習的特點是豐富性和高效性。兒童天生具有發現稀疏觀察事件背后原因的能力和愿望,并利用這些知識遠遠超出數據的匱乏。人們能夠從非常有限的經驗中學習這些結構豐富的模型,這似乎有些矛盾。我們認為組合性和學會學習是使這種快速模型學習成為可能的要素(分別見第4.2.1節和第4.2.3節)。
最后一組要素涉及我們大腦構建的豐富模型如何在實時中付諸行動(第4.3節)。人們能夠以驚人的速度感知和行動。人們可以在一秒鐘內理解一個新場景,或者在說出和聽到一個新話語的時間內理解它。在機器視覺和語音系統中使用神經網絡的一個重要動機是像大腦一樣快速地做出反應。盡管神經網絡通常旨在進行模式識別而非模型構建,但我們將討論這些“無模型”的方法如何加速感知和認知中的緩慢基于模型的推理(第4.3.1節)。通過學習這些推理中的模式,可以在不經過代價高昂的中間步驟的情況下預測推理的輸出。將“學會推理”的神經網絡與豐富的模型構建學習機制相結合,為解釋人類大腦如何如此快速地理解世界提供了一種有希望的方式。
我們還將討論強化學習中基于模型和無模型方法的整合(第4.3.2節),這是一個最近取得快速進展的領域。一旦學習了任務的因果模型,人類就可以利用該模型規劃最大化未來獎勵的動作序列;當獎勵被用作模型構建成功的度量時,這被稱為基于模型的強化學習。然而,在復雜模型中進行規劃既繁瑣又緩慢,使得實時控制的速度-準確性權衡變得不利。相比之下,無模型的強化學習算法(如當前的深度強化學習實現)支持快速控制,但以靈活性和可能的準確性為代價。我們將回顧證據表明,人類以競爭性和合作性的方式結合了基于模型和無模型的學習算法,并且這些互動受到元認知過程的監督。人類水平的強化學習的復雜性尚未在AI系統中實現,但這是一個認知方法和工程方法之間特別有希望交叉的領域。
2 人工智能中的認知與神經啟發
關于人工智能(AI)是否以及如何與人類認知心理學相關的問題,比“人工智能”和“認知心理學”這兩個術語本身還要古老。艾倫·圖靈懷疑,建造并教育一臺“兒童機器”比試圖完全捕捉成人的認知能力要容易(圖靈,1950)。圖靈將兒童的心智比作一個筆記本,有“很少的機制和大量的空白頁”,而兒童機器的心智則是通過響應獎勵和懲罰來填充筆記本,類似于強化學習。這種對表征和學習的看法呼應了圖靈時代占主導地位的行為主義心理學傳統。它也呼應了現代連接主義模型的強經驗主義,即我們可以通過感官輸入的統計模式學習我們所知道的幾乎所有內容。
認知科學摒棄了過于簡化的行為主義觀點,并在早期的人工智能研究中發揮了核心作用(博登,2006)。紐厄爾和西蒙(1961)開發了他們的“通用問題求解器”,既是人工智能算法,也是人類問題求解的模型,他們隨后對其進行了實驗測試(紐厄爾和西蒙,1972)。其他研究領域的AI先驅也明確引用了人類認知,甚至在認知心理學期刊上發表了論文(例如,鮑勃羅和溫諾格拉德,1977;海耶斯-羅思和海耶斯-羅思,1979;溫諾格拉德,1972)。例如,沙克(1972)在《認知心理學》雜志上寫道:
我們希望能夠構建一個程序,像孩子一樣學習如何做我們在本文中所描述的事情,而不是被強行灌輸必要的大量信息。
明斯基(1974)也表達了類似的觀點:
我不在人類思維理論和制造智能機器的方案之間劃清界限;今天將這兩個領域分開沒有任何意義,因為這兩個領域都沒有足夠的理論來解釋——或者產生——足夠的思維能力。
這些研究大多假設人類知識表征是符號化的,并且推理、語言、規劃和視覺可以用符號操作來理解。與此同時,一種截然不同的方法正在被探索,基于類似神經元的“子符號”計算(例如,福島,1980;格羅斯伯格,1976;羅森布拉特,1958)。這種方法的表征和算法更多地受到神經科學的啟發,而不是認知心理學,盡管最終它會發展成為一個有影響力的關于認知本質的思想流派——平行分布式處理(PDP)(麥克萊蘭等人,1986;魯梅爾哈特,麥克萊蘭和PDP研究小組,1986)。顧名思義,PDP強調通過組合簡單單元來并行計算,以集體實現復雜的計算。這些神經網絡所學到的知識因此分布在單元的集合中,而不是像大多數符號數據結構那樣局部化。最近對神經網絡的興趣重新興起,更常被稱為“深度學習”,它們在表征承諾上與早期的PDP模型相同,甚至經常使用相同的算法(見勒昆等人,2015;施密德胡伯,2015,近期綜述),“深度”指的是可以通過組合多層表征來構建更強大的模型(仍然非常符合PDP風格),同時利用最近在硬件和計算能力方面的進步,以及大規模數據集,來學習更深層的模型。
還需要澄清的是,PDP視角與“模型構建”兼容,而不僅僅是“模式識別”。一些最初以PDP名義進行的工作(魯梅爾哈特,麥克萊蘭和PDP研究小組,1986)更接近模型構建而非模式識別,而最近的大型判別式深度學習系統則更純粹地體現了模式識別(見博圖,2014,相關討論)。然而,正如所討論的,還有關于模型內所學表征的性質的問題——它們的形式、組合性和可轉移性——以及用于到達那里的發展啟動軟件。本文聚焦于這些問題。
神經網絡模型和PDP方法提供了一種關于心智(以及更廣泛的智能)的子符號視角,通常以最小的約束和歸納偏差來引導學習。這種方法的支持者認為,許多經典的結構化知識類型,如圖、語法、規則、對象、結構描述、程序等,可以是有用的,但也是誤導性的隱喻,用于描述思維。這些結構更多是派生現象而非真實存在,是更基本的子符號認知過程的涌現屬性(麥克萊蘭等人,2010)。與其他研究認知的范式相比,這種對表征本質的立場通常伴隨著一種相對“白板”的初始知識和表征愿景,就像圖靈的空白筆記本一樣。
在這個范式中,嘗試理解特定的認知能力或現象時,一種常見的科學策略是訓練一個相對通用的神經網絡來執行該任務,只有在必要時才添加額外的成分。這種方法表明,神經網絡可以表現得好像它們學到了明確結構化的知識,例如生成單詞過去時的規則(魯梅爾哈特和麥克萊蘭,1986),解決簡單平衡梁物理問題的規則(麥克萊蘭,1988),或者表示生物類型(植物和動物)及其屬性分布的樹(羅杰斯和麥克萊蘭,2004)。訓練大規模相對通用的網絡也是當前物體識別的最佳方法(赫等人,2015;克里日夫斯基等人,2012;魯薩科夫斯基等人,2015;塞格迪等人,2014),這些卷積網絡的高級特征表征也被用于預測人類和獼猴IT皮層的神經反應模式(卡利赫-拉扎維和克里格斯科特,2014;克里格斯科特,2015;亞明等人,2014),以及人類對常見物體圖像的典型性評分(萊克,扎倫巴,費爾格斯和古雷基斯,2015)和相似性評分(彼得森,阿博特和格里菲斯,2016)。此外,研究人員還訓練通用網絡執行結構化甚至戰略性任務,例如最近使用深度Q學習網絡(DQN)玩簡單視頻游戲的工作(V. Mnih等人,2015)。
如果神經網絡在機器視覺、語言和控制方面有如此廣泛的應用,并且如果它們可以被訓練來模擬表征認知特征的規則性和結構化行為,那么我們是否還需要更多來開發真正像人類一樣學習和思考的機器呢?相對通用的神經網絡能帶我們離這個目標有多遠?
3 構建更像人類的機器的挑戰
盡管認知科學尚未對心智或智能達成統一的解釋,但“心智是一組幾乎沒有初始約束的通用神經網絡的集合”這一說法在當代認知科學中顯得相當極端。一個不同的圖景已經浮現,它強調了早期歸納偏差的重要性,包括諸如數字、空間、主體性和物體等核心概念,以及依賴先驗知識從少量訓練數據中提取知識的強大學習算法。這些知識通常以豐富的理論結構組織起來,具備人類思維所特有的漸進式推理和生成能力。
在這里,我們提出了兩個機器學習和人工智能的挑戰性問題:學習簡單的視覺概念(萊克、薩拉赫丁諾夫和特嫩鮑姆,2015)以及學習玩Atari游戲《冰封王座》(V. Mnih等人,2015)。我們還用這些問題作為貫穿始終的例子,來說明以下各節中核心認知要素的重要性。
3.1 字符挑戰
第一個挑戰涉及手寫字符識別,這是比較不同類型機器學習算法的經典問題?;舴蛩顾兀℉ofstadter)在1985年認為,以人們所做的一切方式(包括手寫和印刷)識別字符的問題,幾乎包含了人工智能的所有基本挑戰,如果不是全部的話。無論這一說法是否正確,它都突顯了即使是像字母這樣“簡單”的人類水平概念背后所隱藏的驚人復雜性。更實際地說,手寫字符識別是一個兒童和成人都必須學會解決的真實問題,其實際應用范圍從閱讀信封地址到自動取款機中的支票識別等。與更一般的物體識別形式相比,手寫字符識別也更為簡單——感興趣的物體是二維的,與背景分離,且通常不受遮擋。與人們學習和觀察其他類型物體的方式相比,似乎在短期內有可能構建出能夠看到人們所能看到的字符結構的大部分的算法。
標準的基準測試是用于數字識別的MNIST數據集(LeCun, Bottou, Bengio, & Haffner, 1998),它涉及將數字圖像分類為“0”到“9”的類別。訓練集為每個類別提供6,000張圖像,總計60,000張訓練圖像。由于有大量的訓練數據可供使用,許多算法都取得了令人滿意的性能,包括K最近鄰算法(測試誤差為5%)、支持向量機(測試誤差約為1%)以及卷積神經網絡(測試誤差低于1%;LeCun等人,1998)。使用深度卷積網絡取得的最好結果非常接近人類水平的表現,誤差率為0.2%(Ciresan, Meier, & Schmidhuber, 2012)。同樣,最近將卷積網絡應用于更具挑戰性的ImageNet物體識別基準測試的結果表明,人類水平的表現也即將在該數據集上實現(Russakovsky等人,2015)。
盡管人類和神經網絡在MNIST數字識別任務以及其他大規模圖像分類任務上的表現可能相當,但這并不意味著它們的學習和思維方式相同。至少存在兩個重要差異:人類可以從較少的示例中學習,并且他們學習到的表征更為豐富,這一比較既適用于學習手寫字符,也適用于學習更一般的物體類別(圖1)。人類可以從單個示例中學會識別新的手寫字符(圖1A-i),使他們能夠區分其他人繪制的新實例和類似但并非同類的非實例(Lake, Salakhutdinov, & Tenenbaum, 2015;E. G. Miller, Matsakis, & Viola, 2000)。此外,人類學到的不僅僅是如何進行模式識別:他們學到的是一個概念——即一個類別模型,允許他們將所獲得的知識靈活地應用于新的方式。除了識別新實例外,人類還可以生成新的實例(圖1A-ii),將字符解析為其最重要的部分和關系(圖1A-iii;Lake, Salakhutdinov, 和 Tenenbaum(2012)),以及根據一組相關的字符生成新的字符(圖1A-iv)。這些額外的能力是隨著對底層概念的掌握而自然獲得的。
即使是對于這些簡單的視覺概念,人類仍然是比字符識別的最佳算法更優秀、更復雜的學習者。人類從更少的示例中學習到更多的東西,將這些人類水平的學習能力引入機器就是字符挑戰。我們最近報告了在這一挑戰上使用概率程序歸納法所取得的進展(Lake, Salakhutdinov, & Tenenbaum, 2015),但人類完整的認知能力的某些方面仍然難以企及。盡管人類和模型都將字符表示為一系列筆畫和關系,但人類擁有更豐富的筆畫之間結構關系的儲備。此外,人類能夠高效地整合一個字符的多個示例,以推斷哪些元素是可選的,例如“7”中的水平橫杠,將同一字符的不同變體合并成一個連貫的單一表示。通過結合深度學習和概率程序歸納法來應對更豐富的字符挑戰版本,可能會取得進一步的進展。
3.2 Frostbite挑戰
第二個挑戰涉及Atari游戲《Frostbite》(圖2),這是V. Mnih等人(2015)的DQN(深度Q網絡)所解決的控制問題之一。DQN是強化學習領域的一個重大突破,它表明單一算法可以學會玩多種復雜的任務。該網絡被訓練用于玩49款經典的Atari游戲,這些游戲被提議作為強化學習的測試領域(Bellemare, Naddaf, Veness, & Bowling, 2013),令人印象深刻的是,它在其中29款游戲上達到了人類水平或更高的表現。然而,它在《Frostbite》以及其他需要長期規劃策略的游戲中卻遇到了特別的困難。
在《Frostbite》中,玩家控制一個代理(Frostbite Bailey),任務是在時間限制內建造一個冰屋。冰屋是通過代理在水中跳躍冰塊來一塊一塊建造的(圖2A-C)。挑戰在于,冰塊在不斷移動(向左或向右),并且只有在冰塊處于活躍狀態(白色而非藍色)時,它們才會對冰屋的建造做出貢獻。代理還可以通過收集魚來獲得額外的分數,同時避免多種致命的危險(掉入水中、雪鵝、北極熊等)。在這款游戲中取得成功需要一個長期的規劃,以確保代理能夠完成一個子目標(例如到達一個冰塊),然后安全地繼續下一個子目標。最終,當冰屋的所有部件都就位后,代理必須進入冰屋,從而在時間耗盡之前完成關卡(圖2C)。
DQN通過結合強大的模式識別器(深度卷積神經網絡)和簡單的無模型強化學習算法(Q學習;Watkins & Dayan, 1992)來學習玩《Frostbite》和其他Atari游戲。這些組件使網絡能夠將感官輸入(像素幀)映射到一個小動作集合上的策略上,而映射和策略都被訓練以優化長期累積獎勵(游戲得分)。該網絡體現了大多數連接主義模型所具有的強烈經驗主義方法:除了卷積網絡中固有的關于圖像結構的假設外,網絡中幾乎沒有其他內置內容,因此網絡必須為每款新游戲基本上從頭開始學習一個視覺和概念系統。在V. Mnih等人(2015)的研究中,網絡架構和超參數是固定的,但網絡是針對每款游戲重新訓練的,這意味著視覺系統和策略高度專門化于其訓練的游戲。最近的研究已經展示了這些針對特定游戲的網絡如何共享視覺特征(Rusu等人,2016)或者被用來訓練一個多任務網絡(Parisotto, Ba, & Salakhutdinov, 2016),在學習玩新游戲時實現了適度的遷移學習效果。
盡管DQN在假設很少先驗知識的情況下學會以人類水平的表現玩游戲這一事實令人感興趣,但DQN可能正在以一種與人類截然不同的方式學習玩《Frostbite》和其他游戲。一種檢驗差異的方法是考慮學習所需的體驗量。在V. Mnih等人(2015)的研究中,DQN與一位專業游戲玩家進行了比較,后者在49款Atari游戲上每款大約練習了兩個小時(盡管他或她可能對其中一些游戲已經有一定的經驗)。DQN在每款游戲上被訓練了2億幀,相當于大約924小時的游戲時間(大約38天),幾乎是人類所獲得體驗的500倍。此外,DQN還采用了體驗回放,在學習過程中,這些幀平均還會被回放大約8次。
憑借完整的924小時獨特體驗以及額外的回放,DQN在控制測試環節中僅達到了不到10%的人類水平表現(見圖3中的DQN)。DQN的更近期變體已經展示了更優越的表現(Schaul等人,2016;Stadie等人,2016;van Hasselt, Guez, & Silver, 2016;Wang等人,2016),通過采用更智能的體驗回放(Schaul等人,2016)達到了專業游戲玩家得分的83%,通過使用更智能的回放和更有效的參數共享(Wang等人,2016)達到了96%(見圖3中的DQN+和DQN++)。但它們需要大量的體驗才能達到這一水平:Schaul等人(2016)提供的學習曲線顯示,在231小時后表現約為46%,在116小時后約為19%,而在僅僅2小時后則低于3.5%(這接近隨機游戲,大約為1.5%)。人類和機器學習曲線之間的差異表明,它們可能正在學習不同種類的知識,使用不同的學習機制,或者兩者兼而有之。
如果我們觀察學習的最初階段,這種對比將變得更加戲劇化。盡管原始的DQN和這些更近期的變體都需要數小時的體驗才能可靠地優于隨機游戲,但即使是非專業的玩家,也可以在玩游戲僅僅幾分鐘后掌握游戲的基本規則。我們推測,人們通過推斷一個通用的框架來描述游戲的目標、物體類型及其相互作用,從而做到這一點,這利用了我們下面描述的那種直覺理論、模型構建能力以及基于模型的規劃機制。盡管新手玩家可能會犯一些錯誤,例如推斷魚是有害的而不是有益的,但他們可以在幾分鐘內學會比隨機游戲表現得更好。如果人類能夠先觀看專家玩游戲幾分鐘,他們可以學得更快。在非正式的實驗中,兩位作者在Javascript模擬器( )上玩《Frostbite》,在YouTube上觀看專家游戲視頻僅僅兩分鐘后,我們發現在最多15-20分鐘的總練習后,我們能夠達到或超過V. Mnih等人(2015)中報告的人類專家的得分。
還有其他的行為特征表明,人類與DQN在表征和學習方面存在根本差異。例如,在游戲《冰封王座》中,每到達一個活躍的冰塊就會獲得遞增的獎勵,這為DQN提供了完成更大任務(建造一個雪屋)的相關子目標。如果沒有這些子目標,DQN將不得不采取隨機行動,直到偶然地建造了一個雪屋并因完成整個關卡而獲得獎勵。相比之下,人們在學習如何玩一款新游戲時,可能不會以同樣的方式依賴于遞增的得分。在《冰封王座》中,有可能在沒有遞增反饋的情況下,弄清楚建造雪屋這一更高層次的目標;同樣,在其他如《蒙特祖瑪的復仇》這樣的Atari 2600游戲中,稀疏的反饋是一個困難的來源,而人類在這些游戲中明顯優于當前的DQN方法。
DQN學習到的網絡也相當不適應輸入和目標的變化:改變物體的顏色或外觀,或者改變網絡的目標,如果不對網絡進行重新訓練,將會對其性能產生毀滅性的影響。盡管任何特定的模型必然是簡化的,不應該以一般人類智能的標準來衡量,但DQN與人類靈活性之間的對比仍然非常顯著。例如,想象一下,你被要求帶著以下任何一個新目標去玩《冰封王座》:
- 獲得盡可能低的分數。
- 獲得最接近100、300、1000、3000或任何水平的分數,但不要超過。
- 擊敗你旁邊正在玩的朋友,但只是剛好,不要太懸殊,以免讓他們難堪。
- 盡可能長時間地存活下去。
- 盡可能快地死亡。
- 在溫度計時器歸零并死亡(即盡可能接近因凍傷而死亡,但又不真正死亡)的最后時刻通過每個關卡。
- 不顧分數,到達最遠的未探索關卡。
- 看看你是否能找到隱藏的彩蛋。
- 獲得盡可能多的魚。
- 觸碰屏幕上每一個單獨的冰塊,且僅觸碰一次。
- 盡可能高效地教你的朋友如何玩。
這一系列目標突顯了人類智能的一個基本組成部分:人們可以學習模型,并將其用于任意新的任務和目標。雖然神經網絡可以使用相同的刺激學習多個映射或任務——根據指定的目標調整其輸出——但這些模型需要大量的訓練或重新配置才能添加新任務(例如,Collins & Frank, 2013; Eliasmith et al., 2012; Rougier, Noelle, Braver, Cohen, & O’Reilly, 2005)。相比之下,人們幾乎不需要重新訓練或重新配置,就能相對輕松地將新任務和目標添加到他們的技能庫中。
將《冰封王座》的例子與人類游戲進行對比,尤其具有說服力。即使是最好的深度網絡,也需要經過數千次游戲過程才能逐漸學習,花費很長時間才能達到良好的性能,并且局限于特定的輸入和目標模式。相比之下,人類在玩了幾分鐘的少量游戲后,就能理解游戲及其目標,其表現甚至超過了深度網絡在經過近一千小時的經驗后所達到的水平。更令人印象深刻的是,人們能夠理解得足夠多,從而發明或接受新目標,對輸入的變化進行泛化,并向他人解釋游戲。為什么人類會有所不同呢?DQN和其他現代機器學習方法可能缺少人類智能的哪些核心要素呢?
有人可能會反對說,《冰封王座》和字符挑戰將人類學習的速度與神經網絡學習的速度進行了不公平的比較。我們在第5節中詳細討論了這一反對意見,但我們覺得在這里也提前說明很重要。引用一位早期稿件的審稿人的話來說,“并不是DQN和人類以不同的方式解決相同的任務。他們可能更好地被視為解決不同的任務。人類學習者——與DQN和許多其他深度學習系統不同——帶著豐富的先驗經驗去解決新問題。人類正在解決一系列多年來的連續問題,這些問題具有豐富的重疊結構。因此,人類通常對這些任務擁有重要的領域特定知識,甚至在他們‘開始’之前就已經有了。DQN則是從零開始?!蔽覀兺膺@一點,這實際上是我們在這里要表達的觀點的另一種說法。人類學習者從根本上承擔著與當今神經網絡不同的學習任務,如果我們想制造出像人類一樣學習和思考的機器,那么我們的機器就需要面對人類學習者所面對的那種任務,而不是回避它們。
人類從未真正從零開始,甚至從未接近“從零開始”,這才是他們成功的關鍵。那么,構建人類學習和思維模型的挑戰就變成了:我們如何利用豐富的先驗知識來快速學習新任務和解決新問題呢?這種先驗知識的形式是什么,它是如何從天生的能力和以往經驗的某種組合中構建起來的呢?我們在下一節中提出的這些核心要素為應對這一挑戰提供了一種途徑。
4 人類智能的核心要素
在引言部分,我們闡述了我們認為的智能的核心要素。在這里,我們將詳細探討這些要素,并將其與當前神經網絡建模的現狀進行對比。盡管這些并非人類學習和思維所需的唯一要素(參見第5節關于語言的討論),但它們是大多數當前基于學習的人工智能系統中所缺失的關鍵構建塊——至少沒有全部具備——而對這些要素的額外關注可能會特別富有成效。我們相信,將這些要素整合起來,將產生比當前人工智能系統中所見的更強大、更接近人類的學習和思維能力。
在詳細探討每個要素之前,重要的是要澄清,我們所說的“核心要素”并不一定意味著這些要素是由基因預先設定的,或者必須“內置”到任何學習算法中。我們希望我們的討論對這些關鍵要素的起源保持中立。當一個孩子或成年人開始學習一個新的字符或學習如何玩《冰封王座》時,他們已經具備了深度學習系統所不具備的豐富現實世界經驗——這種經驗很難在一般意義上被模擬。當然,這些核心要素會因這種經驗而得到豐富,有些甚至可能是這種經驗的產物。無論這些要素是通過學習獲得的、內置的還是被豐富了的,關鍵主張是,這些要素在產生類似人類的學習和思維方面發揮了積極且重要的作用,而這是當代機器學習尚未捕捉到的。
4.1 發展初期的啟動軟件
在早期發展中,人類對幾個核心領域有著基礎性的理解(Spelke, 2003; Spelke & Kinzler, 2007)。這些領域包括數字(數值和集合運算)、空間(幾何和導航)、物理(無生命物體和力學)以及心理學(主體和群體)。這些核心領域在認知的概念節點上劃分了認知功能,每個領域都由一組實體以及關聯這些實體的抽象原則來組織。其底層的認知表征可以被理解為“直覺理論”,其因果結構類似于科學理論(Carey, 2004, 2009; Gopnik et al., 2004; Gopnik & Meltzoff, 1999; Gweon, Tenenbaum, & Schulz, 2010; L. Schulz, 2012; Wellman & Gelman, 1992, 1998)。進一步地,“兒童作為科學家”的觀點將學習過程本身也視為類似科學家的行為,最近的實驗表明,兒童會主動尋找新的數據以區分假設、隔離變量、檢驗因果假設、利用數據生成過程來得出結論,并有選擇地向他人學習(Cook, Goodman, & Schulz, 2011; Gweon et al., 2010; L. E. Schulz, Gopnik, & Glymour, 2007; Stahl & Feigenson, 2015; Tsividis, Gershman, Tenenbaum, & Schulz, 2013)。我們將在第4.2節中探討學習機制的本質。
每個核心領域都受到了大量的研究和分析,這些領域被認為在不同文化之間是共有的,并且部分也與非人類動物共享。所有這些領域都可能是當前機器學習的重要補充,盡管在下面的部分中,我們特別關注對物體和主體的早期理解。
4.1.1 直覺物理學
幼兒對直覺物理學有著豐富的知識。無論這些知識是通過學習獲得的還是與生俱來的,重要的物理概念在兒童或成人學習玩《冰封王座》的年齡之前就已經存在,這表明這些資源可能被用于解決這一問題以及許多日常與物理相關的任務。早在2個月大甚至更早的時候,嬰兒就期望無生命物體遵循持續性、連續性、凝聚性和固體性等原則(Spelke, 1990; Spelke, Gutheil, & Van de Walle, 1995)。幼兒認為物體應該沿著平滑的路徑移動,不會憑空出現或消失,不會相互穿透,也不會在遠處產生作用。這些期望指導了嬰兒早期的物體分割,出現在基于外觀的線索(如顏色、紋理和感知良好性)之前(Spelke, 1990)。
這些期望還繼續指導后續的學習。大約在6個月大時,嬰兒已經對剛體、軟體和流體形成了不同的期望(Rips & Hespos, 2015)。例如,流體被期望能夠通過障礙物,而固體物體則不能(Hespos, Ferry, & Rips, 2009)。到他們的第一個生日時,嬰兒已經經歷了幾次對基本物理概念(如慣性、支撐、容納和碰撞)的理解轉變(Baillargeon, 2004; Baillargeon, Li, Ng, & Yuan, 2009; Hespos & Baillargeon, 2008)。
目前還沒有一個被廣泛接受的關于這些早期物理原則和概念的計算解釋,以前的建議范圍從決策樹(Baillargeon et al., 2009),到線索,再到規則列表(Siegler & Chen, 1998)。一種有前景的近期方法將直覺物理推理視為類似于對物理引擎軟件的推理,這種模擬器是現代動畫和游戲的動力來源(Bates, Yildirim, Tenenbaum, & Battaglia, 2015; Battaglia, Hamrick, & Tenenbaum, 2013; Gerstenberg, Goodman, Lagnado, & Tenenbaum, 2015; Sanborn, Mansinghka, & Griffiths, 2013)。根據這一假設,人們使用物體及其物理相關屬性(如質量、彈性、表面摩擦)以及作用于物體的力(如重力、摩擦力或碰撞沖擊)的內部表征來重建感知場景。與物理真實情況相比,直覺物理狀態表征是近似的、概率性的,并且在許多方面過于簡化和不完整。然而,它仍然足夠豐富,能夠支持心理模擬,以預測物體在不久的將來將如何移動,無論是它們自身的運動還是對我們將要施加的力的響應。
這種“直覺物理引擎”方法使得人們能夠靈活適應各種日常場景和判斷,超越了感知線索。例如(見圖4),從《疊疊樂》游戲中重建的木塊塔的物理引擎可以用來預測塔是否會倒下(以及如何倒下),與成年人做出這些預測的方式非常接近(Battaglia et al., 2013),也可以用于研究嬰兒的更簡單的物理預測(Téglás et al., 2011)?;谀M的模型還可以捕捉人們如何做出假設性或反事實的預測:如果移除某些積木,添加更多積木,或者支撐塔的桌子被搖晃,會發生什么?如果某些積木被粘在一起,或者附著在桌面表面呢?如果積木是由不同的材料制成的(如泡沫塑料、鉛、冰)呢?如果一種顏色的積木比其他顏色的積木重得多呢?每一種物理判斷可能都需要新的特征或新的訓練,才能使基于模式識別的解釋達到與基于模型的模擬器相同的水平。
將這種直覺物理學嵌入或引入深度學習系統的前景如何呢?心理學中的聯結主義模型以前曾被應用于物理推理任務,例如平衡梁規則(McClelland, 1988; Shultz, 2003)或與運動中距離、速度和時間相關的規則(Buckingham & Shultz, 2000),但這些網絡并沒有嘗試處理復雜的場景作為輸入,或者像圖4中那樣廣泛的場景和判斷。
Facebook AI研究人員最近的一篇論文(Lerer, Gross, & Fergus, 2016)在這一方向上邁出了令人興奮的一步。Lerer等人(2016)訓練了一個基于深度卷積網絡的系統(PhysNet),使其能夠從類似于圖4A的模擬圖像中預測積木塔的穩定性,但這些圖像的配置要簡單得多,僅為垂直堆疊的兩個、三個或四個立方體積木。令人印象深刻的是,PhysNet能夠泛化到簡單的現實世界中的積木塔圖像,在這些圖像上的表現與人類相當,同時在合成圖像上的表現甚至超過了人類。人類和PhysNet對積木塔的置信度也存在相關性,盡管這種相關性不如Battaglia等人(2013)的近似概率模擬模型和實驗那么強。一個局限性在于,PhysNet目前需要大量的訓練——大約10萬到20萬場景——才能學會對單一任務(塔是否會倒下?)在有限的場景范圍(兩到四個立方體的塔)內進行判斷。雖然它已經被證明能夠泛化,但這種泛化也是有限的(例如,從兩個和三個立方體的塔泛化到四個立方體的塔)。相比之下,人類在執行任何特定任務時需要的經驗要少得多,并且能夠在無需新的訓練的情況下泛化到許多新的判斷和復雜場景(盡管他們在與世界更廣泛的互動中獲得了大量的物理經驗)。深度學習系統(如PhysNet)能否在不明確模擬三維空間中物體之間因果互動的情況下捕捉到這種靈活性?我們不確定,但我們希望這是一個它們會接受的挑戰。
或者,與其試圖在不模擬物理的情況下進行預測,神經網絡是否可以在給定正確類型和數量的訓練數據的情況下被訓練成一個通用的物理模擬器,例如兒童所經歷的原始輸入?這是一個活躍且引人入勝的研究領域,但它也面臨著重大挑戰。對于訓練用于物體分類的網絡,更深層通常會對從邊緣到紋理、再到形狀部件再到完整物體的更高層次特征變得更加敏感(Yosinski, Clune, Bengio, & Lipson, 2014; Zeiler & Fergus, 2014)。對于在物理相關數據上訓練的深度網絡,目前還不清楚更高層次是否會編碼物體、一般物理屬性、力以及近似牛頓力學。一個在動態像素數據上訓練的通用網絡可能會學到這些概念的隱式表征,但它是否能夠像人類更明確的物理概念那樣廣泛地泛化到訓練上下文之外?例如,考慮一個學習預測幾個球在一個盒子里反彈的軌跡的網絡(Kodratoff & Michalski, 2014)。如果這個網絡實際上學到了類似牛頓力學的東西,那么它應該能夠泛化到有趣的不同場景——至少是不同數量、不同形狀的物體,在不同形狀、大小和方向(相對于重力)的盒子里反彈,更不用說上述討論的所有塔任務了,這些任務也屬于牛頓力學領域。神經網絡研究人員尚未接受這一挑戰,但我們希望他們會接受。正如我們在第5節中進一步討論的那樣,尚不清楚是否能夠用人類嬰兒所擁有的數據類型(以及數量)來學習此類模型。
將基于物體和物理的原始概念整合到深度神經網絡中可能具有挑戰性,但在許多任務的學習速度和性能方面可能會帶來巨大的回報。以學習玩《冰封王座》為例。盡管很難確切地弄清楚網絡是如何學會解決特定任務的,但DQN可能并沒有將《冰封王座》的截圖解析為根據直覺物理規則運動的穩定物體或精靈(圖2)。然而,整合基于物理引擎的表征可以幫助DQN以更快、更通用的方式學會玩像《冰封王座》這樣的游戲,無論物理知識是隱式地包含在神經網絡中,還是更明確地包含在模擬器中。除了減少訓練數據量并可能提高DQN達到的性能水平外,它還可以消除在物體(例如,鳥、冰塊和魚)的行為、獎勵結構或外觀發生輕微變化時重新訓練《冰封王座》網絡的需要。當引入一種新的物體類型(如《冰封王座》后期關卡中的熊,圖2D)時,擁有直覺物理的網絡也會更容易將這種物體類型納入其知識體系(添加新物體的挑戰也在Marcus, 1998, 2001中討論過)。通過這種方式,將直覺物理與深度學習整合可能是邁向更接近人類的學習算法的重要一步,或者被阻塞的主體之前被關聯為負面的,或者……
對基于線索的解釋的一種替代方法是使用行動選擇的生成模型,例如貝克爾(Baker)、薩克斯(Saxe)和特南鮑姆(Tenenbaum)(2009)提出的貝葉斯逆向規劃(或“貝葉斯心理理論”)模型,或者哈拉-埃廷格(Jara-Ettinger)、格溫(Gweon)、特南鮑姆和舒爾茨(Schulz)(2015)提出的“樸素效用演算”模型(還可參見杰恩和肯普(Jern and Kemp, 2015)、陶伯和斯特耶弗斯(Tauber and Steyvers, 2011),以及基于預測編碼的另一種相關替代方法,該方法來自基爾納(Kilner)、弗里斯頓(Friston)和弗里斯(Frith, 2007))。這些模型明確形式化了諸如“目標”“主體”“規劃”“成本”“效率”和“信念”等心理主義概念,這些概念被用來描述嬰兒期的核心心理推理。它們假設成人和兒童將主體視為近似理性的規劃者,選擇實現目標的最有效手段。規劃計算可以形式化為馬爾可夫決策過程(或部分可觀測馬爾可夫決策過程,POMDPs)的解決方案,輸入是定義在主體狀態空間上的效用函數和信念函數,以及主體的狀態-行動轉移函數,輸出是主體為最有效地實現目標(或最大化效用)而應執行的一系列行動。通過模擬這些規劃過程,人們可以預測主體接下來可能會做什么,或者通過觀察一系列行動,使用逆向推理來推斷場景中主體的效用和信念。這與使用模擬引擎進行直覺物理推理是直接類比的,可以用來預測場景中接下來會發生什么,或者根據物體的運動來推斷它們的動態屬性。它產生了類似靈活的推理能力:效用和信念可以根據主體可能為各種新目標和情境采取的行動進行調整。重要的是,與直覺物理不同,直覺心理學中的基于模擬的推理可以遞歸嵌套,以理解社會互動——我們可以思考主體對其他主體的思考。
與直覺物理的情況一樣,通用深度網絡在捕捉直覺心理推理方面的成功將部分取決于人類所使用的表征。盡管深度網絡尚未應用于涉及心理理論和直覺心理學的情境,但它們可能能夠學會視覺線索、啟發式方法以及涉及主體的場景的總結性統計特征。如果這就是人類心理推理的全部基礎,那么基于數據的深度學習方法很可能會在這個領域取得成功。
然而,在我們看來,任何關于直覺心理推理的完整形式化解釋都需要包括主體性、目標、效率和互惠關系的表征。與物體和力一樣,目前尚不清楚是否可以從僅具有預測能力的深度神經網絡中產生這些概念(主體、目標等)的完整表征。與直覺物理領域類似,有可能通過在各種情境中大量的訓練軌跡,深度學習技術可以在沒有學到更一般的有目標或社會導向行為的情況下,近似于嬰兒期的推理。但除非這些概念是真實的,否則這也不太可能類似于人類學習、理解和應用直覺心理學的方式。就像在物理相關任務中,如果不了解物體,改變場景的設置或推斷的目標可能難以泛化,如果不理解直覺心理學,改變主體的設置或他們的目標和信念也難以進行推理。
在介紹《冰封王座》挑戰時,我們討論了人們如何通過觀看一位經驗豐富的玩家玩幾分鐘,然后自己玩幾輪,就能極其迅速地學會玩這款游戲。直覺心理學為從他人那里高效學習提供了基礎,尤其是在以高效傳遞知識為目標的教學情境中(Shafto, Goodman, & Griffiths, 2014)。在觀看專家玩《冰封王座》的情況下,無論是否有明確的教學目標,直覺心理學都能讓我們推斷出經驗豐富的玩家的信念、愿望和意圖。例如,我們可以通過觀察經驗豐富的玩家似乎在避開鳥兒,從而了解到鳥兒是要避開的。我們不需要經歷一個遇到鳥兒的例子——并看到《冰封王座》中的貝利因為鳥兒而死亡——就能推斷出鳥兒可能是危險的。只要看到經驗豐富的玩家的回避行為最好被解釋為基于這種信念的行為,就足夠了。
同樣,考慮一下在視頻游戲中越來越流行的副手角色(sidekick agent)是如何被期望幫助玩家實現目標的。這種角色可以在不同的情境下以不同的方式提供幫助,比如獲取物品、清理道路、戰斗、防御、治療和提供信息——所有這些都基于“提供幫助”的一般概念(Macindoe, 2013)。一個明確的主體表征可以預測這種角色在新情境下將如何提供幫助,而基于像素的自下而上的表征可能就會陷入困境。
有幾種方法可以將直覺心理學融入當代深度學習系統。雖然它可以被內置,但直覺心理學也可能以其他方式產生。聯結主義者認為,以硬連線皮層回路形式存在的先天約束不太可能(Elman, 2005; Elman et al., 1996),但一個簡單的歸納偏差,例如傾向于注意到能夠移動其他事物的事物,可以啟動對更抽象的主體概念的推理(S. Ullman, Harari, & Dorfman, 2012)。同樣,大量的有目標導向和社會導向的行為也可以歸結為一個簡單的效用演算(例如,Jara-Ettinger et al., 2015),這種演算可以與其他認知能力共享。盡管直覺心理學的起源仍然是一個有爭議的問題,但很明顯,這些能力是早期出現的,并且在人類學習和思維中發揮著重要作用,這在《冰封王座》挑戰中得到了體現,也在更廣泛地學習新視頻游戲時得到了體現。
4.2 學習作為快速模型構建
自誕生以來,神經網絡模型就強調了學習的重要性。神經網絡有許多學習算法,包括感知器算法(Rosenblatt, 1958)、赫布學習(Hebb, 1949)、BCM規則(Bienenstock, Cooper, & Munro, 1982)、反向傳播(Rumelhart, Hinton, & Williams, 1986)、醒睡算法(Hinton, Dayan, Frey, & Neal, 1995)以及對比散度(Hinton, 2002)。無論是監督學習還是無監督學習,這些算法都將學習實現為連接強度的逐步調整過程。對于監督學習,更新通常旨在提高算法的模式識別能力。對于無監督學習,更新則致力于逐漸使模型內部模式的統計特性與輸入數據的統計特性相匹配。
近年來,機器學習在使用反向傳播和大數據集解決復雜的模式識別問題方面取得了特別的成功。盡管這些算法在多個具有挑戰性的基準測試中達到了人類水平的性能,但在其他方面,它們仍然遠遠沒有達到人類水平的學習能力。深度神經網絡通常需要比人類更多的數據來解決相同類型的問題,無論是學習識別一種新類型的物體,還是學習玩一種新游戲。在學習母語中單詞的含義時,兒童能夠從非常稀疏的數據中做出有意義的泛化(Carey & Bartlett, 1978; Landau, Smith, & Jones, 1988; E. M. Markman, 1989; Smith, Jones, Landau, Gershkoff-Stowe, & Samuelson, 2002; F. Xu & Tenenbaum, 2007,盡管Horst和Samuelson在2008年提出了關于記憶限制的問題)。兒童可能只需要看到幾個關于發刷、菠蘿或光劍的概念的例子,就能大致“理解”,掌握定義每個概念的無限集合與所有可能物體的無限集合之間的邊界。兒童在學習新概念方面比成年人更有經驗——從開始說話到高中畢業,每天大約學習九到十個新單詞(Bloom, 2000; Carey, 1978)——然而,快速“單次學習”的能力在成年后并沒有消失。一個成年人可能只需要看到一張圖片或一部關于一種新型兩輪車輛的電影,就能推斷出這個概念與其他概念之間的邊界,使他或她能夠區分這個概念的新實例與外觀相似但屬于不同類型物體(圖1B-i)。
與人類學習的效率形成對比的是,神經網絡由于其作為高度靈活的函數逼近器的通用性,臭名昭著地需要大量數據(偏差/方差困境;Geman, Bienenstock, & Doursat, 1992)。例如,用于物體識別的ImageNet數據集這樣的基準任務為每個類別提供了數百或數千個示例(Krizhevsky et al., 2012; Russakovsky et al., 2015)——1000個發刷、1000個菠蘿等。在學習新的手寫字符或學習玩《冰封王座》的背景下,MNIST基準數據集包括每個手寫數字的6000個示例(LeCun et al., 1998),而V. Mnih等人(2015)的DQN在每個Atari視頻游戲中大約進行了924小時的獨特訓練體驗(圖3)。在這兩種情況下,算法顯然沒有像學習執行相同任務的人那樣高效地使用信息。
還有一點需要指出的是,人類學習許多類別的概念的速度要慢得多。在學校學習的概念通常更具挑戰性,也更難掌握,包括數學函數、對數、導數、積分、原子、電子、重力、DNA、進化等。也有一些領域,機器學習者的表現優于人類學習者,例如梳理金融或天氣數據。但對于大多數認知上自然的概念——兒童學習作為單詞含義的那些事物——人類仍然是比機器更好的學習者。本節我們關注的就是這種類型的學習,它更適合于逆向工程并闡述使人類學習成功所需的額外原則。它也為將這些要素融入下一代機器學習和人工智能算法提供了可能性,有望在人類容易和難以掌握的概念學習方面取得進展。
即使只有幾個例子,人類也能學到非常豐富的概念模型。豐富性的一個指標是這些模型支持的多種功能(A. B. Markman & Ross, 2003; Solomon, Medin, & Lynch, 1999)。除了分類之外,概念還支持預測(Murphy & Ross, 1994; Rips, 1975)、行動(Barsalou, 1983)、交流(A. B. Markman & Makin, 1998)、想象(Jern & Kemp, 2013; Ward, 1994)、解釋(Lombrozo, 2009; Williams & Lombrozo, 2010)以及組合(Murphy, 1988; Osherson & Smith, 1981)。這些能力并不是相互獨立的;相反,它們相互關聯并相互作用(Solomon et al., 1999),隨著對底層概念的掌握而自然獲得。回到前面提到的新型兩輪車輛的例子,一個人可以繪制出一系列新的實例(圖1B-ii),將概念分解為其最重要的組成部分(圖1B-iii),甚至可以通過組合熟悉的概念來創造一個新的復雜概念(圖1B-iv)。同樣,正如在《冰封王座》的背景下所討論的,已經掌握了游戲基礎的玩家可以靈活地將其知識應用于無限多的《冰封王座》變體(第3.2節)。獲得的知識支持對新任務和新需求的重新配置,例如修改游戲的目標,以在獲得盡可能少的分數的情況下生存,或者高效地將規則教給朋友。
這種豐富性和靈活性表明,將學習視為模型構建比將學習視為模式識別是一個更好的隱喻。此外,人類的單次學習能力表明,這些模型是基于豐富的領域知識構建的,而不是從一張白紙開始(Mikolov, Joulin, & Baroni, 2016; Mitchell, Keller, & Kedar-cabelli, 1986)。相比之下,深度學習的許多最新進展都在模式識別問題上,包括物體識別、語音識別和(無模型的)視頻游戲學習,這些問題利用了大型數據集和很少的領域知識。
最近也有一些關于其他類型任務的研究,包括學習圖像的生成模型(Denton, Chintala, Szlam, & Fergus, 2015; Gregor, Danihelka, Graves, Rezende, & Wierstra, 2015)、生成標題(Karpathy & Fei-Fei, 2015; Vinyals, Toshev, Bengio, & Erhan, 2014; K. Xu et al., 2015)、問答(Sukhbaatar, Szlam, Weston, & Fergus, 2015; Weston, Chopra, & Bordes, 2015)以及學習簡單算法(Graves, Wayne, & Danihelka, 2014; Grefenstette, Hermann, Suleyman, & Blunsom, 2015);我們在第6.1節中討論了問答和學習簡單算法。然而,至少對于圖像和標題生成來說,這些任務大多是在與人類從少量數據集中進行泛化的驚人能力相悖的大數據環境中研究的(盡管Rezende, Mohamed, Danihelka, Gregor, & Wierstra, 2016提出了一個針對字符挑戰的深度學習方法)。此外,學習能夠毫不費力地泛化到未訓練的新任務的神經網絡風格的表征一直很困難(參見Davis & Marcus, 2015; Marcus, 1998, 2001)。為了快速學習更強大、更通用的表征,可能還需要哪些額外的要素?
一個相關的案例研究來自我們自己在字符挑戰方面的研究(第3.1節;Lake, 2014; Lake, Salakhutdinov, & Tenenbaum, 2015)。人類和各種機器學習方法在從世界各字母表中學習新的手寫字符方面進行了比較。除了評估幾種深度學習模型外,我們還開發了一種使用貝葉斯程序學習(BPL)的算法,該算法將概念表示為簡單的隨機程序——也就是說,當執行時,這些結構化的程序可以生成一個概念的新實例(圖5A)。這些程序使模型能夠表達關于原始數據是如何形成的因果知識,并且概率語義允許模型處理噪聲并執行創造性任務。通過隨機原始概念的組合重用,這些原始概念可以以新的方式組合以創造新概念,從而實現跨概念的結構共享。
請注意,我們在這里對“模型”一詞進行了重載,既指代整個貝葉斯程序學習(BPL)框架(這是一個生成模型),也指代它從圖像中推斷出的個體概率模型(或概念),用于表示新的手寫字符。這里存在一個模型的層級結構:一個更高層次的程序生成不同類型的概念,而這些概念本身也是程序,可以被執行以生成某個概念的實例。在這里,將學習描述為“快速模型構建”指的是BPL構建生成模型(低層次程序),這些模型能夠生成某個概念的實例(圖5B)。
學習這種形式的模型使得BPL能夠在具有挑戰性的單次分類任務中達到人類水平的表現(圖1A-i),并且超越了當前的深度學習模型,例如卷積網絡(Koch, Zemel, & Salakhutdinov, 2015)。7 BPL學到的表征還使其能夠以其他更具創造性、更類似人類的方式進行泛化,這一點通過“視覺圖靈測試”得到了評估(例如,圖5B)。這些任務包括生成新的實例(圖1A-ii和圖5B)、將物體分解為其基本組成部分(圖1A-iii),以及以特定字母表的風格生成新概念(圖1A-iv)。以下部分將討論對這一框架的成功至關重要的三個主要要素——組合性、因果性和學會學習——并且我們認為這些要素對于更廣泛地理解人類學習作為快速模型構建非常重要。盡管這些要素自然地適合于BPL或概率程序歸納框架,但它們也可以被整合到深度學習模型和其他類型的機器學習算法中,我們將在下面更詳細地討論這些前景。
4.2.1 組合性
組合性是一個經典的概念,即可以通過組合原始元素來構建新的表征。在計算機編程中,原始函數可以組合在一起以創建新函數,而這些新函數又可以進一步組合以創建更復雜的函數。這種函數層級結構為描述高級函數提供了一種高效的描述方式,就像用于描述復雜物體或場景的部件層級結構一樣(Bienenstock, Geman, & Potter, 1997)。組合性也是生產力的核心:可以從有限的原始元素集合中構建無限數量的表征,就像人類的思維可以產生無限多的想法、說出或理解無限多的句子,或者從看似無限的可能性空間中學習新概念一樣(Fodor, 1975; Fodor & Pylyshyn, 1988; Marcus, 2001; Piantadosi, 2011)。
組合性在人工智能和認知科學中都產生了廣泛的影響,尤其是在與物體識別、概念表征和語言相關的理論中。在這里,我們以物體概念的組合性表征為例進行說明。結構描述模型將視覺概念表示為部件和關系的組合,這為構建新概念的模型提供了強大的歸納偏差(Biederman, 1987; Hummel & Biederman, 1992; Marr & Nishihara, 1978; van den Hengel et al., 2015; Winston, 1975)。例如,圖1B中的新型兩輪車輛可以被表示為兩個輪子通過一個平臺連接,平臺支撐著一個柱子,柱子上裝有車把等。部件本身也可以由子部件組成,形成一個“部件整體關系”的層級結構(G. A. Miller & Johnson-Laird, 1976; Tversky & Hemenway, 1984)。在新型車輛的例子中,部件和關系可以從現有的相關概念(如汽車、滑板車、摩托車和獨輪車)中共享和重用。由于部件和關系本身是先前學習的產物,它們促進新模型構建的過程也是學會學習的一個例子——這是我們在下面討論的另一個要素。盡管組合性和學會學習自然地結合在一起,但也存在一些依賴于先前學習較少的組合性形式,例如霍夫曼和里奇(Hoffman & Richards, 1984)提出的自下而上的基于部件的表征。
學習新手寫字符的模型也可以以類似的方式實現。手寫字符本質上是組合性的,其中的部件是筆畫,關系描述了這些筆畫是如何相互連接的。Lake、Salakhutdinov和Tenenbaum(2015)使用額外的組合性層次來建模這些部件,其中部件是由更簡單的子部件運動組合而成的復雜運動。通過以新穎的方式組合部件、子部件和關系,可以構建新的字符(圖5)。組合性也是構建字符之外的其他類型符號概念的核心,例如,通過音素的新組合可以創造出新的口語單詞(Lake, Lee, Glass, & Tenenbaum, 2014),或者通過更原始的身體運動的組合可以創造出新的手勢或舞蹈動作。
對于《冰封王座》的高效表征也應該具有類似的組合性和生產力。游戲中的一個場景是由各種類型的物體組成的,包括鳥、魚、冰塊、雪屋等(圖2)。明確表示這種組合性結構既更經濟,也更有助于泛化,正如之前關于面向對象的強化學習的研究所指出的那樣(Diuk, Cohen, & Littman, 2008)。場景中在不同位置出現了許多相同物體的重復,因此將每個物體表示為具有相同屬性的相同物體的實例對于游戲的高效表征和快速學習至關重要。此外,新的關卡可能包含不同數量和組合的物體,此時使用直覺物理和直覺心理學作為“粘合劑”的物體的組合性表征將有助于實現這些關鍵的泛化(圖2D)。
深度神經網絡至少有一種有限的組合性概念。經過物體識別訓練的網絡在其更深層中編碼類似部件的特征(Zeiler & Fergus, 2014),新的物體類型呈現時可以激活特征檢測器的新組合。同樣,經過《冰封王座》訓練的DQN可能學會用相同的特征來表示同一物體的多個副本,這得益于卷積神經網絡架構的不變性屬性。最近的研究展示了如何使這種類型的組合性更加明確,其中神經網絡可以用于在更結構化的生成模型(包括神經網絡和三維場景模型)中進行高效推理,這些模型明確表示場景中物體的數量(Eslami et al., 2016)。除了部件、物體和場景固有的組合性之外,組合性在目標和子目標的層面上也很重要。關于分層DQN的最新研究表明,通過為DQN提供明確的物體表征,然后基于到達這些物體來定義子目標,DQN可以通過組合這些子目標來實現更大的目標,從而學會玩獎勵稀疏的游戲(如《蒙特祖瑪的復仇》)(Kulkarni, Narasimhan, Saeedi, & Tenenbaum, 2016)。
我們期待看到這些新思想繼續發展,可能會在深度神經網絡中提供更豐富的組合性概念,從而實現更快、更靈活的學習。為了捕捉人類思維的全部組合性,模型必須包括對物體、身份和關系的明確表征——同時在理解新配置時保持一種“一致性”的概念。一致性與我們接下來要討論的下一個原則——因果性——有關。
4.2.2 因果性
在概念學習和場景理解中,因果模型表示產生感知觀察的假設性現實世界過程。在控制和強化學習中,因果模型表示環境的結構,例如建模狀態到狀態的轉換,或者行動/狀態到狀態的轉換。
利用因果性的概念學習和視覺模型通常是生成性的(而不是判別性的;見表1中的術語表),但并非所有生成模型也是因果性的。盡管生成模型描述了生成數據的過程,或者至少為可能的數據點分配了一個概率分布,但這一生成過程可能并不類似于數據在現實世界中的產生方式。因果性指的是那些在抽象層面上類似于數據實際產生方式的生成模型的子類。雖然深度信念網絡(Hinton, Osindero, & Teh, 2006)或變分自編碼器(Gregor, Besse, Rezende, Danihelka, & Wierstra, 2016; Kingma, Rezende, Mohamed, & Welling, 2014)等生成神經網絡可能生成引人注目的手寫數字,但它們處于“因果性譜”的一端,因為生成過程的步驟與實際書寫過程的步驟幾乎沒有相似之處。相比之下,使用貝葉斯程序學習(BPL)的字符生成模型確實類似于書寫的步驟,盡管還可以構建更符合因果性的模型。
因果性在感知理論中具有影響力。“通過合成進行分析”的感知理論認為,通過建模生成感知數據的過程,可以更豐富地表示感知數據(Bever & Poeppel, 2010; Eden, 1962; Halle & Stevens, 1962; Neisser, 1966)。將數據與其因果來源聯系起來,為感知和學習提供了強大的先驗知識,也為以新的方式和新的任務進行泛化提供了更豐富的基礎。這種方法的典型例子是語音和視覺感知。例如,Liberman, Cooper, Shankweiler和Studdert-Kennedy(1967)認為,語音感知的豐富性最好通過反轉聲道運動層面的生成計劃來解釋,以解釋大量的聲學變異性以及相鄰音素之間線索的融合。正如我們所討論的,因果性并不一定要像語音的運動理論所提出的那樣,是實際生成機制的字面反轉。對于學習手寫字符的BPL來說,因果性是通過將概念視為運動程序,或者生成概念實例的抽象因果描述,而不是具體肌肉的具體配置來實現的(圖5A)。因果性是該模型在僅看到一個新概念的單個實例后成功分類和生成新實例的重要因素(Lake, Salakhutdinov, & Tenenbaum, 2015)(圖5B)。
因果知識也被證明會影響人們如何學習新概念;向學習者提供不同類型的因果知識會改變他們的學習和泛化方式。例如,一個類別的特征所基于的因果網絡結構影響人們如何對新實例進行分類(Rehder, 2003; Rehder & Hastie, 2001)。同樣,與字符挑戰相關的是,人們學習書寫一個新手寫字符的方式會影響后續的感知和分類(Freyd, 1983, 1987)。
為了說明因果性在學習中的作用,概念表征被比作直覺理論或解釋,提供了讓核心特征粘合在一起的“粘合劑”,而其他同樣適用的特征則被忽略(Murphy & Medin, 1985)。以Murphy和Medin(1985)的例子為例,由于概念的底層因果作用,特征“可燃”與木材的聯系比與貨幣的聯系更緊密,盡管這一特征對兩者同樣適用;這些因果作用源于物體的功能。因果性也可以通過將一些特征與更深層次的共同原因聯系起來,將它們粘合在一起,解釋為什么某些特征(如“能飛”“有翅膀”和“有羽毛”)會在物體之間共同出現,而其他特征則不會。
除了概念學習之外,人們還通過構建因果模型來理解場景。人類水平的場景理解涉及構建一個解釋感知觀察的故事,利用并整合直覺物理、直覺心理學和組合性的要素。如果沒有這些要素,以及將它們聯系在一起的因果“粘合劑”,感知可能會導致揭示性的錯誤??紤]由深度神經網絡生成的圖像標題(圖6;Karpathy & Fei-Fei, 2015)。在許多情況下,網絡正確識別了場景中的關鍵物體,但未能理解起作用的物理力量、人的心理狀態或物體之間的因果關系——換句話說,它沒有構建數據的正確因果模型。
在深度神經網絡及相關方法學習因果模型方面已經取得了一些進展。Lopez-Paz, Muandet, Sch?lkopf和Tolstikhin(2015)引入了一個判別性的、數據驅動的框架,用于從示例中區分因果方向。盡管它在各種因果預測任務中優于現有方法,但尚不清楚如何將這種方法應用于推斷豐富的潛在因果變量層級結構,這是《冰封王座》挑戰和(尤其是)字符挑戰所需要的。Graves(2014)使用循環神經網絡學習連筆書寫的生成模型,該網絡在書寫數據上進行訓練。盡管它以各種風格合成了令人印象深刻的書寫示例,但它需要大量的訓練語料庫,并且尚未應用于其他任務。DRAW網絡使用帶有注意力窗口的循環神經網絡進行手寫數字的識別和生成,每次生成圖像的一個有限的圓形區域(Gregor等人,2015)。DRAW的一個更近期的變體被應用于僅從一個訓練示例生成新手寫字符的示例(Rezende等人,2016)。盡管該模型展示了令人印象深刻的泛化能力,能夠超越訓練示例進行合理推測,但在其他情況下,它的泛化范圍過于廣泛,且并不特別像人類。目前還不清楚它是否能夠通過Lake, Salakhutdinov和Tenenbaum(2015)中的任何“視覺圖靈測試”(圖5B),盡管我們希望DRAW風格的網絡能夠繼續擴展和豐富,并能夠通過這些測試。
將因果性納入其中可能會極大地改進這些深度學習模型;這些模型是在沒有關于字符實際產生方式的因果數據的情況下進行訓練的,并且沒有任何激勵去學習真實的因果過程。注意力窗口只是用筆繪制的真實因果過程的一個粗糙近似,而在Rezende等人(2016)的研究中,注意力窗口根本不像筆,盡管可以納入一個更準確的筆模型。我們預計,通過納入額外的因果性、組合性和層級結構(并繼續利用接下來描述的學會學習),這些順序生成神經網絡能夠進行更敏銳的單次推斷——以應對完整的字符挑戰為目標——這可能會導致一種更計算高效且更符合神經科學基礎的手寫字符BPL模型的變體(圖5)。
《冰封王座》的因果模型將不得不更加復雜,將物體表征整合在一起,并用直覺物理和直覺心理學來解釋它們之間的相互作用,就像生成游戲動態并最終生成像素圖像幀的游戲引擎一樣。推理是反轉這種因果生成模型的過程,將原始像素解釋為物體及其相互作用,例如主體踏上冰塊使其失效,或者螃蟹將主體推入水中(圖2)。深度神經網絡可以在兩個方面發揮作用:作為自下而上的提議者,使結構化生成模型中的概率推理更加可行(第4.3.1節),或者如果具備正確的要素集合,也可以作為因果生成模型本身。
4.2.3 學會學習
當人類或機器做出的推斷遠遠超出數據本身時,強大的先驗知識(或歸納偏差或約束)一定在彌補這種差距(Geman et al., 1992; Griffiths, Chater, Kemp, Perfors, & Tenenbaum, 2010; Tenenbaum, Kemp, Griffiths, & Goodman, 2011)。人們獲取這種先驗知識的一種方式是通過“學會學習”,這一術語由哈羅(Harlow, 1949)引入,與機器學習中的“遷移學習”“多任務學習”或“表征學習”密切相關。這些術語指的是通過先前或同時學習其他相關任務(或其他相關概念),加速學習新任務(或新概念)的方法。學習特定任務所需的強大先驗、約束或歸納偏差通常在一定程度上與其他相關任務共享。人們已經開發出一系列機制,以適應學習者在學習具體任務時的歸納偏差,并將這些歸納偏差應用于新任務。
在分層貝葉斯建模(Gelman, Carlin, Stern, & Rubin, 2004)中,多個具體概念共享一個關于概念的通用先驗,而這個先驗本身是在學習具體概念的過程中學到的(Salakhutdinov, Tenenbaum, & Torralba, 2012, 2013)。這些模型已被用于解釋人類在認知的許多領域(包括詞匯學習、因果學習以及物理和社交領域的直覺理論學習)中的學會學習的動態過程(Tenenbaum et al., 2011)。在機器視覺中,對于深度卷積網絡或其他構成最近識別系統核心的判別方法,學會學習可以通過在舊物體(或舊任務)的模型與新物體(或新任務)的模型之間共享特征來實現(Anselmi et al., 2016; Baxter, 2000; Bottou, 2014; Lopez-Paz, Bottou, Sch?lkopf, & Vapnik, 2016; Rusu et al., 2016; Salakhutdinov, Torralba, & Tenenbaum, 2011; Srivastava & Salakhutdinov, 2013; Torralba, Murphy, & Freeman, 2007; Zeiler & Fergus, 2014)。神經網絡也可以通過在一組相關任務上優化超參數(包括其權重更新規則的形式)來學會學習(Andrychowicz et al., 2016)。
盡管遷移學習和多任務學習已經是人工智能(尤其是深度學習)中的重要主題,但它們尚未導致能夠像人類一樣快速且靈活地學習新任務的系統。在深度網絡和其他機器學習方法中捕捉更接近人類的學會學習動態,可能會促進更強大的新任務和新問題的遷移。然而,為了獲得人類從學會學習中得到的全部好處,人工智能系統可能首先需要采用我們上面主張的更具組合性(或更像語言,見第5節)和因果性的表征形式。
我們可以在兩個挑戰問題中看到這種潛力。在Lake、Salakhutdinov和Tenenbaum(2015)提出的字符挑戰中,所有可行的模型都使用“預訓練”,在背景字母表集中對許多字符概念進行預訓練,以調整它們用于在測試字母表集中學習新字符概念的表征。但要表現良好,當前的神經網絡方法需要比人類或我們的貝葉斯程序學習方法更多的預訓練,而且它們仍然遠遠沒有解決字符挑戰。
我們不能確定人們在這個領域是如何獲得他們所擁有的知識的,但我們確實理解在貝葉斯程序學習(BPL)中這是如何工作的,我們認為人類可能也是類似的。BPL可以輕松地轉移到新概念,因為它學會了關于物體部件、子部件和關系的知識,捕捉了關于每個概念是什么樣的以及概念總體上是什么樣的學習。學會學習在分層生成過程的多個層次上發生至關重要。以前學到的原始動作和更大的生成片段可以被重用和重新組合,以定義新字符的新生成模型(圖5A)。通過學習典型生成模型內的典型變異性水平,進一步發生知識遷移;這提供了關于在看到一個新字符的單個實例時,應該在多大程度以及以何種方式泛化的知識,而單個實例本身不可能攜帶任何關于變異性的信息。BPL也可以從比目前更深層次的學會學習中受益:它利用的一些重要結構被內置到先驗中,而不是從背景預訓練中學習的,而人類可能會學習這些知識,最終一個類似人類的機器學習系統也應該如此。
在視覺和認知中學習許多新的物體模型時,人類也會發生類似的學會學習:考慮圖1B中的新型兩輪車輛,學會學習可以通過轉移以前學到的部件和關系(子概念,如輪子、馬達、車把、連接、由……驅動等)來運作,這些部件和關系組合性地重新配置以創建新概念的模型。如果深度神經網絡能夠采用類似組合性、分層和因果性的表征,我們預計它們可能會從學會學習中受益更多。
在《冰封王座》挑戰中,以及在視頻游戲更廣泛的情境中,表征的形式和學會學習的有效性之間存在著類似的相互依賴。人們似乎在多個層次上轉移知識,從低層次的感知到高層次的策略,在所有層次上利用組合性。最基本的,他們立即將游戲環境解析為物體、物體類型以及它們之間的因果關系。人們還理解,像這樣的視頻游戲有目標,這些目標通常涉及根據物體類型接近或避開物體。無論是孩子還是經驗豐富的游戲玩家,似乎都很清楚,與鳥和魚的互動將以某種方式改變游戲狀態,要么是好的,要么是壞的,因為視頻游戲通常會對這些類型的互動產生成本或獎勵(例如,死亡或得分)。這些類型的假設可能相當具體,并依賴于先驗知識:當北極熊首次出現在高級關卡中并追蹤代理的位置時(圖2D),一個細心的學習者肯定會避開它。根據關卡的不同,冰塊之間的距離可能相隔較遠(圖2A-C)或較近(圖2D),這表明代理可能能夠跨越某些間隔,但不能跨越其他間隔。通過這種方式,一般世界知識和以前的視頻游戲可能有助于在新情境中指導探索和泛化,幫助人們從一次錯誤中盡可能多地學習,或者完全避免錯誤。
在玩Atari游戲的深度強化學習系統中,遷移學習已經取得了一些令人印象深刻的成果,但它們仍然沒有接近人類學習新游戲的速度。例如,Parisotto等人(2016)提出了“演員模仿”算法,該算法首先通過觀看專家網絡玩游戲并嘗試模仿專家網絡的動作選擇和/或內部狀態來學習13款Atari游戲(每款游戲大約有四百萬幀的經驗,或每款游戲18.5小時)。然后,該算法可以比隨機初始化的DQN更快地學習新游戲:可能需要四到五百萬幀的學習才能達到的分數,現在可能在一到兩百萬幀的練習后就能達到。但從經驗來看,我們發現人類仍然可以在幾分鐘的練習后達到這些分數,所需的體驗遠遠少于DQN。
總之,表征與先前經驗之間的相互作用可能是構建學習速度與人類相當的機器的關鍵。在許多視頻游戲上訓練的深度學習系統本身可能不足以像人類一樣快速地學習新游戲。然而,如果這樣的系統旨在學習每個游戲的組合結構化的因果模型——建立在直覺物理和心理學的基礎之上——它就可以更高效地轉移知識,從而更快速地學習新游戲。
4.3 快速思考
前一節關注了如何從稀疏數據中學習豐富的模型,并提出了實現這種類似人類學習能力的要素。當考慮到感知和思考的速度——理解一個場景、產生一個想法或選擇一個動作所需的時間時,這些認知能力顯得更加驚人。一般來說,更豐富、更有結構的模型需要更復雜的(也更慢的)推理算法——類似于復雜模型需要更多數據一樣——這使得感知和思考的速度更加引人注目。
豐富的模型與高效的推理相結合,暗示了心理學和神經科學可以為人工智能提供有用的信息的另一種方式。它還表明了可以利用深度學習的成功之處的另一種方法,其中高效的推理和可擴展的學習是這種方法的重要優勢。本節討論了解決快速推理與結構化表征之間沖突的可能途徑,包括生成模型中的赫爾姆霍茲機器風格的近似推理(Dayan, Hinton, Neal, & Zemel, 1995; Hinton et al., 1995)以及無模型和基于模型的強化學習系統之間的協作。
4.3.1 結構化模型中的近似推理
分層貝葉斯模型在概率程序上運行(Goodman et al., 2008; Lake, Salakhutdinov, & Tenenbaum, 2015; Tenenbaum et al., 2011),能夠處理類似理論的結構和豐富的因果表征,然而,高效的推理面臨著巨大的算法挑戰。在整個程序空間上計算概率分布通常是不可行的,而且往往即使是找到一個高概率的程序也構成了一個不可行的搜索問題。相比之下,盡管在深度神經網絡中表示直覺理論和結構化因果模型并不自然,但最近的進展展示了基于梯度的學習在高維參數空間中的驚人有效性。對學習和推理的完整解釋必須說明大腦是如何在有限的計算資源下完成如此多的任務的(Gershman, Horvitz, & Tenenbaum, 2015; Vul, Goodman, Griffiths, & Tenenbaum, 2014)。
在概率機器學習中用于近似推理的流行算法已被提出作為心理學模型(見Griffiths, Vul, & Sanborn, 2012的綜述)。最突出的是,人們認為人類可以使用蒙特卡洛方法來近似貝葉斯推理,這種方法隨機地對可能的假設空間進行采樣,并根據這些樣本與數據和先驗知識的一致性來評估它們(Bonawitz, Denison, Griffiths, & Gopnik, 2014; Gershman, Vul, & Tenenbaum, 2012; T. D. Ullman, Goodman, & Tenenbaum, 2012; Vul et al., 2014)。蒙特卡洛采樣被用來解釋從兒童反應的變異性(Bonawitz et al., 2014)到句子處理中的花園路徑效應(Levy, Reali, & Griffiths, 2009)以及感知多穩態(Gershman et al., 2012; Moreno-Bote, Knill, & Pouget, 2011)等一系列行為現象。此外,我們開始理解這些方法如何在神經回路中實現(Buesing, Bill, Nessler, & Maass, 2011; Huang & Rao, 2014; Pecevski, Buesing, & Maass, 2011)。
盡管蒙特卡洛方法強大且具有漸近保證,但將其應用于像程序歸納和理論學習這樣的復雜問題是具有挑戰性的。當假設空間龐大且只有少數假設與數據一致時,如何在不進行窮舉搜索的情況下發現好的模型呢?在至少一些領域中,人們可能并沒有特別巧妙的解決方案來解決這個問題,而是與理論學習的全部組合復雜性作斗爭(T. D. Ullman et al., 2012)。發現新理論可能是緩慢且艱難的,認知發展的長期性以及以跳躍式(而非漸進適應)的方式進行學習是人類智力的特征,包括在發展過程中的發現和洞察(L. Schulz, 2012)、解決問題(Sternberg & Davidson, 1995)以及科學研究中的劃時代發現(Langley, Bradshaw, Simon, & Zytkow, 1987)。發現新理論也可能發生得更快——一個學習《冰封王座》規則的人可能會經歷一系列相對松散的“啊哈!”時刻:他們會發現跳到冰塊上會使冰塊變色,變色的冰塊會一塊一塊地建造雪屋,鳥會讓你失去分數,魚會讓你獲得分數,你可以通過犧牲一個雪屋部件來改變冰塊的方向,等等。這些“冰封王座理論”的小片段被組裝起來,形成了對游戲的因果理解,這一過程相對迅速,更像是一個有指導的過程,而不是蒙特卡洛推理方案中的任意提議。同樣,正如在字符挑戰中所描述的,人們可以通過類似的有指導的過程快速推斷出繪制新字符的運動程序。
在程序或理論學習發生得很快的領域,人們可能不僅使用歸納偏差來評估假設,還用來指導假設的選擇。L. Schulz(2012)曾提出,問題的抽象結構屬性包含了關于其解決方案的抽象形式的信息。即使不知道“太平洋最深處在哪里?”的答案,人們仍然知道答案必須是地圖上的一個位置。“林肯出生在哪一年?”的答案是“20英寸”,即使不知道正確答案,也可以先驗地排除這個答案。在最近的實驗中,Tsividis, Tenenbaum和Schulz(2015)發現,兒童可以利用一個領域的高級抽象特征來指導假設選擇,通過推理分布屬性(如種子與花朵的比例)和動態屬性(如因果之間的周期性或單調關系)(另見Magid, Sheskin, & Schulz, 2015)。
高效地從問題映射到可能答案的子集如何被學習呢?最近在人工智能領域的研究跨越了深度學習和圖形模型,試圖通過將概率推理計算“攤銷”到一個高效的前饋映射中來應對這一挑戰(Eslami, Tarlow, Kohli, & Winn, 2014; Heess, Tarlow, & Winn, 2013; A. Mnih & Gregor, 2014; Stuhlmüller, Taylor, & Goodman, 2013)。我們也可以將其視為“學習進行推理”,這與前一節討論的作為模型構建的學習是獨立的。這些前饋映射可以通過各種方式學習,例如使用配對的生成/識別網絡(Dayan et al., 1995; Hinton et al., 1995)和變分優化(Gregor et al., 2015; A. Mnih & Gregor, 2014; Rezende, Mohamed, & Wierstra, 2014)或最近鄰密度估計(Kulkarni, Kohli, Tenenbaum, & Mansinghka, 2015; Stuhlmüller et al., 2013)。攤銷的一個含義是,由于攤銷計算的共享,不同問題的解決方案將變得相關;Gershman和Goodman(2014)報告了人類推理相關性的證據。這種趨勢是深度學習模型與概率模型和概率編程潛在整合的一個途徑:訓練神經網絡以幫助在生成模型或概率程序中進行概率推理(Eslami et al., 2016; Kulkarni, Whitney, Kohli, & Tenenbaum, 2015; Yildirim, Kulkarni, Freiwald, & Te, 2015)。另一種潛在整合的途徑是通過可微編程(Dalrmple, 2016)——通過確保程序化的假設是可微的,從而可以通過梯度下降進行學習——這一可能性在總結部分(第6.1節)進行了討論。
4.3.2 基于模型和無模型的強化學習
V. Mnih等人(2015)引入的DQN使用了一種簡單的無模型強化學習形式,這種形式在深度神經網絡中允許快速選擇動作。確實有大量證據表明,大腦在簡單的聯想學習或辨別學習任務中使用類似的無模型學習算法(見Niv, 2009的綜述)。特別是,中腦多巴胺能神經元的階段性放電在定性(Schultz, Dayan, & Montague, 1997)和定量(Bayer & Glimcher, 2005)上與驅動無模型價值估計更新的獎勵預測誤差是一致的。
然而,無模型學習并不是全部。有相當多的證據表明,大腦也有一個基于模型的學習系統,負責構建環境的“認知地圖”,并利用它為更復雜的任務規劃動作序列(Daw, Niv, & Dayan, 2005; Dolan & Dayan, 2013)?;谀P偷囊巹澥侨祟愔悄艿囊粋€重要組成部分,它使人們能夠靈活地適應新任務和目標;這是前面各節討論的所有豐富模型構建能力作為行動指南的價值所在。正如我們在對《冰封王座》的討論中所論證的,可以設計出許多這種簡單視頻游戲的變體,這些變體除了獎勵函數外完全相同——也就是說,由相同的狀態-動作依賴轉換的環境模型所控制。我們推測,一個熟練的《冰封王座》玩家可以輕松地根據情況調整行為,幾乎不需要額外的學習,很難想象除了基于模型的規劃方法之外,還有其他方法可以做到這一點,這種方法允許環境模型可以模塊化地與任意新的獎勵函數組合,然后立即用于規...
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.