點擊上方藍(lán)字 世界科學(xué),再點右上角三顆痣 設(shè)為星標(biāo) ,從此你的世界多點科學(xué)~
在20世紀(jì)的80年代末和90年代初,神經(jīng)網(wǎng)絡(luò)算法取得了一些令人印象深刻的成果。不過后來它的發(fā)展停滯。到2008年,許多研究者已轉(zhuǎn)換思路,探求那些在數(shù)學(xué)表達(dá)上更加優(yōu)雅的方法,例如支持向量機(jī)。
如今的“AI教母”李飛飛彼時正于普林斯頓大學(xué)帶領(lǐng)團(tuán)隊開展神經(jīng)網(wǎng)絡(luò)研究項目,但他們并不試圖開發(fā)更好的神經(jīng)網(wǎng)絡(luò),甚至沒怎么琢磨神經(jīng)網(wǎng)絡(luò)本身,而是力求創(chuàng)建一個比以往任何數(shù)據(jù)集都大得多的新圖像數(shù)據(jù)集:1400萬張圖像,每張都標(biāo)著它所屬的類別,類別總數(shù)達(dá)到近22000個。這套數(shù)據(jù)集,也就是后來所謂的ImageNet,將顛覆傳統(tǒng)觀點,展現(xiàn)神經(jīng)網(wǎng)絡(luò)的威力。
李飛飛在她今年出版的回憶錄《我看見的世界:李飛飛自傳》中講述了ImageNet的故事。創(chuàng)建ImageNet的過程中,充滿來自朋友和同事的質(zhì)疑聲。導(dǎo)師認(rèn)為她的想法太過遠(yuǎn)大不可及;同行們懷疑當(dāng)時的機(jī)器學(xué)習(xí)算法能否從如此龐大的圖像集合中獲益。()
“ImageNet出現(xiàn)前,人們并不相信數(shù)據(jù),每個人都在用零星數(shù)據(jù)研究完全不同的AI范式。”
當(dāng)然,李飛飛不受負(fù)面聲音干擾,堅持開展項目長達(dá)兩年多。她的研究預(yù)算被耗盡了,研究生們的耐心也被耗盡了。等到2009年,她決定跳槽斯坦福大學(xué),并帶著幾名研究生和ImageNet項目前往加州。
2009年發(fā)布的ImageNet在最初幾年里并未引發(fā)太多關(guān)注。但到2012年,多倫多大學(xué)團(tuán)隊借助ImageNet數(shù)據(jù)集訓(xùn)練了一個神經(jīng)網(wǎng)絡(luò),并看到了它在圖像識別方面前所未有的優(yōu)異表現(xiàn)。該開創(chuàng)性AI模型因其主要作者亞歷克斯·克里切夫斯基(Alex Krizhevsky)而得名為AlexNet,從此開啟一直持續(xù)至今的深度學(xué)習(xí)熱潮。
若無ImageNet數(shù)據(jù)集,就不會有AlexNet的成功。當(dāng)然,如果沒有CUDA平臺,AlexNet也無法實現(xiàn)。
CUDA是英偉達(dá)公司開創(chuàng)并于2006年發(fā)布的一種并行計算平臺和編程模型,允許圖形處理單元,即GPU,被用于非圖形應(yīng)用程序。
綜上,我們可以說過去12年間的AI熱潮是由3位夢想家合力推動。
一位是多倫多大學(xué)計算機(jī)科學(xué)家杰弗里·辛頓(Geoffrey Hinton),一度受到了幾乎所有人的質(zhì)疑,卻仍數(shù)十年如一日地推廣神經(jīng)網(wǎng)絡(luò)。另一位是英偉達(dá)首席執(zhí)行官黃仁勛,很早就意識到GPU的用途不僅限于圖形處理。第三位就是李飛飛,她創(chuàng)建了一個圖像數(shù)據(jù)集,雖然大多數(shù)同事都覺得ImageNet大到離譜,但事實證明,它是展現(xiàn)在GPU上訓(xùn)練的神經(jīng)網(wǎng)絡(luò)潛力的關(guān)鍵。
神經(jīng)網(wǎng)絡(luò)可以超越其他機(jī)器學(xué)習(xí)方法
杰弗里·辛頓
神經(jīng)網(wǎng)絡(luò)是由數(shù)千、數(shù)百萬甚至數(shù)十億個神經(jīng)元組成的網(wǎng)絡(luò)。每個神經(jīng)元都是一個數(shù)學(xué)函數(shù),根據(jù)其輸入的加權(quán)平均值產(chǎn)生輸出。
假設(shè)你想創(chuàng)建一個可識別手寫十進(jìn)制數(shù)字(如上圖紅色方塊里的數(shù)字2)的網(wǎng)絡(luò)。此網(wǎng)絡(luò)會接收圖像中每個像素的強(qiáng)度值,并輸出10個可能數(shù)字(0、1、2、3、4、5、6、7、8、9)的概率分布。
要訓(xùn)練這樣的網(wǎng)絡(luò),首先應(yīng)使用隨機(jī)權(quán)重對它做初始化,然后在一系列示例圖像上運行它。對于每幅圖像,你通過強(qiáng)化可推動網(wǎng)絡(luò)走向正確答案(輸出“2”的概率很高)的連接以及削弱推向錯誤答案(輸出“2”的概率很低,輸出其他數(shù)字的概率很高)的連接來訓(xùn)練網(wǎng)絡(luò)。如果經(jīng)受了足夠多訓(xùn)練,當(dāng)模型看到“2”時,它就應(yīng)開始預(yù)測“2”的高概率。
1950年代末,科學(xué)家開始嘗試使用單層神經(jīng)元的基本網(wǎng)絡(luò)。但他們慢慢意識到這種簡單的網(wǎng)絡(luò)缺乏復(fù)雜計算所需的表達(dá)能力。
更深層的網(wǎng)絡(luò)(多層網(wǎng)絡(luò))頗具前景,但那是1960年代,沒人知道如何有效訓(xùn)練它們,因為改變多層網(wǎng)絡(luò)中某個參數(shù)可能對輸出產(chǎn)生復(fù)雜且不可預(yù)測的影響。
因此,當(dāng)辛頓于1970年代開啟職業(yè)生涯時,神經(jīng)網(wǎng)絡(luò)已不再受歡迎。辛頓想研究它們,但很難找到一個學(xué)術(shù)歸宿。1976年至1986年間,辛頓輾轉(zhuǎn)4家科研單位:薩塞克斯大學(xué)、加州大學(xué)圣地亞哥分校、英國醫(yī)學(xué)研究理事會的一個分支機(jī)構(gòu)以及卡內(nèi)基梅隆大學(xué)。
杰弗里·辛頓
在1986年發(fā)表的一篇里程碑式論文中,辛頓與加州大學(xué)圣地亞哥分校的兩位前同事戴維·魯梅爾哈特(David Rumelhart)和羅納德·威廉姆斯(Ronald Williams)合作,介紹了一種稱作反向傳播、可用于有效訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的技術(shù)。
他們的概念是,從網(wǎng)絡(luò)最后一層開始,由后往前運轉(zhuǎn)。對于最后一層中的每個連接,算法都會計算一個梯度——一個關(guān)于增加該連接強(qiáng)度會否推動網(wǎng)絡(luò)朝正確答案前進(jìn)的數(shù)學(xué)估計。根據(jù)這些梯度,算法會調(diào)整模型最后一層中的每個參數(shù)。
接著,算法將這些梯度反向傳播至倒數(shù)第二層。此處的關(guān)鍵創(chuàng)新是一個基于微積分中鏈?zhǔn)椒▌t的公式,用于根據(jù)下一層的梯度計算這一層的梯度。利用新得到的梯度,算法更新模型倒數(shù)第二層的每個參數(shù)。然后,梯度反向傳播至倒數(shù)第三層,再次重復(fù)整個過程。
算法在每一輪訓(xùn)練中只對模型做出很小改變。但隨著該過程在數(shù)千、數(shù)百萬、數(shù)十億甚至數(shù)萬億個訓(xùn)練樣本上重復(fù),模型將越來越準(zhǔn)確。
辛頓及其同事并非最先領(lǐng)悟反向傳播基本理念的人,但他們的論文推廣了此方法。人們意識到可以訓(xùn)練更深層次的網(wǎng)絡(luò)了,行業(yè)對神經(jīng)網(wǎng)絡(luò)的新一輪熱情點燃了。
1987年,辛頓進(jìn)入多倫多大學(xué),并開始吸引那些有意探究神經(jīng)網(wǎng)絡(luò)的年輕人來投。法國計算機(jī)科學(xué)家楊立昆(Yann LeCun)是最早加入者之一,在辛頓麾下做了一年博士后,后于1988年轉(zhuǎn)投貝爾實驗室。
辛頓的反向傳播算法幫助楊立昆訓(xùn)練出足夠深層次的模型,模型在手寫識別等現(xiàn)實任務(wù)中表現(xiàn)出色。到1990年代中期,楊立昆的卓越技術(shù)開始被銀行用于處理支票。2022年出版的《天才制造者》(Genius Makers)一書中如此寫道:“楊立昆的發(fā)明一度讀取了10%以上的存入美國銀行的支票。”
但當(dāng)楊立昆等學(xué)者嘗試將神經(jīng)網(wǎng)絡(luò)應(yīng)用于更大規(guī)模、更復(fù)雜的圖像時,結(jié)果并不理想。然后神經(jīng)網(wǎng)絡(luò)又失去了熱度,一部分研究人員轉(zhuǎn)向別的項目。
辛頓始終堅信神經(jīng)網(wǎng)絡(luò)可以超越其他機(jī)器學(xué)習(xí)方法,但他需要很多年才能獲得足夠數(shù)據(jù)和計算能力來證明自己的觀點。
把超級計算帶給大眾
黃仁勛
黃仁勛
每臺個人計算機(jī)的大腦都是中央處理器,即CPU。此類芯片被設(shè)計成按順序、一步一步執(zhí)行計算;這樣的模式對Windows和Office等傳統(tǒng)軟件來說好極了,不過有些視頻游戲需進(jìn)行大量計算,可能令CPU不堪重負(fù),例如某些游戲會每秒多次渲染三維世界。因此,游戲玩家要仰仗GPU來提高性能。
GPU內(nèi)部有許多執(zhí)行單元(本質(zhì)上是微型CPU),它們被封裝在單塊芯片上。游戲過程中,不同執(zhí)行單元繪制屏幕不同區(qū)域。相較于僅使用CPU,這種并行性可以實現(xiàn)更高的圖像質(zhì)量和幀率。
1999年,英偉達(dá)發(fā)明GPU,自此占據(jù)市場主導(dǎo)地位。到2000年代中期,英偉達(dá)首席執(zhí)行官黃仁勛認(rèn)為GPU內(nèi)部的強(qiáng)大計算能力不局限于游戲應(yīng)用,希望科學(xué)家將其用于天氣模擬或石油勘探等計算密集型任務(wù)。
2006年末發(fā)布的CUDA平臺允許程序員編寫所謂“內(nèi)核”(kernels),即被設(shè)計為能在單個執(zhí)行單元上運行的簡短程序。內(nèi)核允許將大型計算任務(wù)拆分為可并行處理的小塊。這使得某些類型的計算能比單獨使用CPU更快地完成。
不過CUDA發(fā)布時華爾街方面并不買賬。
黃仁勛把超級計算帶給大眾,大眾卻表現(xiàn)得好像他們不想要這玩意兒。
有媒體人這樣評論道:“英偉達(dá)在這種新芯片架構(gòu)上投入巨大。他們把數(shù)以十億計的美元砸向?qū)W術(shù)和科學(xué)計算領(lǐng)域一個不起眼的角落,一個市場體量小于他們投入量的角落。”
黃仁勛認(rèn)為,CUDA的存在將擴(kuò)大超級計算領(lǐng)域。但此觀點并未得到廣泛認(rèn)同,到2008年底,英偉達(dá)股價已下跌70%……
CUDA的下載量于2009年達(dá)到頂峰,之后3年間持續(xù)下滑。董事會成員擔(dān)心公司股價低迷會使他們成為掠奪式收購者的目標(biāo)。
黃仁勛在創(chuàng)建CUDA平臺時并未專門考慮人工智能或神經(jīng)網(wǎng)絡(luò)。但事實證明,反向傳播算法很容易分解成小塊,辛頓也很快意識到CUDA的潛力,因此訓(xùn)練神經(jīng)網(wǎng)絡(luò)成為CUDA的殺手級應(yīng)用。
2009年,辛頓團(tuán)隊使用CUDA平臺訓(xùn)練神經(jīng)網(wǎng)絡(luò)來識別人類語音,最終收獲令人驚訝的結(jié)果并在當(dāng)年晚些時候的一次會議上展示了它們。
后來辛頓聯(lián)系到英偉達(dá),表示自己已經(jīng)告訴一千名機(jī)器學(xué)習(xí)研究人員應(yīng)當(dāng)購買這家企業(yè)的顯卡,并希望對方贈送自己一張顯卡,但遭到拒絕。
盡管如此,辛頓與他的研究生,亞歷克斯·克里切夫斯基和伊爾亞·蘇茨克維(Ilya Sutskever),還是為AlexNet項目拿到了一對Nvidia GTX 580 GPU——每個GPU都有512個執(zhí)行單元,幫助兩個研究生能以比使用CPU快數(shù)百倍的速度訓(xùn)練神經(jīng)網(wǎng)絡(luò)。
借助神速計算,他們訓(xùn)練更大規(guī)模的模型,并在更多訓(xùn)練圖像上開展工作;此外,GPU也為處理龐大的ImageNet數(shù)據(jù)集貢獻(xiàn)力量。
AI三大基本要素的首次融合
李飛飛
李飛飛
在加州理工學(xué)院讀博期間,李飛飛建立了一個名為Caltech 101的數(shù)據(jù)集,它包括了歸屬101個類別的9000幅圖像。
這段經(jīng)歷讓她明白,計算機(jī)視覺算法往往在更大規(guī)模、更多樣化的訓(xùn)練數(shù)據(jù)集上表現(xiàn)更好。
不僅李飛飛自己的算法因Caltech 101訓(xùn)練而出類拔萃,其他學(xué)者也開始使用該數(shù)據(jù)集訓(xùn)練模型并相互比較訓(xùn)練效果。
Caltech 101成為計算機(jī)視覺領(lǐng)域的基準(zhǔn)。
2007年1月,李飛飛走上普林斯頓大學(xué)計算機(jī)科學(xué)教授的新崗位,并決定再搞個大的出來。
她著迷于視覺科學(xué)家歐文·比德曼(Irving Biederman)的一個估計,即普通人類可以識別大約30000種不同物體;那么,有無可能建立一個真正全面的圖像數(shù)據(jù)集,一個囊括人們在現(xiàn)實世界中經(jīng)常遇見的每一種物體的數(shù)據(jù)集?
普林斯頓大學(xué)的一位同事向李飛飛介紹了WordNet——一個試圖對14萬單詞作分類和整理的龐大數(shù)據(jù)庫。她給自己新建的數(shù)據(jù)集命名為ImageNet,并以WordNet作為選擇類別的起點。她排除了動詞、形容詞以及無形名詞(諸如“truth”),這樣就剩下一個包含22000個可數(shù)對象(如“ambulance”,又如“zucchini”)的列表。
李飛飛計劃采用與創(chuàng)建Caltech 101時相同的方法:通過谷歌的圖像搜索查找候選圖像,然后請人類驗證它們。Caltech 101數(shù)據(jù)集的工作耗費了她幾個月時間。而這一次,她需要更多幫助,于是招募了數(shù)十名本科生來幫她選擇和標(biāo)記圖像。
但李飛飛與其研究生鄧嘉計算發(fā)現(xiàn),即便針對標(biāo)記過程做出大量優(yōu)化(例如預(yù)先下載候選圖像以便學(xué)生立即查看),選擇并標(biāo)記數(shù)以百萬計的圖像需要至少18年時間。
亞馬遜幾年前推出的眾包平臺Amazon Mechanical Turk(簡稱AMT)拯救了該項目。
AMT平臺不僅成本支出比請普林斯頓本科生更低,還具備更強(qiáng)的靈活性和可擴(kuò)展性。借力AMT,李飛飛團(tuán)隊得以根據(jù)需求雇傭盡可能多的人力。
最終,李飛飛的實驗室用時兩年時間,“在財務(wù)緊張的情況下”完成ImageNet項目。(3名工作人員查看了最終數(shù)據(jù)集中的1400萬張圖片。)
2009年,李飛飛將成果提交給當(dāng)年在邁阿密舉行的計算機(jī)視覺和模式識別會議。論文被接收了,但沒得到她所期待的認(rèn)可。
李飛飛寫道:“ImageNet被降級為海報會議。這意味著我們不會在某個預(yù)定時間向報告廳內(nèi)的觀眾展示工作,而只能在會議樓層占個地兒擺幅海報來總結(jié)我們的工作,并希望路過者駐足問詢……”
為激發(fā)公眾興趣,李飛飛搞起了比賽。她意識到完整的數(shù)據(jù)集太過龐大,沒法發(fā)給數(shù)十名參賽者,于是創(chuàng)建了個小很多(但仍非常龐大)的數(shù)據(jù)集,其中包含1000個類別和140萬張圖片。
2010年舉辦的第一屆比賽引起了人們的極大興趣。共有11支隊伍參賽,獲勝者的作品基于支持向量機(jī),不過“它只比其他前沿成果略有進(jìn)步”。
第二屆ImageNet競賽吸引的參賽作品較上屆更少,獲勝的成果同樣圍繞支持向量機(jī),比之前輩略有提升。
李飛飛開始自我懷疑。“或許ImageNet對大多數(shù)算法而言太難了。連續(xù)兩年,老套的算法只表現(xiàn)出漸進(jìn)式的性能提升。如果ImageNet是一場豪賭,那么現(xiàn)在是時候思考我們已輸。”
然而,當(dāng)李飛飛等人于2012年不情愿地舉辦第三屆比賽時,故事迎來轉(zhuǎn)折。
辛頓與其學(xué)生克里切夫斯基等人成為首個提交基于深度神經(jīng)網(wǎng)絡(luò)的模型的團(tuán)隊。排行第五的參賽者都實現(xiàn)了高達(dá)85%的準(zhǔn)確率,比2011年冠軍高出10個百分點。
楊立昆
2012年獲勝者名單在意大利佛羅倫薩的歐洲計算機(jī)視覺大會上公布。當(dāng)時剛生完孩子的李飛飛本不想?yún)鎸lexNet在ImageNet數(shù)據(jù)集上取得的巨大成功,意識到那場會議無比重要無法錯過。
當(dāng)獲勝的克里切夫斯基結(jié)束講演后,同樣參會的楊立昆站起來稱AlexNet毫無疑問是“計算機(jī)視覺歷史上的轉(zhuǎn)折點”。這一轉(zhuǎn)折點證明了辛頓對神經(jīng)網(wǎng)絡(luò)的信念,也是對楊立昆生涯工作的終極肯定。
AlexNet是一種卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),而卷積神經(jīng)網(wǎng)絡(luò)由楊立昆于1980年末提出,用于識別支票上的手寫數(shù)字。事實上,AlexNet與楊立昆幾十年前的成果在架構(gòu)上幾乎無區(qū)別。只是前者規(guī)模大得多。
在1998年的一篇論文中,楊立昆描述了一個具有7層結(jié)構(gòu)和6萬個可訓(xùn)練參數(shù)的文檔識別網(wǎng)絡(luò)。AlexNet有8層,但這些層有6000萬個可訓(xùn)練參數(shù)。
1990年代初期的楊立昆無法訓(xùn)練這么大的模型,因為當(dāng)時沒有計算機(jī)芯片具備2012年GPU那般的處理能力。即使他成功打造一臺夠大的超級計算機(jī),他也沒足夠的圖像來正確訓(xùn)練它。
在谷歌和亞馬遜的AMT出現(xiàn)前的幾年里,收集這些圖像的成本非常高昂。這也是為何李飛飛圍繞ImageNet所做的工作會如此關(guān)鍵。
她并沒發(fā)明卷積網(wǎng)絡(luò),也沒搞清楚怎樣讓它們在GPU上高效運行,但她提供了讓大型神經(jīng)網(wǎng)絡(luò)充分發(fā)揮潛力所需的訓(xùn)練數(shù)據(jù)。
科技界立即意識到AlexNet的重要性。
辛頓與學(xué)生成立了一家殼公司,旨在被一家大型科技公司“收購”。幾個月后,谷歌以4400萬美元收購了它。接下來的十年間,辛頓一直為谷歌工作,同時保留著他在多倫多大學(xué)的學(xué)術(shù)職位。伊爾亞·蘇茨克維在谷歌干了幾年,后成為OpenAI聯(lián)合創(chuàng)始人。
另一方面,AlexNet也使英偉達(dá)的GPU成為訓(xùn)練神經(jīng)網(wǎng)絡(luò)的行業(yè)標(biāo)準(zhǔn)。
2012年,市場對英偉達(dá)的估值不到100億美元;眼下,市值超3萬億美元的他們是全球最有價值企業(yè)之一。如此高的估值主要源于對H100等針對訓(xùn)練神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化的GPU的巨大需求。
李飛飛在今年9月面對美國計算機(jī)歷史博物館的采訪時說道:“那一刻(楊立昆口中‘計算機(jī)視覺歷史上的轉(zhuǎn)折點’)對AI世界而言具有標(biāo)志性意義,標(biāo)志著現(xiàn)代人工智能3大基本要素的首次融合。第一個要素是神經(jīng)網(wǎng)絡(luò)。第二個要素是利用ImageNet的大數(shù)據(jù)。第三個要素是GPU計算。”
資料來源:
《世界科學(xué)》雜志版在售中 歡迎訂閱
點擊圖片或以下方訂閱方式選購
月刊定價15元/期
全年訂閱價180元
訂閱方式一:
“雜志鋪”訂閱有折扣~
訂閱方式二:
全國各地郵局訂閱。郵發(fā)代號:4-263
訂閱方式三:
機(jī)構(gòu)訂閱,請撥打
021-53300839;
021-53300838
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.