作者|藍字
原創(chuàng)首發(fā)|藍字計劃
“十年之內(nèi),數(shù)字計算機將成為國際象棋世界冠軍。”
這是1958年,第一代的AI研究者艾倫·紐厄爾(Allen Newell)和赫伯特·西蒙(Herbert Simon)做出的預言。
兩年前的1956年8月31日,一批來自計算機、數(shù)學、信息學等領域的頂尖科學家齊聚于美國東北部康涅狄格河河谷的達特茅斯學院,共同討論“人工智能”的定義。這次達特茅斯會議足足持續(xù)了一個月,直接促成了日后的“人工智能革命”。AI行業(yè)就此誕生。
| 達特茅斯會議的第一代AI研究者
在互聯(lián)網(wǎng)尚未誕生的年代,第一代AI研究者,就已經(jīng)暢想著AI革命會幫助人類解決數(shù)學、物理乃至日常生活的諸多難題,將人類社會帶向更美好的未來。
但AI的發(fā)展,并不像想象中那么順利,甚至有人將它與時髦卻無用的煉金術相提并論。
第一次AI浪潮,因為受制于計算機運算能力,陷入低谷;第二次AI浪潮,AI的發(fā)展反而遠遠落后于個人電腦的性能提升。AI行業(yè)兩度浮沉。
直到達特茅斯會議召開四十年后,超級計算機“深藍”才終于擊敗國際象棋世界冠軍卡斯帕羅夫。又過了差不多二十年, AlphaGo又擊敗贏得過14次世界冠軍的圍棋九段棋手李世石。AI席卷棋盤,碾壓人類的智力,卻又點亮人類希望——
從國際象棋到圍棋,還有更大、更復雜的棋盤讓AI馳騁嗎?
從脈沖星出擊
騰訊優(yōu)圖實驗室研究總監(jiān)汪鋮杰沒有想到,自己和團隊會跟天文學產(chǎn)生聯(lián)系。過去多年,優(yōu)圖實驗室的技術廣泛用于肢體動作識別、工業(yè)AI質(zhì)檢、人像分割及虛擬背景等。
2020年冬天,他和同事們開了一次頭腦風暴會,討論除了常規(guī)工業(yè)領域的應用以外,AI還能做哪些事情?
有同事說出了一個令在場大多數(shù)人感到陌生的詞:FAST。
FAST,全稱是Five-hundred-meter Aperture Spherical radio Telescope ,即500米口徑球面射電望遠鏡,坐落在貴州,是國家天文臺的重要觀測設備,外界一般稱之為“中國天眼”。自2016年正式投入運行以來,它已經(jīng)解鎖了不少世界級的成就:觀測到宇宙極端爆炸起源證據(jù)、發(fā)現(xiàn)了迄今為止唯一一例持續(xù)活躍的重復快速射電暴……
| FAST,又稱“中國天眼”
作為世界上靈敏度最高的望遠鏡,它帶回海量天文數(shù)據(jù),如何處理這些數(shù)據(jù),一直是個難題,僅脈沖星搜索這個項目的數(shù)據(jù)一周就約有500TB,大約相當于3000萬張信號圖。
這個量級的數(shù)據(jù),靠人工處理是不現(xiàn)實的。國家天文臺助理研究員潘之辰博士曾對著電腦看脈沖星信號圖,“是人的極限了,盯著屏幕,很使勁地看”,一天能看一萬多張。按照這個速度判別脈沖星信號圖,即使每天24小時不吃不喝不休息,也需要1年才能處理完。
| 脈沖星周期信號圖,圖源受訪者
如果有專門的AI技術來幫助天文科學家們識別脈沖星信號,效率或許有質(zhì)變。
汪鋮杰與實驗室的研究員們達成了共識——在選出來的十個項目中,F(xiàn)AST排在第一位。國家天文臺也盼望AI能帶來不一樣的東西。
“探星計劃”來了,這一次,等待AI的棋盤是宇宙。
但開局便逢難題。訓練AI優(yōu)化需要用大數(shù)據(jù)“喂”,F(xiàn)AST接收到的信號雖然是海量,但可用于學習的、真的脈沖星的量級也就在100個左右。
樣本太小,AI吃不飽,學不會。
優(yōu)圖實驗室的探星團隊采用了“半監(jiān)督學習”方法,先用小樣本訓練AI模型,再讓它去分類大量的未標注的數(shù)據(jù),反過來利用得到的結果繼續(xù)迭代優(yōu)化,就像人腦的學習模式,舉一反三。
| 優(yōu)圖的研究員在討論AI模型設計,圖源受訪者
噪聲干擾是另外一個問題。不同于以往做工業(yè)質(zhì)檢時收集到的較為干凈的數(shù)據(jù),只要錨定一個標準,即可做出判斷。脈沖星信號本身就不是千篇一律的,F(xiàn)AST收集到的海量數(shù)據(jù)中,不僅包含可以簡單過濾的無效數(shù)據(jù),還有宇宙發(fā)出的大量疑似脈沖星的各種噪聲。
還有就是效率。AI不僅需要能夠篩選出脈沖星,速度還必須快。根據(jù)優(yōu)圖實驗室的統(tǒng)計,想要找到一顆脈沖星,可能需要處理3000萬到1億張信號圖,沒有時間慢慢“欣賞”。
| 脈沖星動態(tài)譜信號圖,圖源受訪者
優(yōu)圖實驗室此前在工業(yè)AI質(zhì)檢項目上的經(jīng)驗起了作用。探星計劃中是在數(shù)以億計的圖片中,篩選出“正確”的答案——脈沖星;工業(yè)質(zhì)檢上,則是在良品率在99%以上的流水線上,找到“錯誤”的缺陷品。信號圖篩選和缺陷品檢測的底層技術是相通的。
在多方努力下,AI模型得以實現(xiàn)了多次迭代優(yōu)化,最終達到質(zhì)變。
對比之前,圖片數(shù)據(jù)處理速度提升了超過120倍——過去人工需要一年的工作,AI不到三天就能完成,數(shù)據(jù)處理的誤報率也下降了98%。
一年過后,“探星計劃”交出了首份成績單:騰訊優(yōu)圖實驗室已用“云+AI”幫助FAST新發(fā)現(xiàn)了22顆脈沖星,其中包含高速自轉的毫秒脈沖星7顆,具有間歇輻射現(xiàn)象的年老脈沖星6顆。
探星計劃的成功證明了AI用于基礎科學這條路是可行的,AI在宇宙這個棋盤上,又贏了。
被太空訓導的AI
探星計劃并不是產(chǎn)業(yè)力量與基礎科學的第一次結合。
1969年7月20日,距離尼爾·阿姆斯特朗(Neil Armstrong)邁出“我的一小步”約122米的月球上空,登月艙內(nèi)突然傳來警報。警報顯示,機載電腦可能即將停機,導致登月失敗,阿姆斯特朗和登月團隊必須在數(shù)秒鐘內(nèi)做出關鍵決定。
此時,38萬公里外的地球上,來自IBM的工程師迅速向NASA反饋了他們的判斷:機載電腦不會停機,登月可以繼續(xù)。阿姆斯特朗就此邁出了“人類一大步”。
NASA飛行指揮官吉恩·克蘭茲(Gena Kranz)毫不掩飾地指出,“如果沒有IBM 和他們所提供的系統(tǒng),我們就無法登上月球”。在上個世紀60年代,集成電路才剛剛出現(xiàn)不久,無論是最初的真空管計算機,還是后來的晶體管計算機,對于登月任務來說都算得上“龐然大物”。
| 上個世紀60年代的計算機
計算機小型化成為了登月的必然需求。當時的計算機巨頭IBM,派出了4000名工程師、研究員、科學家,編寫了500萬行代碼,從軟件到硬件上解決了這一難題。
在此之后,第一部大量生產(chǎn)的個人電腦Datapoint 2200出現(xiàn),第一臺商用筆記本電腦IBM 5100出現(xiàn),人類社會迅速進入了個人電腦的時代。
沒有這一次產(chǎn)業(yè)與基礎科學結合的嘗試,很難說家用電腦的普及還要晚多久。
在尋找脈沖星過程中,也讓優(yōu)圖實驗室收獲良多。AI要準確判斷數(shù)十億計的海量圖片數(shù)據(jù),這倒逼工程師對AI性能做更極致的優(yōu)化。另外,在構建AI模型中涉及到的無監(jiān)督、異常檢測、主動學習的這些技術,都來自對實踐經(jīng)驗的改進。這些優(yōu)化與積累最終都會成為可以復用的經(jīng)驗,又重新用于其他行業(yè)。
當然,產(chǎn)業(yè)力量與基礎科學可以做到的事情,不止是天文,還有更多。
科學家的高空纜車
事實上,AI最早進入的基礎科學領域是生物學。
一個簡單的蛋白質(zhì)包含了數(shù)百個氨基酸,其空間結構的可能性就高達10的300次方。對于海量信息的處理,恰恰是AI的拿手好戲。斯坦福大學研究團隊今年就利用AI技術將DNA測序的速度提升到了5小時,比早前14個小時的記錄縮短了超過一半。相較于此前花費數(shù)十億美元的人類基因組計劃,如今它的成本僅需3萬美元。
| AI測序得出的DNA結構
2009年,威爾士亞伯大學的羅斯·金(Ross King)曾打造了一臺“機器人科學家”亞當,與以往由研究人員來設計實驗機器作為輔助不同,亞當可以根據(jù)算法自行生成實驗假設,并利用機身設備進行實驗。
它曾被用于檢驗酵母菌不同DNA片段對最終生成酵母酶的影響——在遠超人類科學家的一天1000次試驗的速度下,亞當很快發(fā)現(xiàn)了三個基因與酵母酶的關聯(lián),其中一組被人類科學家復現(xiàn)驗證。金教授的團隊還研發(fā)了一臺機器人“夏娃”,利用AI跑實驗假說和數(shù)據(jù),加快新藥物的研究,比如治療瘧疾和其他被忽視的熱帶疾病的藥物。
| 亞當可以利用機身設備自動完成實驗
識別昆蟲也是AI的拿手好戲。果蠅由于染色體少,突變型多,易培育,是研究遺傳和演化的相關實驗中最常見的模式物種。但果蠅科內(nèi)的已描述物種超過4000個,識別起來有一定難度,實驗員們需要用顯微鏡拍下來對不同的果蠅分類。直到AI自動識別軟件的加入,實驗員拿手機拍張照片就能完成同樣的工作。
在化學界,格拉斯哥大學的化學家李·克羅寧(Lee Cronin)在2018年也設計了一個以AI為核心的自動化實驗設備。AI會在虛擬空間隨即合成任意化學物質(zhì),再通過AI連接的真實設備嘗試合成,最后還會有驗證、修訂實驗的過程。研究人員希望,這個AI能幫助加速對生命誕生過程的探索。
還有數(shù)學。
在前不久的世界人工智能大會上,著名數(shù)學家丘成桐就舉了一個例子:數(shù)學界有一個很出名的問題,就是有限群分類的問題。有限分類由很多數(shù)學家共同合作完成,但是整篇文章有幾千頁紙的證明,100頁的證明還可以勉強念完,但是幾千頁紙的證明很難完成。丘成桐認為,人工智能可以在設計算法模型幫忙了解這個證明有沒有缺憾。
他甚至期待,“人工智能能夠幫我們了解兩個不同的學科,讓人類能夠結合起來,產(chǎn)生一個新的學科”。
甚至,包括古文字學。
自從1899年金石學家王懿榮在河南安陽發(fā)現(xiàn)甲骨文以來,全世界陸續(xù)發(fā)現(xiàn)的殷商甲骨文已經(jīng)在5000個字左右,但真正被釋讀出來的字數(shù)僅在1500-2000字之間,連已經(jīng)破譯的甲骨文中,也有一批字的解釋存在爭議。
| 甲骨文的識別與破譯仍是一個難題
以至于2017年,中國文字博物館甚至斥巨資,以“破譯單個甲骨文獎勵10萬元”的天價,懸賞一批總量近3500字需要釋讀的疑難甲骨文。
優(yōu)圖實驗室的新目標之一,就是和古文字學家們,一同識別出更多新的甲骨文。
AI就像一臺永不疲倦的高空纜車,讓越來越多的科學家得以攀上一座座原本難以企及的山峰。
能給人類生活帶來什么?
今年4月開始,廣東珠海金灣區(qū)的18個河涌上,多了一個個瞄準水面的攝像頭。
它們是目前正在落地的AI環(huán)保監(jiān)管識別系統(tǒng)的重要組成部分。水面上的漂浮物,無論是塑料瓶、泡沫箱,還是樹木殘枝,系統(tǒng)都會自動識別并一一給予標注,并且可以實現(xiàn)24小時“自動值守”。
| AI正對漂浮物進行識別,圖片來源:公眾號“珠海金灣”
通過視頻系統(tǒng)的AI智能算法,攝像頭還具備了主動識別水體顏色變化、異常活動等環(huán)境污染問題和隱患,還能自動生成證據(jù)鏈、視頻、截圖等證據(jù)信息。
自上線以來,系統(tǒng)已經(jīng)識別到4049次水污染風險因素,包括3568次漂浮物污染、474次異常人員活動以及7次水質(zhì)渾濁事件。
這是為了解決以往城市水體治理中的滯后性與被動性的一次嘗試。十四五規(guī)劃中,珠海的目標是地表水考核斷面水質(zhì)優(yōu)良比例需由 2019 年的 66.7%上升為 100%。AI的加入,帶來了加速達成目標的可能。
用AI機器人輔助人工垃圾分類,以避免環(huán)衛(wèi)工人受傷;監(jiān)測企業(yè)的廢氣、廢水排放情況,以預見污染風險、跟蹤隱患整改;智能交通燈,以緩解城市交通擁擠的難題......AI可以讓我們的城市變得更好。
| 麻省理工的垃圾分類AI
與此同時,AI也開始在不同行業(yè)嘗試落地。
前面提到過工業(yè)質(zhì)檢AI,知名顯示屏生產(chǎn)商華星光電便利用這一技術開發(fā)出自動缺陷分類項目,AI識別速度相比人工提升了3-4倍,還能晝夜不停地在生產(chǎn)線上隨時發(fā)現(xiàn)殘次面板,得以節(jié)省了1000萬元的成本。
醫(yī)學方面,中山大學附屬第一醫(yī)院、廣東省婦幼保健院等全國100多家醫(yī)院已經(jīng)開始使用超聲AI智能化系統(tǒng)。它可以在產(chǎn)前篩查作出判斷,避免嚴重出生缺陷兒的出生,保障孕婦健康和胎兒的正常發(fā)育。類似的AI醫(yī)學影像分析、癌癥篩查,也在嘗試克服疲勞對人工診斷的影響,提高準確率。
這和汪鋮杰想看到的未來更接近了,“我們希望能夠看到AI技術在各行各業(yè)里面的應用和落地能力,而且是能夠?qū)崒嵲谠诘臑槟骋粋€行業(yè)帶來比較實質(zhì)性的變化”。
探星計劃如今的新目標,是開啟對M31仙女座星云的射電信號處理,這也是天文界首次對該星系觀測的射電信號進行完整處理和探測。
| M31仙女座星系
除了甲骨文,優(yōu)圖視覺AI的新目標還有“農(nóng)作物病蟲害AI識別項目”——這又是一次新的跨界。
這很像對第一次工業(yè)革命精神的致敬——從生活與生產(chǎn)場景中提煉科學,最終反哺社會。馬德堡半球?qū)嶒炞C明了真空的存在,波義耳給出了波義耳定律,他的助手發(fā)明了蒸汽蒸煮器,瓦特改良了蒸汽機,尼古拉·卡諾又在前人的基礎上讓熱力學成為了現(xiàn)代科學的標志。
AI普適化過程中與人的結合、互動、突破,可能帶來人類文明的又一次技術革命。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.