文:王智遠 | ID:Z201440
大語言模型,為什么要做大,小的不行嗎?
這些問題讓技術開發(fā)者、創(chuàng)業(yè)者,還有研究人員都很頭疼,作為一個商業(yè)記錄者,我也曾被各種觀點左右。怎么辦?
為了理清思路,決定系統學習這門學科。最近,我在學了中科院和清華大學的大模型系列研討課,收獲挺多;說到底,我們可以把問題分成三塊:大、語言、模型。如果能搞懂這三個問題,疑惑就解決了一半。
解答這些問題,說難也難,說不難也不難。難的是,得先做點“考古”工作。比如,要了解我們以前是怎么研究語言的,歷史上發(fā)生了什么。
不難的是,一旦理清了歷史脈絡,找到了關鍵問題的核心,答案就清楚了。所以,我把學到的知識梳理一下,從語言學的起源和發(fā)展、早期研究的方法,還有自然語言處理(NLP)的雛形三大方面,匯報給你。
01
從哪開始呢?就從80年前說起吧。你知道嗎?
語言學這個領域,其實起步挺晚的,大概是1900年左右才真正成型。在那之前,語言學只是人類學里的一個小分支。
說到這兒,你可能覺得有點復雜,又是語言學,又是人類學的,到底啥意思?簡單來說,人類學是研究人類是怎么來的,為什么會有「人」這個物種;而語言學,作為人類學的一部分,主要研究的是語言的歷史和變化。
大家都知道,現在有很多方言,比如河南話、東北話、北京話,但你知道這些語言的根源是什么嗎?
我們常提到的「漢藏語系」就是個好例子。歷史上,漢語和藏語其實是同根生的,它們都源自一個古老的語言體系。隨著時間的流逝,這些語言慢慢分化,形成了不同的方言和語種。
在1950年之前,語言學受到心理學的很大影響。
那時候,人們把語言看作是腦子里的一些想法,研究語言的方法也是按照行為主義(Behaviorism)來的。
什么是行為主義呢?
簡單講,人的心理和行為是可以通過觀察、測量研究的。比如:一個人聽到什么,做出什么反應,這些都是可以記錄下來的,所以有數據,有實際的經驗作為支持。
然而,由于技術限制,當時的研究沒法深入探討意識問題。意識在大腦里太復雜了,看不見也摸不著,所以人們覺得不應該研究那些沒有科學依據的意識行為。
于是,人的大腦就被看作是一個“黑盒”:你輸入什么,它就輸出什么。
所以,在行為主義的影響下,心理學研究形成了一個基本觀點:人的行為可以歸結為兩個因素:先天因素和后天因素。
先天因素是「遺傳」,我們?yōu)槭裁磿心撤N行為,可能是因為我們的父母、祖父母等遺傳給我們的;后天因素是環(huán)境影響,你現在的行為是從出生到現在,所有環(huán)境影響的反映,是你過去所有經歷的結果。
還有一點,當時很多學者認為,世界上有很多不同的文化,有的文化影響大,有的影響小。
比如,中國人說話的順序是一種方式,日本人說話的順序可能就不一樣;我們不應該研究文化,因為這種研究會引來文化爭論,
所以,初期有兩個觀點:人類學反對研究語法差異,否認大腦有「意識」和「思考」的機制。
02
當時語言學處于什么階段呢?一句話總結即:大家都在爭論語言學是什么,并試圖給它們下定義。
具體怎么理解呢?
我們可以從1907年到1911年出版的《普通語言學教程》說起。書的作者是費爾迪南·德·索緒爾(Ferdinand de Saussure)。
他在書里提出了兩個重要的概念:語言和言語,還給它們下了定義。他的研究主要關注兩個領域:音系學和詞法學。
音系學,就是研究語言里用哪些聲音作為基礎,這些聲音怎么組合成詞。比如,你說話時,一個詞是由很多聲音組成的,哪些音素構成了這個詞。
詞法學,就是研究這些聲音怎么組成詞語,以及為什么這樣的組合能表達特定的意思。
那么,當時最先進的語言學研究是什么樣的呢?這里要提到一個人,叫伯爾赫斯·弗雷德里克·斯金納,大家通常叫他B. F. 斯金納。
他主要研究心理學和教育,特別是怎么教小孩學習。
他的研究完全按照行為主義的方法來。經過二十多年的研究,他寫了本書叫《言語行為》,總結了自己在語言學上的發(fā)現;斯金納認為,人類的語言是一種條件反射。著名的巴甫洛夫實驗就是他理論。
舉個例子:
比如“Candy”這個詞意思是糖果。小孩怎么知道“Candy”是糖呢?因為每次他說“Candy”,就有人給他一塊糖。時間一長,他就學會了,只要說“Candy”就能得到糖。
斯金納覺得,語言的學習是通過外部的刺激和反應形成的,完全可以用行為主義的條件反射來解釋。
不過,斯金納的觀點很快就被推翻,推翻他的人是喬姆斯基(Noam Chomsky)。
1957年,喬姆斯基提出了完全不同的觀點,還寫了兩本書,一本叫《句法結構》,另一本叫《評言語行為》。他認為,我們不應該把大腦看作一個“黑盒”,而是應該從心智的角度出發(fā),研究大腦內部發(fā)生了什么。
并且,喬姆斯基舉了一個例子來說明他的觀點。他說:
每個人心里都有一個語言的深層結構。比如,不管你說什么語言,當你想表達“你想吃什么”時,大腦里生成的原始想法都遵循一種邏輯形式。
然后,這個想法會經過語言和文化的轉換,變成具體的語法形式,比如英語、漢語。這個過程發(fā)生在大腦里,而且可以用機械的方式建模,甚至可以用算法來描述。
簡單說,喬姆斯基認為,我們的心智可以用一些簡單的規(guī)則來描述。
因此,喬姆斯基創(chuàng)立了一門新的學科,研究如何用符號和規(guī)則來描述這種轉換;他的理論,徹底改變了語言學的研究方向。
03
這個學科叫什么呢?形式語言(Formal language)。
喬姆斯基的理論不光影響了語言學,還和當時的數理邏輯里的自動機理論結合,做出了不少新成果。
比如:
自動機理論和編譯原理里的一些概念,像喬姆斯基譜系、喬姆斯基范式、正則文法、上下文無關文法等等,都是喬姆斯基提出來的。
看到這里,你可能會有點迷惑:這都是什么呢?別急,我來簡單解釋一下。
喬姆斯基譜系是個分類系統,它把語言按復雜程度分了幾個等級。比如,最簡單的語言叫“正則語言”,復雜點的叫“上下文無關語言”,再復雜點的還有“上下文相關語言”等等。
范式呢,是一種特別的語法規(guī)則形式。簡單來說,它把句子結構簡化成一種標準格式,方便計算機處理。比如,一個句子可以拆分成更小的部分,每個部分都遵循固定的規(guī)則。
至于正則文法、上下文無關法,我們可以把它們想象成電話號碼或郵政編碼的格式,特點是規(guī)則簡單、比較固定,適合處理像“123-4567”這種有規(guī)律的內容。
但是編程語言里的語法規(guī)則,或自然語言里的句子結構就不同了;它們的規(guī)則更復雜,因為上下文可能有關系。比如,一個句子的意思可能取決于前面的內容,比如:“如果……那么……”
此外,喬姆斯基還提出了普遍文法的概念。什么是普遍文法呢?簡單來說,就像所有語言都有名詞和動詞,所有語言都有表達過去、現在和未來的方式。
喬姆斯基認為,所有人類語言都共享一套基本的規(guī)則。
不管是英語還是漢語,大腦里的語言規(guī)則都是一樣的,這些規(guī)則是先天就有的,因為只有人類能掌握語言,動物怎么訓練都不行。
所以,他認為這是人類大腦特有的,由基因決定的。
看到這,你可能覺得,他對計算機研究很透徹,其實他不是計算機科學家,他的研究主要集中在語言學和認知科學領域,但他的理論對計算機科學、編程語言、自然語言處理影響很大。
后來,從1950年開始,自然語言處理(NLP)的研究正式起步了。最開始,科學家們有了個新工具,叫做自動機。
從那時起,NLP研究用的是符號主義方法,符號主義是啥意思呢?就是通過人工構造規(guī)則來描述自然語言,然后用確定的邏輯推理來處理自然語言。這種方法催生了一個新的學科,叫做計算語言學。
今天,如果你做自然語言處理研究,可能會把成果發(fā)表在ACL上。ACL是啥?它是計算語言學學會(Association for Computational Linguistics)的縮寫,這個學會的會議是自然語言處理領域最重要的會議之一。
現在,我們發(fā)論文還是會往ACL、EMNLP上投。其實,這些會議的名字就是這么來的。
當時的科學家用符號主義方法研究后,很快就取得了一些進展,我們能實現一些簡單的自然語言處理功能。當時大家都很興奮,覺得自然語言處理似乎沒那么難。
于是,一些語言學家認為,未來可以像物理學家研究材料一樣研究語言,這樣就不會帶有人類的偏見、主觀看法,因為語言必須簡化成可操作的形式,才能用電子設備處理。
我們先把語言變成邏輯符號,然后寫一些公式來處理它,這樣就能避免人類的偏見;不過,今天我們發(fā)現,不僅語言學家不能這樣研究語言,就連物理學家用類似方法研究材料也遇到了瓶頸。
這是時代發(fā)展帶來的變化,不管怎樣,喬姆斯基老爺子成果還是很了不起的。
04
當時對NLP研究,最早的一個成功案例,歷史上叫它喬治城實驗,發(fā)生在1956年。
這個實驗怎么回事呢?
美國人搞了一個機器翻譯系統,想把俄語翻成英語。他們在IBM 701計算機上編程序。
那臺機器特別大,用紙帶輸入輸出,存儲量也小,只能處理幾百個詞,不過他們還是成功展示了這個系統,翻譯了大約60個句子,算是取得了初步成果,
從那時起,DARPA(美國國防高級研究計劃局)開始資助自然語言處理(NLP)的研究。
大家都覺得,像機器翻譯這樣的問題,大概十年就能搞定,語言差異不再是交流障礙。可是十年后,大家發(fā)現,還是只能做類似的東西。
1965年,出現了一個叫ELIZA的程序。它的目的是模擬心理治療過程。這個程序挺簡單,只有四百多行代碼。它通過一個解釋器運行一個三百多行的腳本,實現了聊天功能。
ELIZA的特點是不會沒話說,不管你說啥,它都能用一些通用句子回應你,總能和你聊下去。雖然最初是為心理治療設計的,但人們認為它是世界上第一個聊天機器人,效果還不錯。
甚至今天還有報道說,ELIZA在圖靈測試中的得分比GPT-3.5還高。不過,符號主義的研究方法并沒有取得預期的巨大成功。
為啥呢?
到了1966年左右,大家發(fā)現,十年過去了,機器翻譯問題還是沒解決;DARPA資助了很多研究,投入了大量資金,但進展不理想。DARPA派人去各個項目組檢查,看看錢花哪兒了,研究進展如何。結果發(fā)現,進展非常慢。
于是,1969年,人工智能研究的熱情開始減退。
DARPA的政策也變了,當時蘇聯很強,美國在冷戰(zhàn)中處于劣勢,又深陷越戰(zhàn),大部分資金都投入了登月計劃,和蘇聯競爭,剩下的錢用于AI研究,但AI研究看不到短期內的應用前景,所以資金減少了。
DARPA要求,以后資助的項目必須說明短期內對軍事的幫助,否則不再提供資金。從那時起,研究資金減少,AI研究進入了第一次寒冬。
所以,寒冬是怎么走出來的呢?
1980年代以后,研究方式變了,大家逐漸不再完全相信喬姆斯基的理論。雖然喬姆斯基的理論很好,一開始很多人相信并做相關研究,但后來發(fā)現,寫規(guī)則似乎永遠寫不完,效果也不理想。
于是,規(guī)則方法逐漸被拋棄,反對喬姆斯基的聲音開始出現;同時,計算機技術也在發(fā)展,微處理器和個人電腦開始普及。到了2000年左右,互聯網迅速發(fā)展,語料收集變得容易多了。
以前語料要靠人工輸入,現在可以從網上抓取數據。這些條件的變化,使得NLP研究的主流方法轉向了統計方法。
這就是自然語言處理(NLP)80年發(fā)展。總結四點:
一,人們經歷了從行為主義向認知科學的轉變;二,早期的自然語言處理依賴于符號主義、規(guī)則系統,后來轉向統計法;三,喬姆斯基對NLP做出了巨大貢獻;四,NLP的發(fā)展離不開計算機技術的進步。
一口氣說了這么多,不知道講得夠不夠清晰?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.