網易首頁 > 網易號 > 正文申請入駐

NLP的早期發(fā)展里程碑

2025-01-04 08:45:40　來源: 智遠同學

北京舉報

分享至

文：王智遠 | ID:Z201440

大語言模型，為什么要做大，小的不行嗎？

這些問題讓技術開發(fā)者、創(chuàng)業(yè)者，還有研究人員都很頭疼，作為一個商業(yè)記錄者，我也曾被各種觀點左右。怎么辦？

為了理清思路，決定系統學習這門學科。最近，我在學了中科院和清華大學的大模型系列研討課，收獲挺多；說到底，我們可以把問題分成三塊：大、語言、模型。如果能搞懂這三個問題，疑惑就解決了一半。

解答這些問題，說難也難，說不難也不難。難的是，得先做點“考古”工作。比如，要了解我們以前是怎么研究語言的，歷史上發(fā)生了什么。

不難的是，一旦理清了歷史脈絡，找到了關鍵問題的核心，答案就清楚了。所以，我把學到的知識梳理一下，從語言學的起源和發(fā)展、早期研究的方法，還有自然語言處理（NLP）的雛形三大方面，匯報給你。

從哪開始呢？就從80年前說起吧。你知道嗎？

語言學這個領域，其實起步挺晚的，大概是1900年左右才真正成型。在那之前，語言學只是人類學里的一個小分支。

說到這兒，你可能覺得有點復雜，又是語言學，又是人類學的，到底啥意思？簡單來說，人類學是研究人類是怎么來的，為什么會有「人」這個物種；而語言學，作為人類學的一部分，主要研究的是語言的歷史和變化。

大家都知道，現在有很多方言，比如河南話、東北話、北京話，但你知道這些語言的根源是什么嗎？

我們常提到的「漢藏語系」就是個好例子。歷史上，漢語和藏語其實是同根生的，它們都源自一個古老的語言體系。隨著時間的流逝，這些語言慢慢分化，形成了不同的方言和語種。

在1950年之前，語言學受到心理學的很大影響。

那時候，人們把語言看作是腦子里的一些想法，研究語言的方法也是按照行為主義（Behaviorism）來的。

什么是行為主義呢？

簡單講，人的心理和行為是可以通過觀察、測量研究的。比如：一個人聽到什么，做出什么反應，這些都是可以記錄下來的，所以有數據，有實際的經驗作為支持。

然而，由于技術限制，當時的研究沒法深入探討意識問題。意識在大腦里太復雜了，看不見也摸不著，所以人們覺得不應該研究那些沒有科學依據的意識行為。

于是，人的大腦就被看作是一個“黑盒”：你輸入什么，它就輸出什么。

所以，在行為主義的影響下，心理學研究形成了一個基本觀點：人的行為可以歸結為兩個因素：先天因素和后天因素。

先天因素是「遺傳」，我們?yōu)槭裁磿心撤N行為，可能是因為我們的父母、祖父母等遺傳給我們的；后天因素是環(huán)境影響，你現在的行為是從出生到現在，所有環(huán)境影響的反映，是你過去所有經歷的結果。

還有一點，當時很多學者認為，世界上有很多不同的文化，有的文化影響大，有的影響小。

比如，中國人說話的順序是一種方式，日本人說話的順序可能就不一樣；我們不應該研究文化，因為這種研究會引來文化爭論，

所以，初期有兩個觀點：人類學反對研究語法差異，否認大腦有「意識」和「思考」的機制。

當時語言學處于什么階段呢？一句話總結即：大家都在爭論語言學是什么，并試圖給它們下定義。

具體怎么理解呢？

我們可以從1907年到1911年出版的《普通語言學教程》說起。書的作者是費爾迪南·德·索緒爾（Ferdinand de Saussure）。

他在書里提出了兩個重要的概念：語言和言語，還給它們下了定義。他的研究主要關注兩個領域：音系學和詞法學。

音系學，就是研究語言里用哪些聲音作為基礎，這些聲音怎么組合成詞。比如，你說話時，一個詞是由很多聲音組成的，哪些音素構成了這個詞。

詞法學，就是研究這些聲音怎么組成詞語，以及為什么這樣的組合能表達特定的意思。

那么，當時最先進的語言學研究是什么樣的呢？這里要提到一個人，叫伯爾赫斯·弗雷德里克·斯金納，大家通常叫他B. F. 斯金納。

他主要研究心理學和教育，特別是怎么教小孩學習。

他的研究完全按照行為主義的方法來。經過二十多年的研究，他寫了本書叫《言語行為》，總結了自己在語言學上的發(fā)現；斯金納認為，人類的語言是一種條件反射。著名的巴甫洛夫實驗就是他理論。

舉個例子：

比如“Candy”這個詞意思是糖果。小孩怎么知道“Candy”是糖呢？因為每次他說“Candy”，就有人給他一塊糖。時間一長，他就學會了，只要說“Candy”就能得到糖。

斯金納覺得，語言的學習是通過外部的刺激和反應形成的，完全可以用行為主義的條件反射來解釋。

不過，斯金納的觀點很快就被推翻，推翻他的人是喬姆斯基（Noam Chomsky）。

1957年，喬姆斯基提出了完全不同的觀點，還寫了兩本書，一本叫《句法結構》，另一本叫《評言語行為》。他認為，我們不應該把大腦看作一個“黑盒”，而是應該從心智的角度出發(fā)，研究大腦內部發(fā)生了什么。

并且，喬姆斯基舉了一個例子來說明他的觀點。他說：

每個人心里都有一個語言的深層結構。比如，不管你說什么語言，當你想表達“你想吃什么”時，大腦里生成的原始想法都遵循一種邏輯形式。

然后，這個想法會經過語言和文化的轉換，變成具體的語法形式，比如英語、漢語。這個過程發(fā)生在大腦里，而且可以用機械的方式建模，甚至可以用算法來描述。

簡單說，喬姆斯基認為，我們的心智可以用一些簡單的規(guī)則來描述。

因此，喬姆斯基創(chuàng)立了一門新的學科，研究如何用符號和規(guī)則來描述這種轉換；他的理論，徹底改變了語言學的研究方向。

這個學科叫什么呢？形式語言（Formal language）。

喬姆斯基的理論不光影響了語言學，還和當時的數理邏輯里的自動機理論結合，做出了不少新成果。

比如：

自動機理論和編譯原理里的一些概念，像喬姆斯基譜系、喬姆斯基范式、正則文法、上下文無關文法等等，都是喬姆斯基提出來的。

看到這里，你可能會有點迷惑：這都是什么呢？別急，我來簡單解釋一下。

喬姆斯基譜系是個分類系統，它把語言按復雜程度分了幾個等級。比如，最簡單的語言叫“正則語言”，復雜點的叫“上下文無關語言”，再復雜點的還有“上下文相關語言”等等。

范式呢，是一種特別的語法規(guī)則形式。簡單來說，它把句子結構簡化成一種標準格式，方便計算機處理。比如，一個句子可以拆分成更小的部分，每個部分都遵循固定的規(guī)則。

至于正則文法、上下文無關法，我們可以把它們想象成電話號碼或郵政編碼的格式，特點是規(guī)則簡單、比較固定，適合處理像“123-4567”這種有規(guī)律的內容。

但是編程語言里的語法規(guī)則，或自然語言里的句子結構就不同了；它們的規(guī)則更復雜，因為上下文可能有關系。比如，一個句子的意思可能取決于前面的內容，比如：“如果……那么……”

此外，喬姆斯基還提出了普遍文法的概念。什么是普遍文法呢？簡單來說，就像所有語言都有名詞和動詞，所有語言都有表達過去、現在和未來的方式。

喬姆斯基認為，所有人類語言都共享一套基本的規(guī)則。

不管是英語還是漢語，大腦里的語言規(guī)則都是一樣的，這些規(guī)則是先天就有的，因為只有人類能掌握語言，動物怎么訓練都不行。

所以，他認為這是人類大腦特有的，由基因決定的。

看到這，你可能覺得，他對計算機研究很透徹，其實他不是計算機科學家，他的研究主要集中在語言學和認知科學領域，但他的理論對計算機科學、編程語言、自然語言處理影響很大。

后來，從1950年開始，自然語言處理（NLP）的研究正式起步了。最開始，科學家們有了個新工具，叫做自動機。

從那時起，NLP研究用的是符號主義方法，符號主義是啥意思呢？就是通過人工構造規(guī)則來描述自然語言，然后用確定的邏輯推理來處理自然語言。這種方法催生了一個新的學科，叫做計算語言學。

今天，如果你做自然語言處理研究，可能會把成果發(fā)表在ACL上。ACL是啥？它是計算語言學學會（Association for Computational Linguistics）的縮寫，這個學會的會議是自然語言處理領域最重要的會議之一。

現在，我們發(fā)論文還是會往ACL、EMNLP上投。其實，這些會議的名字就是這么來的。

當時的科學家用符號主義方法研究后，很快就取得了一些進展，我們能實現一些簡單的自然語言處理功能。當時大家都很興奮，覺得自然語言處理似乎沒那么難。

于是，一些語言學家認為，未來可以像物理學家研究材料一樣研究語言，這樣就不會帶有人類的偏見、主觀看法，因為語言必須簡化成可操作的形式，才能用電子設備處理。

我們先把語言變成邏輯符號，然后寫一些公式來處理它，這樣就能避免人類的偏見；不過，今天我們發(fā)現，不僅語言學家不能這樣研究語言，就連物理學家用類似方法研究材料也遇到了瓶頸。

這是時代發(fā)展帶來的變化，不管怎樣，喬姆斯基老爺子成果還是很了不起的。

當時對NLP研究，最早的一個成功案例，歷史上叫它喬治城實驗，發(fā)生在1956年。

這個實驗怎么回事呢？

美國人搞了一個機器翻譯系統，想把俄語翻成英語。他們在IBM 701計算機上編程序。

那臺機器特別大，用紙帶輸入輸出，存儲量也小，只能處理幾百個詞，不過他們還是成功展示了這個系統，翻譯了大約60個句子，算是取得了初步成果，

從那時起，DARPA（美國國防高級研究計劃局）開始資助自然語言處理（NLP）的研究。

大家都覺得，像機器翻譯這樣的問題，大概十年就能搞定，語言差異不再是交流障礙。可是十年后，大家發(fā)現，還是只能做類似的東西。

1965年，出現了一個叫ELIZA的程序。它的目的是模擬心理治療過程。這個程序挺簡單，只有四百多行代碼。它通過一個解釋器運行一個三百多行的腳本，實現了聊天功能。

ELIZA的特點是不會沒話說，不管你說啥，它都能用一些通用句子回應你，總能和你聊下去。雖然最初是為心理治療設計的，但人們認為它是世界上第一個聊天機器人，效果還不錯。

甚至今天還有報道說，ELIZA在圖靈測試中的得分比GPT-3.5還高。不過，符號主義的研究方法并沒有取得預期的巨大成功。

為啥呢？

到了1966年左右，大家發(fā)現，十年過去了，機器翻譯問題還是沒解決；DARPA資助了很多研究，投入了大量資金，但進展不理想。DARPA派人去各個項目組檢查，看看錢花哪兒了，研究進展如何。結果發(fā)現，進展非常慢。

于是，1969年，人工智能研究的熱情開始減退。

DARPA的政策也變了，當時蘇聯很強，美國在冷戰(zhàn)中處于劣勢，又深陷越戰(zhàn)，大部分資金都投入了登月計劃，和蘇聯競爭，剩下的錢用于AI研究，但AI研究看不到短期內的應用前景，所以資金減少了。

DARPA要求，以后資助的項目必須說明短期內對軍事的幫助，否則不再提供資金。從那時起，研究資金減少，AI研究進入了第一次寒冬。

所以，寒冬是怎么走出來的呢？

1980年代以后，研究方式變了，大家逐漸不再完全相信喬姆斯基的理論。雖然喬姆斯基的理論很好，一開始很多人相信并做相關研究，但后來發(fā)現，寫規(guī)則似乎永遠寫不完，效果也不理想。

于是，規(guī)則方法逐漸被拋棄，反對喬姆斯基的聲音開始出現；同時，計算機技術也在發(fā)展，微處理器和個人電腦開始普及。到了2000年左右，互聯網迅速發(fā)展，語料收集變得容易多了。

以前語料要靠人工輸入，現在可以從網上抓取數據。這些條件的變化，使得NLP研究的主流方法轉向了統計方法。

這就是自然語言處理（NLP）80年發(fā)展。總結四點：

一，人們經歷了從行為主義向認知科學的轉變；二，早期的自然語言處理依賴于符號主義、規(guī)則系統，后來轉向統計法；三，喬姆斯基對NLP做出了巨大貢獻；四，NLP的發(fā)展離不開計算機技術的進步。

一口氣說了這么多，不知道講得夠不夠清晰？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

36氪研究院 | 2024年中國人工智能之自然語言處理（NLP）技術洞察

36氪 2024-12-31 07:32:08
0 跟貼 0
OpenAI押注的獨角獸發(fā)新VLA模型，讓機器人再也不怕陌生環(huán)境

智東西 2025-04-25 14:12:35
2 跟貼 2

百度李彥宏：DeepSeek又慢又貴，處理形式單一，幻覺率較高

紅星新聞 2025-04-25 17:24:11
0 跟貼 0

他們看見了百度

虎嗅APP 2025-04-25 20:29:41
2 跟貼 2
強化學習被高估！清華上交：RL不能提升推理能力，新知識得靠蒸餾

新智元 2025-04-26 13:36:22
0 跟貼 0

美國政府「AI行動計劃」萬言書發(fā)布！ OpenAI與Anthropic呼吁聯手封鎖中國AI

新智元 2025-04-26 13:36:46
0 跟貼 0

全球開發(fā)者組團訓練，首個異步強化學習32B推理模型震撼來襲！數據已開源

新智元 2025-04-26 13:36:18
0 跟貼 0
首份空間智能研究報告來了！一文全面獲得空間智能要素、玩家圖譜

量子位 2025-04-26 12:24:44
1 跟貼 1

把AA當成占便宜的人是什么心理啊？

陳七七my 2025-04-23 11:28:30
5 跟貼 5
心理學35歲以后的夫妻生活，是什么樣的，聽聽三個女人的心里話

周小鵬情感專家 2025-04-23 20:26:16
18 跟貼 18
最后的調教

beebee 2025-02-25 11:08:44
2 跟貼 2
守護語言“活化石”（講述·賡續(xù)歷史文脈譜寫當代華章）

人民網 2025-04-23 06:08:08
1 跟貼 1
以前的和現在的數學解題思路，大家喜歡以前的還是現在的呢，網友：現在的邏輯更加完整

童話鶴壁 2025-04-24 10:49:18
139 跟貼 139
20年前的今天，一位社會學家走了，他的學術人生既喧囂又孤獨

新京報 2025-04-24 13:33:26
0 跟貼 0
男女關系中吸引對方的究竟是什么？演化心理學家告訴你，男女差異

阿鄭的讀書日常 2025-04-26 13:57:58
0 跟貼 0
新書預告：社會學經典入門（第 6 版）

閱想時代·編輯部 2025-04-22 22:04:01
0 跟貼 0
警惕書稿中的歐化句式，尤其是引進版圖書

尚曦讀史 2025-04-22 10:29:03
0 跟貼 0
文化語言學視域下曲阜街巷道路名稱研究

江西地名研究 2025-04-23 17:51:42
1 跟貼 1
大衛(wèi)·第艾維瑞談歷史學與社會理論②丨馬克斯·韋伯與歷史學研究

澎湃新聞 2025-04-22 11:34:29
1 跟貼 1
心理學：反力比多關系在伴侶中體現為，充滿怨恨的關系

九霄心理 2025-04-26 10:23:36
0 跟貼 0
美國政府瘋狂刪除科研數據，科學家連夜保存研究心血：我們必須爭分奪秒

紅星新聞 2025-04-25 15:47:11
2589 跟貼 2589
生活給我一巴掌，我：算了（此處咽下3000字怨氣）

霧滿攔江 2025-04-26 11:59:49
1 跟貼 1
這句話有語法錯誤嗎？（高考語法）

英語兔 2025-04-26 12:25:25
0 跟貼 0
心理學上有個詞叫：羅森塔爾效應（讓任何人喜歡你信任你的方法）

詩詞中國 2025-04-26 15:00:55
0 跟貼 0
知道長頭發(fā)女生洗頭有多麻煩嗎？

有態(tài)度的網友005 2025-04-26 02:59:09
1426 跟貼 1426
早點睡吧心理已經很變態(tài)了身體一定要健康

奶糖喵爪 2025-04-24 17:40:12
1 跟貼 1
一年級語文告別 “的地” 混淆！附實用攻略和專項練習，一學就會

凝媽悟語檸橙媽媽 2025-04-25 13:21:38
1 跟貼 1
特朗普的混蛋邏輯，說過的話轉身就變了，誰還敢相信他

老周說趣 2025-04-24 18:32:00
0 跟貼 0
碎片時間高效利用！2025年通勤必備英語口語APP清單

最新資訊分享 2025-04-25 14:00:34
0 跟貼 0
零基礎輕松學語法巧記單詞英語啟蒙

星云漫步 2025-04-26 08:48:25
0 跟貼 0
從“心源”到“緊箍咒：上師大教授化身"唐僧"開講取經之道

大象新聞 2025-04-23 09:48:13
0 跟貼 0
如果你身邊的人具有這三個特征，說明他是一個內心相當邪惡的人

第一心理 2025-04-26 13:49:12
0 跟貼 0
產婦出院回家不方便爬樓老公預訂吊車直接送回家

星辰視頻 2025-04-25 16:47:26
1790 跟貼 1790
上海車展男子用3D掃描儀對大眾展車采集發(fā)生沖突遭巨型黑布遮擋

爆料視頻 2025-04-26 12:33:31
1498 跟貼 1498
一男子街頭被刀捅后躺在地上不動，目擊男子稱：直接捅到心臟了！

爆料視頻 2025-04-26 11:02:29
1457 跟貼 1457
有光的思想！周有光：要從世界看中國，文化非坐莊，而是高向低流

瑜說還休 2025-04-22 13:06:08
1 跟貼 1
摧毀90%中國人的3層恐懼陷阱，你在第幾層？

子墨君 2025-04-26 12:34:06
2 跟貼 2
補至103分鐘！VAR兩次長時間介入暗助海港，名記：惡心！水準堪憂

我愛英超 2025-04-25 22:36:47
1866 跟貼 1866
心理學家：如何讓你的身體快速養(yǎng)成良好的習慣？

心理學家Tracey 2025-04-25 19:21:39
0 跟貼 0
WTA1000馬德里站：鄭欽文0-2不敵波塔波娃，紅土首秀落敗

懂球帝 2025-04-25 23:01:06
2230 跟貼 2230

“生母繼父殺子案”發(fā)生2年后：鄰居稱孩子外婆曾幾月不出門，男孩生前常被“管教”

智遠同學

暢銷書《復利思維》作者；精神生活與商業(yè)探索，關注科技人文、消費電商、品牌營銷、商業(yè)認知思維等方面。

408文章數 88關注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房產

教育

手機

公開課

軍事航空

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
全球十大恐怖禁區(qū)有哪些？
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

NLP的早期發(fā)展里程碑

李斌：對蔚來公司四季度盈利非常有信心

巴基斯坦防長：我們曾給西方"干臟活" 為此付出了代價

巴基斯坦防長：我們曾給西方"干臟活" 為此付出了代價

去更大的舞臺追夢 專訪中國男籃國手楊瀚森

金掃帚獎出爐，包貝爾意外獲“影帝”

韓國的"宇樹科技" 是怎樣被財閥毀掉的?

充電5分鐘續(xù)航100公里 探訪華為兆瓦超充站

態(tài)度原創(chuàng)

逆勢大幅漲價！最高2.8萬/平！長天雲汀開盤又賣爆了！

網民反映孩子“在華海中學遭霸凌”，海口市教育局回應正核查

CounterPoint 報告 2024 全球手機攝像頭出貨量：索尼領銜

印巴交火 從“斷水”到“反制”

去更大的舞臺追夢專訪中國男籃國手楊瀚森

充電5分鐘續(xù)航100公里探訪華為兆瓦超充站

印巴交火從“斷水”到“反制”