99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

NLP的早期發(fā)展里程碑

0
分享至


文:王智遠 | ID:Z201440

大語言模型,為什么要做大,小的不行嗎?

這些問題讓技術開發(fā)者、創(chuàng)業(yè)者,還有研究人員都很頭疼,作為一個商業(yè)記錄者,我也曾被各種觀點左右。怎么辦?

為了理清思路,決定系統學習這門學科。最近,我在學了中科院和清華大學的大模型系列研討課,收獲挺多;說到底,我們可以把問題分成三塊:大、語言、模型。如果能搞懂這三個問題,疑惑就解決了一半。

解答這些問題,說難也難,說不難也不難。難的是,得先做點“考古”工作。比如,要了解我們以前是怎么研究語言的,歷史上發(fā)生了什么。

不難的是,一旦理清了歷史脈絡,找到了關鍵問題的核心,答案就清楚了。所以,我把學到的知識梳理一下,從語言學的起源和發(fā)展、早期研究的方法,還有自然語言處理(NLP)的雛形三大方面,匯報給你。

01

從哪開始呢?就從80年前說起吧。你知道嗎?

語言學這個領域,其實起步挺晚的,大概是1900年左右才真正成型。在那之前,語言學只是人類學里的一個小分支。

說到這兒,你可能覺得有點復雜,又是語言學,又是人類學的,到底啥意思?簡單來說,人類學是研究人類是怎么來的,為什么會有「人」這個物種;而語言學,作為人類學的一部分,主要研究的是語言的歷史和變化。

大家都知道,現在有很多方言,比如河南話、東北話、北京話,但你知道這些語言的根源是什么嗎?

我們常提到的「漢藏語系」就是個好例子。歷史上,漢語和藏語其實是同根生的,它們都源自一個古老的語言體系。隨著時間的流逝,這些語言慢慢分化,形成了不同的方言和語種。

在1950年之前,語言學受到心理學的很大影響。

那時候,人們把語言看作是腦子里的一些想法,研究語言的方法也是按照行為主義(Behaviorism)來的。

什么是行為主義呢?

簡單講,人的心理和行為是可以通過觀察、測量研究的。比如:一個人聽到什么,做出什么反應,這些都是可以記錄下來的,所以有數據,有實際的經驗作為支持。

然而,由于技術限制,當時的研究沒法深入探討意識問題。意識在大腦里太復雜了,看不見也摸不著,所以人們覺得不應該研究那些沒有科學依據的意識行為。

于是,人的大腦就被看作是一個“黑盒”:你輸入什么,它就輸出什么。

所以,在行為主義的影響下,心理學研究形成了一個基本觀點:人的行為可以歸結為兩個因素:先天因素和后天因素。

先天因素是「遺傳」,我們?yōu)槭裁磿心撤N行為,可能是因為我們的父母、祖父母等遺傳給我們的;后天因素是環(huán)境影響,你現在的行為是從出生到現在,所有環(huán)境影響的反映,是你過去所有經歷的結果。

還有一點,當時很多學者認為,世界上有很多不同的文化,有的文化影響大,有的影響小。

比如,中國人說話的順序是一種方式,日本人說話的順序可能就不一樣;我們不應該研究文化,因為這種研究會引來文化爭論,

所以,初期有兩個觀點:人類學反對研究語法差異,否認大腦有「意識」和「思考」的機制。

02

當時語言學處于什么階段呢?一句話總結即:大家都在爭論語言學是什么,并試圖給它們下定義。

具體怎么理解呢?

我們可以從1907年到1911年出版的《普通語言學教程》說起。書的作者是費爾迪南·德·索緒爾(Ferdinand de Saussure)。

他在書里提出了兩個重要的概念:語言和言語,還給它們下了定義。他的研究主要關注兩個領域:音系學和詞法學。

音系學,就是研究語言里用哪些聲音作為基礎,這些聲音怎么組合成詞。比如,你說話時,一個詞是由很多聲音組成的,哪些音素構成了這個詞。

詞法學,就是研究這些聲音怎么組成詞語,以及為什么這樣的組合能表達特定的意思。

那么,當時最先進的語言學研究是什么樣的呢?這里要提到一個人,叫伯爾赫斯·弗雷德里克·斯金納,大家通常叫他B. F. 斯金納。

他主要研究心理學和教育,特別是怎么教小孩學習。

他的研究完全按照行為主義的方法來。經過二十多年的研究,他寫了本書叫《言語行為》,總結了自己在語言學上的發(fā)現;斯金納認為,人類的語言是一種條件反射。著名的巴甫洛夫實驗就是他理論。

舉個例子:

比如“Candy”這個詞意思是糖果。小孩怎么知道“Candy”是糖呢?因為每次他說“Candy”,就有人給他一塊糖。時間一長,他就學會了,只要說“Candy”就能得到糖。

斯金納覺得,語言的學習是通過外部的刺激和反應形成的,完全可以用行為主義的條件反射來解釋。

不過,斯金納的觀點很快就被推翻,推翻他的人是喬姆斯基(Noam Chomsky)。

1957年,喬姆斯基提出了完全不同的觀點,還寫了兩本書,一本叫《句法結構》,另一本叫《評言語行為》。他認為,我們不應該把大腦看作一個“黑盒”,而是應該從心智的角度出發(fā),研究大腦內部發(fā)生了什么。

并且,喬姆斯基舉了一個例子來說明他的觀點。他說:

每個人心里都有一個語言的深層結構。比如,不管你說什么語言,當你想表達“你想吃什么”時,大腦里生成的原始想法都遵循一種邏輯形式。

然后,這個想法會經過語言和文化的轉換,變成具體的語法形式,比如英語、漢語。這個過程發(fā)生在大腦里,而且可以用機械的方式建模,甚至可以用算法來描述。

簡單說,喬姆斯基認為,我們的心智可以用一些簡單的規(guī)則來描述。

因此,喬姆斯基創(chuàng)立了一門新的學科,研究如何用符號和規(guī)則來描述這種轉換;他的理論,徹底改變了語言學的研究方向。

03

這個學科叫什么呢?形式語言(Formal language)。

喬姆斯基的理論不光影響了語言學,還和當時的數理邏輯里的自動機理論結合,做出了不少新成果。

比如:

自動機理論和編譯原理里的一些概念,像喬姆斯基譜系、喬姆斯基范式、正則文法、上下文無關文法等等,都是喬姆斯基提出來的。

看到這里,你可能會有點迷惑:這都是什么呢?別急,我來簡單解釋一下。

喬姆斯基譜系是個分類系統,它把語言按復雜程度分了幾個等級。比如,最簡單的語言叫“正則語言”,復雜點的叫“上下文無關語言”,再復雜點的還有“上下文相關語言”等等。

范式呢,是一種特別的語法規(guī)則形式。簡單來說,它把句子結構簡化成一種標準格式,方便計算機處理。比如,一個句子可以拆分成更小的部分,每個部分都遵循固定的規(guī)則。

至于正則文法、上下文無關法,我們可以把它們想象成電話號碼或郵政編碼的格式,特點是規(guī)則簡單、比較固定,適合處理像“123-4567”這種有規(guī)律的內容。

但是編程語言里的語法規(guī)則,或自然語言里的句子結構就不同了;它們的規(guī)則更復雜,因為上下文可能有關系。比如,一個句子的意思可能取決于前面的內容,比如:“如果……那么……”

此外,喬姆斯基還提出了普遍文法的概念。什么是普遍文法呢?簡單來說,就像所有語言都有名詞和動詞,所有語言都有表達過去、現在和未來的方式。

喬姆斯基認為,所有人類語言都共享一套基本的規(guī)則。

不管是英語還是漢語,大腦里的語言規(guī)則都是一樣的,這些規(guī)則是先天就有的,因為只有人類能掌握語言,動物怎么訓練都不行。

所以,他認為這是人類大腦特有的,由基因決定的。

看到這,你可能覺得,他對計算機研究很透徹,其實他不是計算機科學家,他的研究主要集中在語言學和認知科學領域,但他的理論對計算機科學、編程語言、自然語言處理影響很大。

后來,從1950年開始,自然語言處理(NLP)的研究正式起步了。最開始,科學家們有了個新工具,叫做自動機。

從那時起,NLP研究用的是符號主義方法,符號主義是啥意思呢?就是通過人工構造規(guī)則來描述自然語言,然后用確定的邏輯推理來處理自然語言。這種方法催生了一個新的學科,叫做計算語言學。

今天,如果你做自然語言處理研究,可能會把成果發(fā)表在ACL上。ACL是啥?它是計算語言學學會(Association for Computational Linguistics)的縮寫,這個學會的會議是自然語言處理領域最重要的會議之一。

現在,我們發(fā)論文還是會往ACL、EMNLP上投。其實,這些會議的名字就是這么來的。

當時的科學家用符號主義方法研究后,很快就取得了一些進展,我們能實現一些簡單的自然語言處理功能。當時大家都很興奮,覺得自然語言處理似乎沒那么難。

于是,一些語言學家認為,未來可以像物理學家研究材料一樣研究語言,這樣就不會帶有人類的偏見、主觀看法,因為語言必須簡化成可操作的形式,才能用電子設備處理。

我們先把語言變成邏輯符號,然后寫一些公式來處理它,這樣就能避免人類的偏見;不過,今天我們發(fā)現,不僅語言學家不能這樣研究語言,就連物理學家用類似方法研究材料也遇到了瓶頸。

這是時代發(fā)展帶來的變化,不管怎樣,喬姆斯基老爺子成果還是很了不起的。

04

當時對NLP研究,最早的一個成功案例,歷史上叫它喬治城實驗,發(fā)生在1956年。

這個實驗怎么回事呢?

美國人搞了一個機器翻譯系統,想把俄語翻成英語。他們在IBM 701計算機上編程序。

那臺機器特別大,用紙帶輸入輸出,存儲量也小,只能處理幾百個詞,不過他們還是成功展示了這個系統,翻譯了大約60個句子,算是取得了初步成果,

從那時起,DARPA(美國國防高級研究計劃局)開始資助自然語言處理(NLP)的研究。

大家都覺得,像機器翻譯這樣的問題,大概十年就能搞定,語言差異不再是交流障礙。可是十年后,大家發(fā)現,還是只能做類似的東西。

1965年,出現了一個叫ELIZA的程序。它的目的是模擬心理治療過程。這個程序挺簡單,只有四百多行代碼。它通過一個解釋器運行一個三百多行的腳本,實現了聊天功能。

ELIZA的特點是不會沒話說,不管你說啥,它都能用一些通用句子回應你,總能和你聊下去。雖然最初是為心理治療設計的,但人們認為它是世界上第一個聊天機器人,效果還不錯。

甚至今天還有報道說,ELIZA在圖靈測試中的得分比GPT-3.5還高。不過,符號主義的研究方法并沒有取得預期的巨大成功。

為啥呢?

到了1966年左右,大家發(fā)現,十年過去了,機器翻譯問題還是沒解決;DARPA資助了很多研究,投入了大量資金,但進展不理想。DARPA派人去各個項目組檢查,看看錢花哪兒了,研究進展如何。結果發(fā)現,進展非常慢。

于是,1969年,人工智能研究的熱情開始減退。

DARPA的政策也變了,當時蘇聯很強,美國在冷戰(zhàn)中處于劣勢,又深陷越戰(zhàn),大部分資金都投入了登月計劃,和蘇聯競爭,剩下的錢用于AI研究,但AI研究看不到短期內的應用前景,所以資金減少了。

DARPA要求,以后資助的項目必須說明短期內對軍事的幫助,否則不再提供資金。從那時起,研究資金減少,AI研究進入了第一次寒冬。

所以,寒冬是怎么走出來的呢?

1980年代以后,研究方式變了,大家逐漸不再完全相信喬姆斯基的理論。雖然喬姆斯基的理論很好,一開始很多人相信并做相關研究,但后來發(fā)現,寫規(guī)則似乎永遠寫不完,效果也不理想。

于是,規(guī)則方法逐漸被拋棄,反對喬姆斯基的聲音開始出現;同時,計算機技術也在發(fā)展,微處理器和個人電腦開始普及。到了2000年左右,互聯網迅速發(fā)展,語料收集變得容易多了。

以前語料要靠人工輸入,現在可以從網上抓取數據。這些條件的變化,使得NLP研究的主流方法轉向了統計方法。

這就是自然語言處理(NLP)80年發(fā)展。總結四點:

一,人們經歷了從行為主義向認知科學的轉變;二,早期的自然語言處理依賴于符號主義、規(guī)則系統,后來轉向統計法;三,喬姆斯基對NLP做出了巨大貢獻;四,NLP的發(fā)展離不開計算機技術的進步。

一口氣說了這么多,不知道講得夠不夠清晰?



特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
“生母繼父殺子案”發(fā)生2年后:鄰居稱孩子外婆曾幾月不出門,男孩生前常被“管教”

“生母繼父殺子案”發(fā)生2年后:鄰居稱孩子外婆曾幾月不出門,男孩生前常被“管教”

紅星新聞
2025-04-26 01:24:18
女人不怕你占她便宜,而是怕…

女人不怕你占她便宜,而是怕…

青蘋果sht
2025-04-18 05:59:47
A股:周末重磅!國務院同意建立,財政部、證監(jiān)會集體發(fā)聲!

A股:周末重磅!國務院同意建立,財政部、證監(jiān)會集體發(fā)聲!

虎哥閑聊
2025-04-26 10:20:57
鄭欽文0-2慘敗!可怕不是輸球,而是賽后鄭欽文這番話,心氣沒了

鄭欽文0-2慘敗!可怕不是輸球,而是賽后鄭欽文這番話,心氣沒了

振華觀史
2025-04-26 11:03:21
北京知名外科醫(yī)生出軌多人:護士長3月兩懷孕,大量骯臟細節(jié)披露

北京知名外科醫(yī)生出軌多人:護士長3月兩懷孕,大量骯臟細節(jié)披露

博士觀察
2025-04-26 10:30:20
男子炒股11年賺6000萬,曾1天虧1100萬,當事人:不建議模仿

男子炒股11年賺6000萬,曾1天虧1100萬,當事人:不建議模仿

瀟湘晨報
2025-04-26 15:00:07
劉強東:我還有一個領養(yǎng)的妹妹,并不熟悉,但每年都給她很多錢

劉強東:我還有一個領養(yǎng)的妹妹,并不熟悉,但每年都給她很多錢

慢看世界
2025-04-26 10:01:12
名記:阿隆·戈登因小腿傷勢目前幾乎無法起跳,現在球隊更衣室內的氛圍非常凝重

名記:阿隆·戈登因小腿傷勢目前幾乎無法起跳,現在球隊更衣室內的氛圍非常凝重

雷速體育
2025-04-26 12:53:55
北京上海大跌,千萬要警惕了!

北京上海大跌,千萬要警惕了!

七叔東山再起
2025-04-25 20:49:46
太行山懸崖摩天筒梯走紅,景區(qū)回應:每年“體檢”已運營近25年

太行山懸崖摩天筒梯走紅,景區(qū)回應:每年“體檢”已運營近25年

上游新聞
2025-04-26 12:45:11
王菲現身謝霆鋒演唱會!安靜地坐在角落聽歌,55歲的年紀看起來像30

王菲現身謝霆鋒演唱會!安靜地坐在角落聽歌,55歲的年紀看起來像30

二月侃事
2025-04-26 08:38:27
江西一家三口被開快車泄憤男子撞死后 失獨老人發(fā)現兒子的獻血證和聯合國兒童基金會“月捐”證書

江西一家三口被開快車泄憤男子撞死后 失獨老人發(fā)現兒子的獻血證和聯合國兒童基金會“月捐”證書

閃電新聞
2025-04-25 22:54:13
四川一國企“80后”掌門人為報領導“知遇之恩”,盲目決策致數億損失

四川一國企“80后”掌門人為報領導“知遇之恩”,盲目決策致數億損失

澎湃新聞
2025-04-26 15:18:26
“愛潑斯坦案”關鍵證人弗吉尼亞·朱弗雷自殺身亡

“愛潑斯坦案”關鍵證人弗吉尼亞·朱弗雷自殺身亡

新京報
2025-04-26 10:14:08
波音總裁回應:波音不會繼續(xù)為不接收飛機的客戶制造飛機!

波音總裁回應:波音不會繼續(xù)為不接收飛機的客戶制造飛機!

翻開歷史和現實
2025-04-24 21:48:17
心智障礙者做100杯咖啡上崗0投訴,創(chuàng)始人回應:殘次品半價銷售,客人整體包容度很高

心智障礙者做100杯咖啡上崗0投訴,創(chuàng)始人回應:殘次品半價銷售,客人整體包容度很高

觀威海
2025-04-25 15:19:29
字母哥37+12+6雄鹿大勝步行者1-2,奇兵特倫特37分利拉德7+5

字母哥37+12+6雄鹿大勝步行者1-2,奇兵特倫特37分利拉德7+5

湖人崛起
2025-04-26 10:29:17
“想不到他深情到這個地步”:一位丈夫絕筆信背后的愛與哀愁

“想不到他深情到這個地步”:一位丈夫絕筆信背后的愛與哀愁

南方都市報
2025-04-25 17:58:08
外籍學生群毆中國人后續(xù):受害者已毀容,畫面不忍直視,官方介入

外籍學生群毆中國人后續(xù):受害者已毀容,畫面不忍直視,官方介入

歸史
2025-04-26 11:25:34
“五一花100塊買票回家”引全網群嘲:貧窮,是父母最失敗的教育

“五一花100塊買票回家”引全網群嘲:貧窮,是父母最失敗的教育

熙熙說教
2025-04-25 20:40:56
2025-04-26 15:35:00
智遠同學 incentive-icons
智遠同學
暢銷書《復利思維》作者;精神生活與商業(yè)探索,關注科技人文、消費電商、品牌營銷、商業(yè)認知思維等方面。
408文章數 88關注度
往期回顧 全部

科技要聞

李斌:對蔚來公司四季度盈利非常有信心

頭條要聞

巴基斯坦防長:我們曾給西方"干臟活" 為此付出了代價

頭條要聞

巴基斯坦防長:我們曾給西方"干臟活" 為此付出了代價

體育要聞

去更大的舞臺追夢 專訪中國男籃國手楊瀚森

娛樂要聞

金掃帚獎出爐,包貝爾意外獲“影帝”

財經要聞

韓國的"宇樹科技" 是怎樣被財閥毀掉的?

汽車要聞

充電5分鐘續(xù)航100公里 探訪華為兆瓦超充站

態(tài)度原創(chuàng)

房產
教育
手機
公開課
軍事航空

房產要聞

逆勢大幅漲價!最高2.8萬/平!長天雲汀開盤又賣爆了!

教育要聞

網民反映孩子“在華海中學遭霸凌”,海口市教育局回應正核查

手機要聞

CounterPoint 報告 2024 全球手機攝像頭出貨量:索尼領銜

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

印巴交火 從“斷水”到“反制”

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 二连浩特市| 宽城| 宝丰县| 万年县| 微博| 外汇| 宁晋县| 西城区| 宜良县| 山阴县| 顺昌县| 封开县| 工布江达县| 大姚县| 灵丘县| 恩施市| 盈江县| 榆中县| 铜梁县| 玉环县| 锦州市| 久治县| 尖扎县| 新源县| 财经| 连城县| 原平市| 扎囊县| 社会| 怀远县| 武川县| 嵩明县| 宁化县| 江山市| 昌黎县| 成安县| 临夏县| 松阳县| 嘉荫县| 南皮县| 绍兴县|