網易首頁 > 網易號 > 正文申請入駐

語言模型到底是什么？

2025-01-07 13:22:16　來源: 智遠同學

北京舉報

分享至

文：王智遠 | ID:Z201440

有人問你：語言模型到底是什么？怎么解釋？

如果說，它是一種預測生成自然語言的模型，能夠理解一個人標的問題，然后給出答案。你可能略聽懂一二，但想深入理解就難了。怎么辦？

我們不妨從研究者視角，來看看他們眼中的語言模型。

01

以前，人們研究語言時，常使用「自動機」這個概念。

喬姆斯基就提倡大家用自動機來研究語言，自動機的工作原理是：如果你說的一句話是對的，它就接受；如果是錯的，它就拒絕。這就像寫一個程序，用來判斷句子是否正確。

但語言模型的想法有些不同，它認為，句子并不是非黑即白的，而是有一定的“軟性”。

比如：你說“中國的首都是北京”，這句話是對的，概率很高。但如果你說“美國的首都是北京”，雖然這句話在語法上沒問題，但事實是錯誤的。

語言模型不會直接拒絕它，而是認為它的概率比較低。

語言模型會把句子中的每個詞（比如“中國”、“首都”、“北京”）組合起來，計算它們的聯合概率。如果我們能準確預測這個聯合概率，就說明我們對語言的理解比較準確。

這里有一個重要的信念：如果我們能通過聯合概率模型判斷出“中國的首都是北京”是對的，而“美國的首都是北京”是錯的，那么這個模型就具備了一些類似人類的知識。

也就是說，人工智能可能就隱藏在準確預測聯合概率的過程中。所以，如果我們能把語言模型做好，就相當于獲得了人工智能的能力。

當然，關于這方面，有不同的觀點。

比如，伊利亞（OpenAI的ChatGPT團隊）認為，只要你能準確預測下一個詞，就意味著你對現實世界的理解非常準確。

但也有反對的聲音，比如圖靈獎得主Judea Pearl，他研究的是因果推理，他認為僅僅通過統計來預測語言是不夠的，真正的理解需要通過因果推理來實現。

所以，語言模型爭論從1960年的符號主義出現，到1980年，一直在爭論。

后來，基于統計學的NPL出現后，后來人們稱它為“自回歸模型”，它的目標不是直接預測整個句子的聯合概率，而是把這個聯合概率拆分成多個條件概率。

簡單來說，就是通過前面的詞來預測下一個詞。比如，我們要說一句話：“Today is Monday。”這句話沒問題，那么它的概率是怎么算的呢？

首先，第一個詞“Today”出現的概率是多少？然后，在已知第一個詞是“Today”的情況下，第二個詞“is”出現的概率是多少？接著，在已知前兩個詞是“Today is”的情況下，第三個詞“Monday”出現的概率是多少？

把這些概率乘起來，就得到了整個句子的概率。這種方法叫做「自回歸」。

自回歸模型概念最早可以追溯到喬治·尤爾（George Udny Yule）在1927年的研究工作，直到20世紀70年代這個想法才進一步得到驗證。

不過，實際操作中，這種建模方式有點難。

因為如果句子特別長，后面的詞需要依賴前面很多詞，而語料庫中恰好出現一模一樣句子的概率很低。

所以，大家通常會用“n-gram”語言模型來簡化問題。“n-gram”模型是什么意思呢？就是限制一下，只看前面的幾個詞。比如，1-gram就是只看當前詞，每個詞獨立統計概率。

舉個例子：

如果我們用《人民日報》的語料來建模型，統計每個字出現的概率，然后按這個概率隨機生成句子。這樣生成的句子可能不太通順，但如果逐漸增加n-gram的長度，比如到4-gram或5-gram，生成的句子就會更通順，甚至有點《人民日報》的味道。

不過，n-gram模型也有問題。如果n設得太大，比如5-gram或6-gram，需要的語料量會非常大；因為連續五六個詞一起出現的情況比較少見，必須有足夠多的數據才能支持這種模型。

后來，人們基于自回歸發明了更好的方法。

1966年，鮑姆和韋爾奇提出了隱馬爾可夫模型（HMM）及其訓練方法；其實，n-gram模型很早就有，1913年馬爾可夫就用它來預測詞了；但HMM直到1966年才被發明出來，真正應用到自然語言處理中已經是1989年了。

再后來，Rabiner等人寫了一篇經典文章，教大家如何在語音識別中使用HMM，這篇文章被引用了很多次，成為了非常經典的工作。

這說明，從技術發明到實際應用，往往需要很長時間。

02

到了2000年，語言模型的發展逐漸進入快車道，人們發現，越來越多的模型效率更高，效果更好，能夠更好地建模語言。比如，2000年時，有人開始用神經網絡來預測n-gram的概率。

具體來說，就是把前面N個詞輸入神經網絡，得到一個中間結果，再把這些結果拼起來，通過另一個神經網絡預測下一個詞。

這聽起來有點“暴力”，但效果確實不錯。這篇文章也成為用神經網絡建模語言模型的開山之作，被引用了上萬次，非常重要。

再過十年，到了2010年，人們開始用循環神經網絡（RNN）來建模語言模型。

RNN好處是，它不受n-gram的限制。n-gram只能看到前面N個詞，而RNN理論上可以記住歷史上所有的詞，雖然實際使用時，由于梯度消失等問題，效果并不理想。

RNN的模型也很難訓練和調試。這一年，Mikolov等人做了一些經典工作，推動了RNN的應用。

到了2014年，序列到序列學習（seq2seq）出現了。它用LSTM（長短期記憶網絡）來解決語言模型中的梯度消失問題。LSTM通過增加記憶單元，能夠記住更久遠的信息。seq2seq與之前的模型不同，它有一個“讀”的過程。比如：

用戶輸入一個句子“ABC”，模型會從這個句子開始預測回答。這種模型引入了編碼器和解碼器的概念，為后來的語言模型奠定了基礎。

2017年，Transformer模型出現了。

它的核心是注意力機制，但更重要的是，它找到了一種適合大規模擴展的神經網絡結構。以前的RNN和LSTM很難做大，訓練速度慢，而Transformer訓練速度快，容易擴展。這使得模型規模可以變得非常大。

到了2020年，大家熟悉的GPT-3和GPT-4出現了。

他們的一個重要貢獻是提出了“縮放定律”：模型越大，效果越好。另一個突破是，它將所有自然語言處理（NLP）任務統一到一個模型中。

以前，不同的任務（比如分類、實體識別）需要不同的模型，而GPT-3認為，所有任務都可以看作語言模型問題。這為探索通用人工智能提供了新的思路。

總的來說，語言模型的發展經歷了從神經網絡到RNN，再到LSTM、Transformer，最后到GPT的過程。每一步都在推動技術的進步，讓我們離通用人工智能更近了一步。

簡單講，大語言模型從出現到現在主要的三個時期是：

一，結構主義語言學邁向行為主義語言學；二，基于喬姆斯基啟發，符號主義NLP出現；三，大家發現符號主義不是正確路線后，統計NLP才開始出現，最后，技術的各種研究到了奇點時，Transformer架構出現。

實際上，語言模型的發展過程中，我們受到了喬姆斯基的影響。

中間有一段時間，大家主要研究“生成語言學”，也就是用符號邏輯來分析語言，這種研究方式持續了一段時間，但也導致了發展速度的放緩，甚至可以說是一個低潮期。

后來，人們發現統計方法才是正確的方向。

于是，語言模型的發展速度逐漸加快，特別是最近幾年，隨著計算能力的提升，我們可以訓練越來越大的模型，也找到了更適合的模型結構。這使得語言模型的發展速度在近幾年呈現出爆炸式的增長。

03

了解完整個模型歷史脈絡后，我們不妨思考下：為什么要研究語言呢？

首先，我們要理解語言與其他信息形式的不同之處。

在研究通用人工智能時，語言為何成為重點？這是因為語言與智能之間有著獨特的緊密聯系，這種聯系是其他信息形式所不具備的。

喬姆斯基認為，語言是思考的工具。

他提出，要理解人類心智，必須研究語言，因為語言與心智密切相關。他的觀點與我們有所不同。

盡管人類的語言機制存在許多歧義和低效之處，但如果將其視為思考的工具，就會發現它實際上非常有效。因此，喬姆斯基認為語言是思考的工具。

而我們的主要觀點是“壓縮論”。

人工智能可以表現為一種壓縮的形式，語言之所以重要，是因為人類之間的交流主要依賴于語言，我們沒有更好的替代方法。然而，語言交流的帶寬其實非常低。

有一項研究指出，無論使用何種語言，人與人之間交換信息的速度大約為每秒40個比特，這個速度相當低。你可以想象，以這種速度下載一部電影需要多長時間。

因此，為了有效地交流，人類必須對信息進行壓縮。壓縮信息會損失很多細節，這促使我們形成了許多抽象概念。

這些概念使我們對世界的認知變得更加概念化，換句話說，語言是推動我們產生抽象認知的環境壓力來源。為了與他人交流，我們必須思考事物背后的規律和本質。這就是語言如此重要的原因。

舉個例子：

謝氏家錄講的是謝靈運。謝靈運生活在魏晉南北朝時期，當時他在官場上不太順利，被貶到了溫州，也就是現在的永嘉。據說，謝靈運每次見到他的弟弟慧蓮，就能寫出優美的詩篇。

有一次，他在溫州的屋子里待了好幾天，怎么也寫不出詩來。突然有一天，在迷糊的狀態下，他見到了弟弟，靈感一來，就寫出了“池塘生春草”這句詩。他說這是神助，不是他自己的話。

我們可以想象一下，謝靈運被貶到溫州后，心里很苦悶，有很多情感想要表達，他見到弟弟時，弟弟并不知道他的心情。

于是，謝靈運通過提煉，寫出了簡短的詩句，通過這種方式，用很低的信息傳遞量，把情感傳達給了弟弟，雖然弟弟理解的場景可能和實際的不一樣，但精神是一致的。這體現了人類在信息壓縮上的高智能。

再比如，不同語言對顏色的描述也有所不同。

現在大家都知道，顏色可以用色相、飽和度和亮度這三個維度來描述。

有人統計過，世界上不同的語言用哪些詞來描述顏色；比如，我們有紅色、黃色、粉色等詞匯。但在自然界中較少的藍色和紫色，我們用的詞匯就比較少，這反映了概念化的過程。

語言對我們的認知也有直接影響，這一點可以通過實驗來測量。有人研究過俄國人對顏色的認識，因為俄語和英語在描述藍色時有所不同。英語中，我們通常把藍色都稱為“blue”，然后說這是淺藍或深藍。

而俄語中，深藍和淺藍是兩個完全不同的詞。實驗發現，當給俄國人看兩個顏色時，如果兩個都是深藍或淺藍，他們分辨起來比較慢。

但如果一個是深藍一個是淺藍，他們分辨得就比較快。這說明語言對認知有影響。如果在他們分辨顏色時，再給他們一些語言上的干擾，這種速度優勢就會消失，分辨速度會變慢。

所以，通過實驗可以觀察到，語言確實對我們的認知功能有深刻的影響。

04

其二，語言的重要性不可言喻。

如果沒有語言，人類的高級思考活動可能就無法進行，語言是思考的基礎工具，它與我們人類的知識和文化有著深刻的聯系。

比如，我們的文化和科技成就都是通過語言來傳承的。你可以看到，很多知識和智慧都蘊含在語言中。

以我們中國人和美國人的思考方式為例，他們是不同的。為什么呢？

因為我們有很多成語和典故，這些都影響了我們的思維方式。比如，當一個同學在研究中遇到困難，轉而去打游戲時，我們可能會說他“玩物喪志”。

雖然大家都知道這個詞，但你知道它背后的故事嗎？它源自周武王滅商后，西呂國送給他一條藏獒，他沉迷其中，大臣勸諫說“玩物喪志”，提醒他要專心工作。這些成語雖然簡單，卻飽含了豐富的歷史和智慧。

所以，語言不僅是知識的載體，還是一種高度抽象的符號系統，它對我們的認知有深刻的影響，參與了我們的各種活動。

我們通常認為，語言能力強的人，智能也較高。比如，在招學生時，我們更喜歡口齒伶俐的同學，因為他們通常能更好地表達自己的想法，做科研時也會更順利.

另外，從可行性角度來看，相比語音、視覺或視頻數據，文本數據的收集成本要低得多，因此，以語言為中心構建人工智能模型更為方便。

這是前幾天學習筆記，分享給你，總結時間留給你。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

大模型何以擅長小樣本學習？ICLR 2025這項研究給出詳細分析

機器之心Pro 2025-04-25 18:44:12
3 跟貼 3
Anthropic CEO豪言LLM黑箱5年內必破！研究員爆料：AI有意識概率已達15%

新智元 2025-04-25 13:04:37
10 跟貼 10

DeepMind果蠅登Nature，強化學習再立功！AI模擬飛行，逼真到腿毛顫抖

新智元 2025-04-24 17:25:28
22 跟貼 22

最后的調教

beebee 2025-02-25 11:08:44
2 跟貼 2
未來汽車的三大變革：量子光合動力、拓撲變形結構與神經織網交

陸地行者 2025-04-24 22:17:16
0 跟貼 0

以前的和現在的數學解題思路，大家喜歡以前的還是現在的呢，網友：現在的邏輯更加完整

童話鶴壁 2025-04-24 10:49:18
139 跟貼 139

基輔市長：烏克蘭或不得不放棄領土

參考消息 2025-04-25 20:21:15
10699 跟貼 10699
中考數學信息卷子，過程寫的符合邏輯才能得滿分哦

三樂大掌柜 2025-04-25 15:52:33
1 跟貼 1

最新實測！文心4.5T/X1T雙卷王登場效果驚人，骨折價卷到DeepSeek

新智元 2025-04-25 15:26:03
17 跟貼 17
國家認證！上海財經大學排名是多少？學科建設成果斐然！

一千零一個志愿 2025-04-25 17:59:19
0 跟貼 0
特朗普的混蛋邏輯，說過的話轉身就變了，誰還敢相信他

老周說趣 2025-04-24 18:32:00
0 跟貼 0
彈無虛發！順溜的“獐子理論”竟成全軍射擊秘訣

冬瓜追劇 2025-04-24 14:10:24
0 跟貼 0
知道長頭發女生洗頭有多麻煩嗎？

有態度的網友005 2025-04-26 02:59:09
1459 跟貼 1459
美國政府瘋狂刪除科研數據，科學家連夜保存研究心血：我們必須爭分奪秒

紅星新聞 2025-04-25 15:47:11
2589 跟貼 2589
上海車展男子用3D掃描儀對大眾展車采集發生沖突遭巨型黑布遮擋

爆料視頻 2025-04-26 12:33:31
1511 跟貼 1511
漁民不讓釣友釣魚，釣友理論無果拿磚頭砸

新知速報 2025-04-24 16:30:01
0 跟貼 0
根據當前的理論、資料，推測45億年前地球可能發生過的重大事件

一飲山河 2025-04-24 11:08:34
1 跟貼 1
董明珠，讓一幫牛鬼蛇神蹦了出來

阿鳧愛吐槽 2025-04-26 08:03:35
2605 跟貼 2605
準“90后”山西壺關縣委常委、副縣長高雅亭赴北京密云掛職

澎湃新聞 2025-04-26 10:28:26
76 跟貼 76
補至103分鐘！VAR兩次長時間介入暗助海港，名記：惡心！水準堪憂

我愛英超 2025-04-25 22:36:47
1860 跟貼 1860
“五一花100塊買票回家”引全網群嘲：貧窮，是父母最失敗的教育

熙熙說教 2025-04-25 20:40:56
11 跟貼 11
2025年CS Ranking——計算機領域專屬全球大學排名發布！

新航道官方號 2025-04-25 19:15:30
4 跟貼 4
OpenAI押注的獨角獸發新VLA模型，讓機器人再也不怕陌生環境

智東西 2025-04-25 14:12:35
2 跟貼 2
西工大新增“2+1個專業”和“智能科學培養方向”

看航空 2025-04-24 11:31:19
3 跟貼 3
男子被狗攆氣不過，掉頭回來找狗狗理論，男子：剛才那股囂張勁呢

新知速報 2025-04-25 11:32:06
0 跟貼 0
一男子街頭被刀捅后躺在地上不動，目擊男子稱：直接捅到心臟了！

爆料視頻 2025-04-26 11:02:29
1457 跟貼 1457
產婦出院回家不方便爬樓老公預訂吊車直接送回家

星辰視頻 2025-04-25 16:47:26
1790 跟貼 1790
小米su7ultra概念車牌，來瞅瞅安裝上之后，會影響原本顏值嗎？

老三說笑 2025-04-24 14:30:58
1 跟貼 1
全國首批！重慶醫科大學新增“健康與醫療保障”專業

上游新聞 2025-04-24 12:03:02
0 跟貼 0
這句話有語法錯誤嗎？（高考語法）

英語兔 2025-04-26 12:25:25
0 跟貼 0
時隔6年，OpenAI又要開源大模型！輕量版Deep Research深夜上線，免費可用

智東西 2025-04-25 19:28:11
13 跟貼 13
從退休保安到“玩具設計師”，他不懂理論知識，全靠實踐經驗。打造出了火箭、摩天輪，讓幼兒園秒變游樂場

新知速報 2025-04-23 16:13:07
0 跟貼 0
海港再獲利！中超VAR現大Bug：把不越位畫成越位，太明目張膽

足球大腕 2025-04-26 01:13:12
27 跟貼 27
李零：現在，中國學古文字的人是“羅王之學”的傳人

尚曦讀史 2025-04-25 09:14:16
8 跟貼 8
尼米茲號航母帶病遠征：美海軍霸權邏輯面臨轉折點

除此深遠輪廓 2025-04-25 08:09:24
0 跟貼 0
多地宣布發錢獎勵結婚，浙江優化完善高校在校學生婚育相關制度

第一財經資訊 2025-04-25 23:46:56
1211 跟貼 1211
騰勢首款概念跑車驚艷亮相！以純粹設計打造極致性能

大眾侃車 2025-04-26 01:24:39
3 跟貼 3
10分鐘學會3D建模，讓模型動起來

賽博圖森 2025-04-25 21:17:29
0 跟貼 0
森林狼掀翻湖人2-1 勒布朗38+10東契奇17+7+8

網易體育 2025-04-26 12:31:03
2497 跟貼 2497
WTA1000馬德里站：鄭欽文0-2不敵波塔波娃，紅土首秀落敗

懂球帝 2025-04-25 23:01:06
2230 跟貼 2230

智遠同學

暢銷書《復利思維》作者；精神生活與商業探索，關注科技人文、消費電商、品牌營銷、商業認知思維等方面。

408文章數 88關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

房產

親子

旅游

軍事航空

家居要聞

手機 / 數碼

房產 / 家居

語言模型到底是什么？

01

02

03

04

聚焦教育數字化，探索單元整體教學——中國教師報課改中國行（英語）公益教研會在莆田舉辦

巴基斯坦防長：我們曾給西方"干臟活" 為此付出了代價

巴基斯坦防長：我們曾給西方"干臟活" 為此付出了代價

去更大的舞臺追夢 專訪中國男籃國手楊瀚森

金掃帚獎出爐，包貝爾意外獲“影帝”

韓國的"宇樹科技" 是怎樣被財閥毀掉的?

李斌：對蔚來公司四季度盈利非常有信心

充電5分鐘續航100公里 探訪華為兆瓦超充站

態度原創

清徐現代 有溫度有態度

逆勢大幅漲價！最高2.8萬/平！長天雲汀開盤又賣爆了！

孩子的教育要正確，家長和老師共同配合

熱聞|清明假期將至，熱門目的地有哪些?

印巴交火 從“斷水”到“反制”

去更大的舞臺追夢專訪中國男籃國手楊瀚森

充電5分鐘續航100公里探訪華為兆瓦超充站

清徐現代有溫度有態度

印巴交火從“斷水”到“反制”